معرّف ArXiv: 2312.00794v1
مصدر LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2312.00794v1_extracted/main.tex
تاريخ التحويل: 2025-06-06 13:15:51

توزيعات ابتدائية موجَّهة بالبيانات لتحسين تكميم عدم اليقين في النماذج متعددة الأنماط للرعاية الصحية

\(^1\) جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربية المتحدة
\(^2\) جامعة نيويورك، نيويورك، الولايات المتحدة الأمريكية

الملخّص

تُعَدّ نُظُم دعم القرار السريري المُعزَّزة بالتعلُّم الآلي واعدةً في تحسين جودة رعاية المرضى. غير أنّ الجهود الحالية لتكميم عدم اليقين منهجيًّا غالبًا ما تقتصر على حلول ارتجالية لا تُحسِّن موثوقية النماذج على نحوٍ كافٍ. في هذا العمل، ندرس الشبكات العصبية العِشوائية ونصمِّم توزيعًا ابتدائيًّا موجَّهًا بالبيانات مُتعدِّدة الأنماط (m2d2) على معلمات الشبكة. نعتمد على استدلال تبايني غاوسي بسيط وقابل للتوسّع لتدريب شبكة عصبية بايزية باستخدام التوزيع الابتدائي m2d2. درَّبنا وقيَّمنا المنهج المقترح على بيانات سلاسل زمنية سريرية من MIMIC-IV وصور أشعة صدر من MIMIC-CXR لتصنيف حالات حادّة متعددة التسميات. تُظهر النتائج التجريبية أنّ منهجنا يُنتج نموذجًا تنبؤيًّا أكثر موثوقية مقارنةً بالنماذج الحتمية والشبكات العصبية البايزية القياسية.

تكميم عدم اليقين، بيانات رعاية صحية مُتعدِّدة الأنماط، الاستدلال البايزي

المقدّمة

يتطلّب التعلُّم الآلي الموثوق في الرعاية الصحية تكميمًا قويًّا لعدم اليقين نظرًا لحساسية قرارات السلامة في الممارسة السريرية. وقد تنشأ مصادر عدم اليقين من معلمات النموذج، أو الضوضاء والتحيّز في بيانات المعايرة، أو عند نشر النموذج في سيناريوهات خارج التوزيع .

للأسف، تجاهلت الأدبيات في تعلُّم الآلة للرعاية الصحية بدرجةٍ كبيرة تطوير حلول مخصّصة لتحسين تكميم عدم اليقين ، ويرجع ذلك جزئيًّا إلى محدودية النظرية حول كيفية تكييف عدم اليقين التنبؤي مع المهام السريرية . وتشمل تحدّيات إضافيةً: صعوبة توسيع تكميم عدم اليقين ليعمل في أنظمة سريرية فورية، وقلّة التقييم التجريبي بسبب غياب توزيعات ابتدائية يصوغها خبراء طبيون ، والانتشار العالي لتحوّلات البيانات في التطبيقات الواقعية، وهو ما قد يضرّ بالأداء التنبؤي ؛ لذا تبرز الحاجة إلى نماذج أكثر موثوقية.

وعلى الرغم من انتشار التعلُّم مُتعدِّد الأنماط، فقد ركّز معظم العمل السابق على الإعداد أحاديّ النمط، لا سيّما في تطبيقات التصوير الطبي ، مثل: تقسيم أورام الدماغ ، وتقسيم آفات الجلد ، والكشف عن اعتلال الشبكيّة السُّكّري وغيرها. وبالتالي يبقى تكميم عدم اليقين التنبؤي على نحوٍ فعّال في المشكلات السريرية مُتعدِّدة الأنماط تحدّيًا مفتوحًا .

نقترح توزيعًا ابتدائيًّا موجَّهًا ببيانات مُتعدِّدة الأنماط (m2d2) على معلمات الشبكات العصبية لتحسين تكميم عدم اليقين عند دمج صور أشعة الصدر مع السلاسل الزمنية السريرية. نقيس فعالية التوزيع الابتدائي على مكوّنين أحاديَّي النمط داخل شبكة الدمج: شبكة التفافات للصور، وشبكة متكرّرة للسلاسل الزمنية. وباختصار، نقدّم الإسهامات التالية:

  1. تصميم توزيع ابتدائي موجَّه بالبيانات مُتعدِّدة الأنماط (m2d2) على معلمات الشبكة العصبية يضع كثافة احتمالية عالية للدوالّ التنبؤية المرغوبة.

  2. تقييم الطريقة على مجموعتَي بيانات عامّتَين كبيرتَين مُتعدِّدتي الأنماط: MIMIC-IV وMIMIC-CXR لتصنيف الحالات الحادّة في وحدات العناية المركّزة.

  3. إظهار تحسّن في الأداء التنبؤي وزيادة موثوقية التنبؤات الحسّاسة لعدم اليقين.

الأعمال ذات الصلة

التعلُّم مُتعدِّد الأنماط في الرعاية الصحية

يهدف التعلُّم مُتعدِّد الأنماط في الرعاية الصحية إلى استغلال المعلومات التكميلية من مصادر بيانات مختلفة لتعزيز القدرات التنبؤية للنماذج. ومن أشهر أساليب استغلال هذه المعلومات الدمجُ مُتعدِّد الأنماط . على سبيل المثال، درس و أساليب الدمج في تقسيم الصور العصبية باستثمار أنماط تصويرية متعدِّدة ضمن خطّ البيانات ذاته. كما ركّزت دراسات حديثة على بناء تطبيقات رعاية صحية ذكية بدمج إشارات من حسّاسات طبية متنوّعة . وأظهرت أعمال أخرى تحسّنًا في الأداء عند استخدام أنماط متعدِّدة للتنبؤ بمآلات مرضى كوفيد-19 .

على الرغم من الوعود التي يقدّمها التعلُّم مُتعدِّد الأنماط، لا تزال الأبحاث حول تكميم عدم اليقين الموثوق في هذا السياق محدودة. فلا توجد حتى الآن منهجيات عامة لتكميم عدم اليقين تعالج تحوّلات التوزيع وتعامل أنماط بيانات متعدِّدة في آنٍ واحد .

الاستدلال التبايني في الشبكات العصبية

نعتبر شبكة عصبية عِشوائية \(f(\cdot \,; \Theta)\) مُعرَّفةً بمعلمات عِشوائية \(\Theta \in \mathbb{R}^{P}\). لموديل الملاحظة \(p_{Y | X, \Theta}\) وتوزيع ابتدائي على المعلمات \(p_{\Theta}\)، يقدّم الاستدلال البايزي إطارًا رياضيًّا لاشتقاق التوزيع البَعدي على المعلمات بعد مشاهدة البيانات \(p_{\Theta | \mathcal{D}}\) . وبسبب لاخطية الشبكات العصبية في معلماتها، يتعذّر الاستدلال الدقيق تحليليًّا.

الاستدلال التبايني يحوِّل الاستدلال البَعدي إلى مسألة تقريبٍ للتوزيع \(p_{\Theta | \mathcal{D}}\) بتوزيعٍ تقريبي \(q_{\Theta}\) عبر مسألة تحسين: \[\begin{aligned} \min\nolimits_{q_{\Theta} \in \mathcal{Q}_{\Theta}} D_{\text{KL}}\infdivx{q_{\Theta}}{p_{\Theta | \mathcal{D}}} \Longleftrightarrow \max\nolimits_{q_{\Theta} \in \mathcal{Q}_{\Theta}} \mathcal{F}(q_{\Theta}) ,\end{aligned}\] حيث هدف الاستدلال التبايني: \[\begin{aligned} \mathcal{F}(q_{\Theta}) \,\dot{=}\, \mathbb{E}_{q_{\Theta}}[\log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}}, \Theta) ] - D_{\text{KL}}\infdivx{q_{\Theta}}{p_{\Theta}} , \label{eq:elbo}\end{aligned}\] و\(\mathcal{Q}_{\Theta}\) عائلة التوزيعات التقريبية ، و\((x_{\mathcal{D}}, y_{\mathcal{D}})\) بيانات التدريب. ومن أبسط الأنواع “الاستدلال التبايني بحقلٍ مُتوسِّط غاوسي” الذي يُقرِّب التوزيع البَعدي على معلمات الشبكة بتوزيع غاوسي ذي تغايرٍ قطري، ما يُمكّن من تحسينٍ عشوائي وقابلية للتوسّع إلى شبكات كبيرة . غير أنّ دراساتٍ عدّة أظهرت ضعف أدائه عند استخدام توزيعات ابتدائية غاوسية غير معلوماتية .

لتحسين الأداء، نوسِّع نهج إلى الشبكات العصبية العِشوائية، ونبني توزيعًا ابتدائيًّا موجَّهًا بالبيانات من مدخلات مُتعدِّدة الأنماط، ثم نستخدمه داخل حقلٍ مُتوسِّط غاوسي لتحسين أداء الشبكات العصبية في مهام التنبؤ السريري مُتعدِّد الأنماط.

بناء توزيعات ابتدائية موجَّهة بالبيانات للنماذج مُتعدِّدة الأنماط

نعتبر مهمّة دمج إشارات مُتعدِّدة الأنماط تحت إشراف على بيانات \(\mathcal{D}\doteq\{(x^{1}_n, x^{2}_n,{y}_n^{\textrm{fusion}})\}^{\mathit{N}}_{n=1}=(X^{1}_\mathcal{D},X^{2}_\mathcal{D},{Y}_\mathcal{D})\). نعدُّ النمط الأوّل سلاسل زمنية سريرية مُستخرَجة من السجلات الطبية الإلكترونية نرمز لها بـ\(X^{\textrm{ehr}}\)، والثاني صور أشعة الصدر \(X^{\textrm{cxr}}\). لكلّ عيّنة \((x^{\textrm{ehr}}, x^{\textrm{cxr}})\) تُعالج المدخلات بمُشفِّرَين \(\Phi_{\textrm{ehr}}\) و\(\Phi_{\textrm{cxr}}\)، ثم تُدمَج التمثيلات وتُمرَّر إلى مُصنِّف \(g(\cdot)\) ودالّة تفعيل لحساب التنبؤ النهائي \(\hat{y}^{\textrm{fusion}}\). تُحسَب الخسارة بالنظر إلى التنبؤات والتسميات الحقيقية \(y^{\textrm{fusion}} \in \mathcal{Y}\)، حيث \(\mathcal{Y}\subseteq\{0,1\}^\mathit{Q}\) و\(\mathit{Q}>1\) في حالة التصنيف مُتعدِّد التسميات.

توزيعات ابتدائية معلوماتية للبيانات مُتعدِّدة الأنماط

عنصرٌ محوريّ في تعريف النموذج الاحتمالي لِتكميم عدم اليقين لدينا هو اختيار توزيع ابتدائي مُعبِّر وقابل للتفسير. نبني توزيعًا ابتدائيًّا على المعلمات يضع كثافة احتمالية عالية على القيم التي تُنتج دوالّ تنبؤية ذات عدم يقين عالٍ عند نقاط إدخال تختلف جوهريًّا عن بيانات التدريب. لتحقيق ذلك، نستند إلى ونستخدم معلوماتٍ من النمطين لبناء توزيع ابتدائي موجَّه بالبيانات يُعين في الوصول إلى توزيعٍ بَعديٍّ تقريبي ذي خصائص مرغوبة (مثل توزيع تنبّؤي موثوق في تقدير عدم اليقين). على نحوٍ أدق، نبني توزيعًا ابتدائيًّا على مجموعةٍ من معلمات النموذج \(\Psi\) مُشروطًا بمجموعةٍ من نقاط السياق \(\tilde{X}\)، أي \(p(\psi \,|\, \tilde{x})\). كما نبيّن لاحقًا أنّه يمكن اشتقاق هدفٍ تبايني قابلٍ للحساب باستخدام هذا التوزيع الابتدائي.

لبناء توزيع ابتدائي مُعبِّر، يلزم تحديد توزيع على نقاط السياق \(p_{\tilde{X}}\). نصمِّم توزيعًا ابتدائيًّا مُتعدِّد الأنماط بجعل \(\tilde{X}\) مجموعةً من نقاط الإدخال المُولّدة عشوائيًّا \((\tilde{X}^{\textrm{ehr}}, \tilde{X}^{\textrm{cxr}})\) والمُصمّمة لتكون خارج توزيع التدريب. لبيانات السلاسل الزمنية السريرية، نبني \(\tilde{X}^{\textrm{ehr}}\) بتطبيق ثلاث تحويلات: حذف مقطع البداية، وإضافة ضوضاء غاوسية، وعكس ترتيب السلسلة الزمنيّة. أمّا لصور أشعة الصدر فنطبّق سبع تحويلات تمثّل اضطرابات واقعية: الاقتطاع العشوائي، والانعكاس الأفقي/الرأسي العشوائي، والتمويه الغاوسي، والتشميس العشوائي، والعكس اللوني العشوائي، وتذبذب الألوان.

بذلك تضمّ مجموعة السياق نقاطًا متحوِّلة توزيعيًّا ينبغي أن يُظهر النموذج عليها عدم يقين مرتفعًا.

التقييم التجريبي

لتقييم المنهج، جمعنا سلاسل زمنية سريرية من MIMIC-IV وصور أشعة صدر من MIMIC-CXR لذات إقامة المريض في العناية المركّزة، وأجرينا تصنيفًا مُتعدِّد التسميات للحالات الحادّة.

إعداد التجارب

اتّبعنا خطوات ما قبل المعالجة وبنية الشبكة (MedFuse) كما في . المُشفِّر \(\Phi_{\textrm{ehr}}\) شبكة LSTM بطبقتين ، و\(\Phi_{\textrm{cxr}}\) شبكة ResNet‑34 ، و\(g(\cdot)\) طبقة كاملة الاتصال، و\(\hat{y}^{\textrm{fusion}}\) احتمالات تصنيف بعد سيغمُويد. استخدمنا مجموعة بيانات مُقترَنة بحيث تحتوي كل عيّنة على كلا النمطين (أي لا توجد أنماط مفقودة). كانت أحجام مجموعات التدريب/التحقّق/الاختبار: \(7756\)، \(877\)، \(2161\) عيّنة على التوالي. بُنيت مجموعة السياق من مجموعة التدريب.

درَّبنا الشبكة مُتعدِّدة الأنماط 400 حقبة باستخدام دالّة الخسارة المبينة لاحقًا، مع خوارزمية آدم، وحجم دفعة \(16\)، ومعدّل تعلُّم \(2\times10^{-4}\). تفاصيل إضافية حول الإعداد وضبط المعاملات واردة في الملحق.

معايير التقييم

قيَّمنا الأداء الإجمالي على مجموعة الاختبار باستخدام “المساحة تحت منحنى خصائص المُستقبِل” (AUROC) و“المساحة تحت منحنى الدقّة‑الاسترجاع” (AUPRC) .

بالإضافة إلى ذلك، حسبنا مقاييس “التنبؤ الانتقائي” لتقييم عدم اليقين على نحوٍ أفضل. يُعدِّل التنبؤ الانتقائي خطّ الأنابيب التنبؤي بإدخال خيار “الرفض” \(\bot\) عبر آلية انتقاء تُقرّر ما إذا كان يجب إصدار تنبؤ لنقطة إدخالٍ معيّنة \(x\in\mathcal{X}\) . لعتبة رفضٍ \(\tau\) وباستخدام مقياس عدم يقين \(s\) (مثل إنتروبيا التنبؤ)، يكون النموذج: \[\begin{aligned} (p(y\,|\,\cdot,\mathbf{\theta};f),s)(x) = \begin{cases} p(y\,|\,x,\mathbf{\theta};f), & \text{إذا كان}\ s\le \tau \\ \bot, & \text{خلاف ذلك} \end{cases}\end{aligned}\] نقيس AUROC وAUPRC عبر عتبات الرفض \(\tau=0\%,\ldots,99\%\) ثم نأخذ المتوسّط عبر العتبات؛ وفي التصنيف مُتعدِّد التسميات نُبلِّغ المتوسّط عبر 25 تسمية.

النتائج

نلخِّص النتائج على مجموعة الاختبار كما يلي: حقّقت الشبكة العصبية البايزية مع التوزيع الابتدائي m2d2 أفضل AUROC وAUPRC (0.735 و0.514 على الترتيب) مقارنةً بالنموذج الحتمي (0.726 و0.503). كما حقّقت مقاييس انتقائية أعلى (AUROC=0.748 وAUPRC=0.452) مقابل الحتمي (0.724 و0.439). وكانت الانتقائية مماثلة عند استخدام توزيع ابتدائي قياسي.

لاحظنا كذلك انخفاضًا في AUPRC الانتقائي مقارنةً بـ AUPRC عند رفض 0%، وهو ما قد يحدث عندما يكون النموذج غير مُعايَرٍ جيدًا: إذا كان AUPRC لأيّ عتبة رفضٍ أدنى من قيمته عند 0%، فقد ينخفض المعدّل الانتقائي. عمومًا تعكس درجات التنبؤ الانتقائي قدرة النموذج على تحديد العيّنات الأكثر عُرضةً للخطأ والتي ينبغي مراجعتها من الطبيب، لذا فهي مفيدة لتقييم الموثوقية في البيئات السريرية.

الخلاصة

صمَّمنا توزيعًا ابتدائيًّا موجَّهًا ببيانات مُتعدِّدة الأنماط (m2d2) لتحسين موثوقية دمج السلاسل الزمنية السريرية مع صور أشعة الصدر. أظهرنا أنّ الشبكات العصبية البايزية مع هذا التوزيع تُحقق أداءً أفضل من النماذج الحتمية من حيث AUROC وAUPRC ودرجات التنبؤ الانتقائي. في أعمالٍ لاحقة نهدف إلى تقييم المنهج في وجود أنماطٍ مفقودة، وعلى مهامّ إضافية مثل التنبؤ بالوفيات داخل المستشفى، وعلى مجموعات بيانات مُتعدِّدة الأنماط أخرى.

الشكر والتقدير

أُجري هذا البحث باستخدام موارد الحوسبة عالية الأداء في جامعة نيويورك أبوظبي. كما نشكر الدكتور أليخاندرو غيرا مانزاناريس (باحث ما بعد الدكتوراه) على المناقشات المفيدة ودعمه في إعادة هيكلة الشيفرة من PyTorch إلى JAX.

الهدف التبايني

ليكن التابع \(f\) في نموذج الملاحظة البارامتري \(p_{Y | X, \Theta}(y \,|\,x, \theta; f)\) مُعرَّفًا بـ \(f(\cdot \,; \theta) \,\dot{=}\,h(\cdot \,; \theta_{h}) \theta_{L}\). في الشبكة العصبية، \(h(\cdot \,; \theta_{h})\) ناتجُ الطبقة قبل الأخيرة بعد التفعيل، \(\Theta_{L}\) معلماتُ الطبقة النهائية العِشوائية، و\(\Theta_{h}\) معلماتُ الطبقات السابقة، و\(\Theta \,\dot{=}\,\{ \Theta_{h} , \Theta_{L}\}\) مجموعةُ المعلمات الكاملة.

لاشتقاق توزيع ابتدائي يأخذ عدم اليقين على مجموعة المعلمات \(\Theta\) بالحسبان، نبدأ بمسألة استدلال مساعدة. لتكن \(\tilde{x} = \{ x_{1}, \ldots, x_{M} \}\) نقاط السياق مع تسمياتها \(\tilde{y}\)، ونُعرِّف دالّة الاحتمال \(\tilde{p}_{Y | X, \Theta}(\tilde{y} \,|\,\tilde{x} , \theta)\) وتوزيعًا ابتدائيًّا على المعلمات \(p_{\Theta}(\theta)\). باستخدام بايز يمكن كتابة: \[\begin{aligned} \tilde{p}(\theta \,|\,\tilde{x}, \tilde{y}) \propto \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta_{h}) \, p(\theta_{h}) \, p(\theta_{L}) . \end{aligned}\] لتعريف دالّة احتمالٍ تُنتِج بَعديًّا بخصائص مرغوبة، نتبع ونعتبر النموذج الخطي العِشوائي لأي مجموعة نقاط \(x \,\dot{=}\,\{ x_{1}, \ldots, x_{M'} \}\): \[\begin{aligned} \tilde{Y}_{k}(x) \,\dot{=}\, h(x ; \theta_{h}) \, \Theta_{k} + \varepsilon, \quad \Theta_{k} \sim \mathcal{N}\!\big(m_{k}, \,\tau_{f}^{-1} s_{k} I\big), \quad \varepsilon \sim \mathcal{N}(\mathbf{0}, \tau_{f}^{-1}\beta I) \end{aligned}\] لأبعاد الإخراج \(k = 1, \ldots, K\)، حيث \(h(\cdot \,; \theta_{h})\) تمثيلٌ مميِّز، و\(\tau_{f}\) و\(\beta\) ثوابت تباين، و\(m \in \mathbb{R}^{P_{L}}\) و\(s \in \mathbb{R}^{P_{L}}\) معاملاتٌ ثابتة مؤقّتًا. هذا النموذج الخطي يُولِّد توزيعًا على الدوالّ يُعطى عند تقييمه على \(\tilde{x}\) بـ: \[\begin{aligned} \mathcal{N}\!\big(\tilde{y}_{k}(\tilde{x}) ;\, h(\tilde{x} ; \theta_{h}) m_{k}, \, \tau_{f}^{-1} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} \big) , \label{eq:induced_prior_distribution}\end{aligned}\] حيث \[\begin{aligned} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} \,\dot{=}\, h(\tilde{x} ; \theta_{h}) ( s_{k} I ) h(\tilde{x} ; \theta_{h})^\top + \beta I \label{eq:covariance}\end{aligned}\] مصفوفةُ التغاير. باعتبار هذه الكثافة على تقييمات الدوالّ دالّةَ احتمالٍ مُعلمة بـ\(\theta\)، نُعرِّف: \[\begin{aligned} \begin{split} \tilde{p}(\tilde{y}_{k} \,|\,\tilde{x} , \theta_{h}) \,\dot{=}\, \mathcal{N}\!\big(\tilde{y}_{k} ;\, h(\tilde{x} ; \theta_{h}) m_{k} , \tau_{f}^{-1} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} \big), \label{eq:aux_likelihood} \end{split}\end{aligned}\] دون افتراض \(m = \mathbf{0}\) أو \(s = I\). إذا عرَّفنا توزيع التسميات المساعدة \(p_{\smash{\tilde{Y} \,|\,\tilde{X}}}(\tilde{y} \,|\,\tilde{x}) \,\dot{=}\,\delta(\{\mathbf{0}, \ldots, \mathbf{0} \} - \tilde{y})\)، فإن دالّة الاحتمال تُفضِّل \(\theta_{h}\) التي تجعل التوزيع الناتج يُسنِد احتمالًا عاليًا للتنبؤ بـ\(\mathbf{0}\). بجمع الأبعاد: \[\begin{aligned} \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta) \,\dot{=}\, \prod\nolimits_{k = 1}^{K} \tilde{p}(\tilde{y}_{k} \,|\,\tilde{x} , \theta, m_{k}, s_{k}) , \end{aligned}\] وبأخذ اللوغاريتم: \[\begin{aligned} \log \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta_{h}) \propto -\sum\nolimits_{k = 1}^{K} \frac{\tau_{f}}{2} \,\big(h(\tilde{x} ; \theta_{h}) m_{k}\big)^\top K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k}^{-1} h(\tilde{x} ; \theta_{h}) m_{k} . \end{aligned}\] ونُعرِّف: \[\begin{aligned} \begin{split} \mathcal{J}(\theta, m, s, \tilde{x}, \tilde{y}) \,\dot{=}\, -\sum\nolimits_{k = 1}^{K} \frac{\tau_{f}}{2} \, d^{2}_{M}\!\big(h(\tilde{x} ; \theta_{h}) m_{k} - \tilde{y}, \, K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} \big), \label{eq:fs_map_regularizer} \end{split}\end{aligned}\] حيث \(d^{2}_{M}(\Delta, K)=\Delta^\top K^{-1} \Delta\) مربعُ مسافة ماهالانوبِس. إذًا \[\begin{aligned} \mathop{\mathrm{arg\,max}}\nolimits_{\theta} \tilde{p}(\theta \,|\,\tilde{x}, \tilde{y}) = \mathop{\mathrm{arg\,max}}\nolimits_{\theta}\big[\mathcal{J}(\theta, m, s, \tilde{x}, \tilde{y}) + \log p(\theta)\big]. \end{aligned}\]

لأن \(m\) و\(s\) ثابتان ويظهران فقط في دالّة الاحتمال المساعدة، فليس الهدف مناسبًا إذا أردنا معلمات \(\theta\) التي تُنتج دوالّ ذات عدم يقين مرتفع على نقاط السياق. لمعالجة ذلك، نُدرج هذين المعلمَين كوسيط وتباين للطبقة النهائية في \(f(\cdot \,; \theta)\)، ونعاملهما كمتغيِّراتٍ عِشوائية \(M\) و\(S\) مع توزيعات فوق‑ابتدائية.

على وجه التحديد، نُعرِّف: \[\begin{aligned} p_{\Theta_{L}}(\theta_{L} \,|\,m, s) = \mathcal{N}(\theta_{L} ; m, s I) \end{aligned}\] والتوزيعات الفوق‑ابتدائية: \[\begin{aligned} p_{M}(m) & = \mathcal{N}(m ; \mu_{0}, \tau_{0}^{-1} I), \\ p_{S}(s) & = \textrm{Lognormal}(s ; \mathbf{0}, 2 \tau^{-1}_{s} I). \end{aligned}\] فيصبح النموذج الاحتمالي الكامل: \[\begin{aligned} p(y \,|\,x, \theta_{h}, \theta_{L}; f) \, p(\theta, m, s \,|\,\tilde{x}, \tilde{y}) . \end{aligned}\] مع التوزيع الابتدائي: \[\begin{aligned} \begin{split} p(\theta, m, s \,|\,\tilde{x}, \tilde{y}) & = \tilde{p}(\theta_{h} \,|\,m, s, \smash{\tilde{x}, \tilde{y}}) \, p(\theta_{L} \,|\,m, s) \, p(m) \, p(s) \\ & \propto p(\theta_{L} \,|\,m, s) \, \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta ; f) \, p(\theta_{h}) \, p(m) \, p(s), \end{split}\end{aligned}\] وجميع الحدود قابلة للحساب التحليلي. وباستخدام هذا التوزيع الابتدائي نشتق هدفًا تباينيًّا ونُجري الاستدلال.

نبدأ بتوزيع تقريبي: \[\begin{aligned} q(\theta, m, s, \tilde{x}, \tilde{y}) \,\dot{=}\, q(\theta_{h}) \, q(\theta_{L} \,|\,m, s) \, q(m) \, q(s) \, q(\tilde{x}, \tilde{y}) , \end{aligned}\] ونصوغ المسألة: \[\begin{aligned} \min_{q_{\Theta, M, S, \tilde{X}, \tilde{Y}} \in \mathcal{Q}} D_{\text{KL}}\infdivx{q_{\Theta, M, S, \tilde{X}, \tilde{Y}}}{p_{\Theta, M, S, \tilde{X}, \tilde{Y} \,|\,X_{\mathcal{D}}, Y_{\mathcal{D}}}} . \end{aligned}\] بجعل \(q(\tilde{x}, \tilde{y}) \,\dot{=}\,p(\tilde{x}, \tilde{y}) = p(\tilde{y} \,|\,\tilde{x}) p(\tilde{x})\) تتبسّط إلى: \[\begin{aligned} \min_{q_{\Theta, M, S} \in \mathcal{Q}} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \!\left[ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}, X_{\mathcal{D}}, Y_{\mathcal{D}}}} \right], \end{aligned}\] وهو ما يعادل تعظيم: \[\begin{aligned} \bar{\mathcal{F}}(q_{\Theta}, q_{M}, q_{S}) \,\dot{=}\, \mathbb{E}_{q_{\Theta, M, S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ] - \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \!\big[ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \big]. \end{aligned}\] ولحساب الحدّ التنظيمي: \[\begin{aligned} \begin{split} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \!\big[ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \big] = \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \Big[ \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log q(\Theta) q(M) q(S) ] - \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}) ] \Big]. \end{split}\end{aligned}\] وبالتماثل: \[\begin{aligned} \begin{split} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}) ] ] \propto \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \Big[\mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} \big[ \log \tilde{p}(\smash{\tilde{Y} \,|\,\tilde{X}} , \Theta_{h}, M, S) \big] + \mathbb{E}_{q_{\Theta}} \big[ \log p(\Theta_{h}) \, p(\Theta_{L} \,|\,M, S) \, p(M) \, p(S) \big] \Big], \end{split}\end{aligned}\] ومنه: \[\begin{aligned} \begin{split} D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \propto - \mathbb{E}_{q_{M} q_{S}} \Big[ \mathbb{E}_{q_{\Theta}} [\log \tilde{p}(\tilde{Y} \,|\,\tilde{X} , \Theta_{h}, M, S) ] + D_{\text{KL}}\infdivx{q_{\Theta_{L} \,|\,M, S}}{p_{\Theta_{L} \,|\,M, S}} \Big] + D_{\text{KL}}\infdivx{q_{\Theta_{h}}}{p_{\Theta_{h}}} + D_{\text{KL}}\infdivx{q_{M}}{p_{M}} + D_{\text{KL}}\infdivx{q_{S}}{p_{S}} . \end{split}\end{aligned}\]

باختيار العائلة التقريبية: \[\begin{aligned} \begin{split} q(\theta_{L} \,|\,m, s) &= \mathcal{N}(\theta_{L} ; m, s I), \\ q(\theta_{h}) &= \mathcal{N}(\theta_{h} ; \mu_{h}, \Sigma_{h}), \\ q(m) &= \mathcal{N}(m ; \mu_{m}, \Sigma_{m}), \\ q(s) &= \textrm{Lognormal}(s ; \mu_{s}, \sigma^{2}_{s} I), \end{split}\end{aligned}\] نحصل على \(D_{\text{KL}}\infdivx{q_{\Theta_{L} \,|\,M, S}}{p_{\Theta_{L} \,|\,M, S}} = 0\)، ويتبسّط الحدّ التنظيمي إلى: \[\begin{aligned} \begin{split} D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \propto - \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [\log \tilde{p}(\tilde{Y} \,|\,\tilde{X} , \Theta_{h}, M, S) ] + D_{\text{KL}}\infdivx{q_{\Theta_{h}}}{p_{\Theta_{h}}} + D_{\text{KL}}\infdivx{q_{M}}{p_{M}} + D_{\text{KL}}\infdivx{q_{S}}{p_{S}} . \end{split}\end{aligned}\] وجميع الحدود قابلة للحساب التحليلي، ويُمكن تقدير لوغاريتم دالّة الاحتمال سالبًا بطريقة مونتي‑كارلو.

وبما أنّ \(\Theta_{h}\) و\(M\) توزيعاتٌ غاوسية، يمكن كتابة الهدف التبايني الكامل بصورةٍ مُدمجة: \[\begin{aligned} \begin{split} \mathcal{F}(\mu, \Sigma) \,\dot{=}\, \underbrace{\mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ]}_{\textrm{متوسِّط لوغاريتم دالّة الاحتمال}} \;-\; \underbrace{D_{\text{KL}}\infdivx{q_{\Phi}}{p_{\Phi}}}_{\textrm{تنظيم KL}} \;+\; \underbrace{ \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [ \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ \log \tilde{p}(\smash{\tilde{Y} \,|\,\tilde{X}} , \Theta_{h}, M, S) ]] \;-\; \tau_{s} \,\| \Sigma_{m} \|_{2}^{2}}_{\textrm{تنظيم عدم اليقين}} , \end{split}\end{aligned}\] حيث \(\Phi \,\dot{=}\,\{ \Theta_{h}, M \}\). نُقدِّر التوقّعات بمونتي‑كارلو، ونحسب التدرّجات باستخدام “حيلة إعادة المعلمة” .

بجعل \(\,p_{\tilde{Y} | \tilde{X}}(\tilde{y} \,|\,\tilde{x}) = \delta(\mathbf{0})\,\) لتشجيع عدم يقينٍ عالٍ على نقاط السياق، نحصل على الصيغة المبسّطة: \[\begin{aligned} \begin{split} \mathcal{F}(\mu, \Sigma) \,\dot{=}\, \underbrace{\mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ]}_{\textrm{متوسِّط لوغاريتم دالّة الاحتمال}} \;-\; \underbrace{D_{\text{KL}}\infdivx{q_{\Phi}}{p_{\Phi}}}_{\textrm{تنظيم KL}} \;+\; \underbrace{ \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [ \mathbb{E}_{p_{\tilde{X}}} [ \log \tilde{p}(\smash{\mathbf{0} \,|\,\tilde{X}} , \Theta_{h}, M, S) ]] \;-\; \tau_{s} \,\| \Sigma_{m} \|_{2}^{2}}_{\textrm{تنظيم عدم اليقين}} \label{eq:final_objective} \end{split}\end{aligned}\]

تفاصيل التجارب

تفاصيل التدريب

استخدمنا بروتوكول الدمج المشترك كما في حيث تُدرَّب الشبكة من الصفر، بما في ذلك مُشفِّرا كلّ نمط \(\Phi_{\textrm{cxr}}\) و\(\Phi_{\textrm{ehr}}\)، مع الطبقة كاملة الاتصال \(g(\cdot)\) للحصول على احتمالات التصنيف مُتعدِّد التسميات \({\hat{y}}_{\textrm{fusion}}\). يوضّح الجدول التالي تفاصيل أحجام البيانات:

ملخّص أحجام مجموعات البيانات الأحادية ومُتعدِّدة الأنماط. نلاحظ أن حجم مجموعة البيانات مُتعدِّدة الأنماط ينخفض عند إقران النمطين.
مجموعة البيانات تدريب تحقّق اختبار سياق
السلاسل الزمنية السريرية 124,671 8,813 20,747 124,671
صور أشعة الصدر 42,628 4,802 11,914 42,628
مُتعدِّد الأنماط 7,756 877 2,161 7,756

استخدمنا خسارة الإنتروبيا الثنائية المُعدّلة للتصنيف مُتعدِّد التسميات: \[\label{equation:loss} \log p(y | x, \theta ; f) = -\sum_{i=1}^{n}\big(y_i\log(\hat{y}_i)+(1-y_i)\log(1-\hat{y}_i)\big) ,\] حيث \(\hat{y}_{i} \,\dot{=}\,\textrm{sigmoid}(f(x_{i} ; \theta))\). يتكوّن هدفُنا التبايني من متوسِّط لوغاريتم دالّة الاحتمال، وتنظيم KL، وتنظيمٍ لعدم اليقين. في الحالة العِشوائية نُدرج بيانات التدريب والسياق لحساب الهدف.

ضبط المعاملات

بدايةً، استخدمنا النموذج الحتمي لاختيار معدّل التعلُّم عشوائيًّا بين \(10^{-5}\) و\(10^{-3}\)، ثم اخترنا أفضل معدّل وفق AUROC على مجموعة التحقّق. كان الأفضل \(2\times10^{-4}\)، وثُبِّت عبر 10 بذور عشوائية.

في النموذج العِشوائي، أجرينا بحثًا شبكيًّا على معاملات التنظيم. يبيّن الجدول التالي نطاق القيم لكلّ معامل (324 توليفة). نُشير إلى أنّ العملية تتطلّب موارد أكثر بسبب عدد المعاملات القابل للضبط، كما تحتوي النماذج العِشوائية على عددٍ أكبر من المعلمات القابلة للتعلّم (تقريبًا الضعف) لوجود متوسط وتغاير، ويستلزم التنظيم تمريرًا أماميًّا على نقاط سياق مأخوذة من توزيع السياق (بعددٍ نختاره أقلّ من حجم الدفعة). إجمالًا، وكما في أيّ حقلٍ مُتوسِّط، لدينا معلمات أكثر وتمريرات أمامية أكثر في كلّ خطوة تدرّجية مقارنةً بالشبكة الحتمية.

قيم شبكة البحث عن المعاملات للنموذج العِشوائي
المعامل القيم الأفضل
تباين التوزيع الابتدائي [1, 0.1, 0.01] 0.1
مقياس احتمالية التوزيع الابتدائي [1, 0.1, 10] 1
مقياس \(f\) لاحتمالية الابتدائي [0, 1, 10] 10
مقياس تباين احتمالية الابتدائي [0.1, 0.01, 0.001, 0.0001] 0.1
قطر تغاير احتمالية الابتدائي [1, 5, 0.5] 5

اختيار النموذج

دُرِّب النموذج العِشوائي 400 حقبة. ولوجود أربعة معايير اهتمام (AUROC، AUPRC، AUROC الانتقائي، AUPRC الانتقائي) استخدمنا “الحجم الفائق” كرئيسي لاختيار أفضل نقطة تحقّق أثناء التدريب، وفق حجم الكرة رباعية الأبعاد: \[\textrm{hypervolume}=\frac{\pi^2\,\mathrm{R}^4}{2}\] حيث \(\mathrm{R}\) مقدار متجه رباعي الأبعاد. يحدّ ذلك من الإفراط في التخصيص لمعيار واحد.

التنفيذ التقني

نُفِّذت عمليّات التحميل وما قبل المعالجة باستخدام PyTorch مع بنية الشيفرة في . لكن أعدنا هيكلة النماذج الأحادية ومُتعدِّدة الأنماط ودورات التدريب/التقييم باستخدام JAX ، ما يُسهِّل الشبكات العصبية البايزية والتدريب العِشوائي، وهما أساس طرق تكميم عدم اليقين لدينا. كما حقّقنا تقليصًا ملحوظًا في زمن التدريب الكلي باستخدام JAX مقارنةً بـ PyTorch.

وبسبب آليات التخزين المؤقّت في JAX، وحّدنا كلّ عيّنة \(x_{\textrm{ehr}}\) إلى 300 خطوةٍ زمنية لمُشفِّر LSTM لتجنّب مشاكل الذاكرة. إذ يتطلّب JAX طولًا ثابتًا للتسلسلات ليقوم بالتخزين المُسبق لتسريع التدريب؛ وإذا استُخدمت أطوال مختلفة سيُنشئ نُسَخًا متعدِّدة من المُشفِّر، ما يسبّب ضغطًا على الذاكرة مع بيانات أطوالها متغيِّرة كما في MIMIC‑IV . بالمقابل، يستطيع PyTorch التعامل مع أطوال متغيِّرة بنسخةٍ واحدة من المُشفِّر لكن بسرعةٍ أدنى.

نُفِّذت التجارب على وحدات NVIDIA A100 وV100 بسعة 80 جيجابايت.

نتائج تجريبية إضافية

نعرض نتائج إضافية على مجموعة الاختبار. يوضّح الجدول التالي تأثير حجم دفعة السياق.

نتائج الأداء على مجموعة الاختبار للنموذج العِشوائي مع اختلاف حجم دفعة السياق.
حجم الدفعة AUROC AUPRC AUROC انتقائي AUPRC انتقائي
16 0.732 (0.725, 0.739) 0.511 (0.502, 0.525) 0.740 (0.728, 0.753) 0.447 (0.432, 0.469)
32 0.733 (0.725, 0.739) 0.510 (0.500, 0.524) 0.743 (0.733, 0.756) 0.448 (0.435, 0.466)
64 0.735 (0.728, 0.742) 0.514 (0.504, 0.528) 0.748 (0.738, 0.760) 0.452 (0.441, 0.472)
128 0.733 (0.726, 0.739) 0.512 (0.502, 0.525) 0.728 (0.718, 0.739) 0.401 (0.391, 0.418)

وتَرِد النتائج الموسّعة لكلّ تسمية على حدة للنموذج الحتمي، والنموذج البايزي مع ابتدائي قياسي، والنموذج البايزي مع m2d2 في الجداول المُلحقة التالية.


تمّ تحويل هذا الإصدار من LaTeX إلى HTML تلقائيًّا.
عُرِضت المعادلات الرياضية باستخدام MathJax.