معرّف ArXiv: 2312.00794v1
مصدر LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2312.00794v1_extracted/main.tex
تاريخ التحويل: 2025-06-06 13:15:51

تطبيق الذكاء الاصطناعي في تشخيص السرطان من خلال تحليل الصور الطبية

\(^{1,2}\)
\(^{2}\)
\(^{1,2}\)
\(^1\)جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربية المتحدة
\(^2\)جامعة نيويورك، نيويورك، الولايات المتحدة الأمريكية

الملخص

تُعد نظم دعم القرار السريري المعززة بالتعلم الآلي واعدة في تحسين جودة رعاية المرضى بشكل كبير. إلا أن الجهود الحالية في هذا المجال لتكميم عدم اليقين بشكل منهجي تقتصر غالبًا على تطبيق حلول ارتجالية لا تؤدي دائمًا إلى تحسين موثوقية النماذج. في هذا العمل، ندرس الشبكات العصبية العشوائية ونصمم توزيعا ابتدائيا موجها بالبيانات متعددة الأنماط (m2d2) على معلمات الشبكة. نعتمد على استدلال تقريبي غاوسي بسيط وقابل للتوسع لتدريب شبكة عصبية بايزية باستخدام التوزيع الابتدائي m2d2. قمنا بتدريب وتقييم المنهج المقترح باستخدام بيانات زمنية سريرية من قاعدة بيانات MIMIC-IV وصور أشعة الصدر من MIMIC-CXR لتصنيف الحالات الحادة. أظهرت نتائجنا التجريبية أن المنهج المقترح ينتج نموذجًا تنبؤيًا أكثر موثوقية مقارنة بالنماذج الحتمية والشبكات العصبية البايزية التقليدية.

تكميم عدم اليقين، بيانات الرعاية الصحية متعددة الأنماط، الاستدلال البايزي

المقدمة

يتطلب التعلم الآلي الموثوق في الرعاية الصحية تكميمًا قويًا لعدم اليقين ، نظرًا للطبيعة الحساسة للسلامة في الممارسة السريرية. يمكن أن تنشأ مصادر عدم اليقين من معلمات النموذج، أو الضوضاء والتحيز في بيانات المعايرة، أو عند نشر النموذج في سيناريوهات خارج التوزيع .

للأسف، تجاهلت الأدبيات في مجال التعلم الآلي للرعاية الصحية إلى حد كبير تطوير حلول مخصصة لتحسين تكميم عدم اليقين ، وربما يعود ذلك إلى محدودية النظرية الأساسية حول كيفية تكييف عدم اليقين التنبؤي في المهام السريرية . وتشمل التحديات الأخرى تعقيد توسيع تكميم عدم اليقين في الأنظمة السريرية الفورية، وقلة التقييم التجريبي للطرق المختلفة بسبب نقص التوزيعات الابتدائية المبنية من قبل خبراء طبيين ، والانتشار العالي لتحولات البيانات في التطبيقات السريرية الواقعية، مما قد يؤثر سلبًا على الأداء التنبؤي ، مما يبرز الحاجة إلى نماذج تنبؤية أكثر موثوقية.

بالإضافة إلى ذلك، وعلى الرغم من الانتشار الحديث للتعلم متعدد الأنماط، فقد ركزت معظم الأعمال السابقة في تكميم عدم اليقين في الرعاية الصحية على الإعداد أحادي النمط، مع تركيز خاص على تطبيقات التصوير الطبي . يشمل ذلك تقسيم أورام الدماغ ، وتقسيم آفات الجلد ، ومهام اكتشاف اعتلال الشبكية السكري وغيرها. لذا، يبقى تكميم عدم اليقين التنبؤي بشكل فعال في سياق المشكلات السريرية متعددة الأنماط تحديًا قائمًا وغير محلول .

نقترح توزيعًا ابتدائيًا موجهًا بالبيانات متعددة الأنماط (m2d2) على معلمات الشبكات العصبية لتحسين تكميم عدم اليقين في دمج صور أشعة الصدر مع بيانات السلاسل الزمنية السريرية. نقيم فعالية التوزيعات الابتدائية على مكونين أحاديي النمط في شبكة الدمج: شبكة عصبية التفافية للصور وشبكة عصبية متكررة للسلاسل الزمنية السريرية. باختصار، نقدم المساهمات التالية:

  1. نصمم توزيعًا ابتدائيًا موجهًا بالبيانات متعددة الأنماط (m2d2) على معلمات الشبكة العصبية يضع كثافة احتمالية عالية على الدوال التنبؤية المرغوبة.

  2. نقيم الطريقة على مجموعات بيانات عامة كبيرة متعددة الأنماط: MIMIC-IV وMIMIC-CXR ، لتصنيف الحالات الحادة للمرضى في وحدات العناية المركزة.

  3. توضح نتائجنا تحسنًا في الأداء التنبؤي وزيادة في موثوقية التنبؤات الحساسة لعدم اليقين.

الأعمال ذات الصلة

التعلم متعدد الأنماط في الرعاية الصحية

يهدف التعلم متعدد الأنماط في الرعاية الصحية إلى استغلال المعلومات التكميلية من مصادر بيانات مختلفة لتعزيز القدرات التنبؤية للنماذج. هناك عدة طرق للاستفادة من المعلومات عبر الأنماط المختلفة، وأكثرها شيوعًا هو الدمج متعدد الأنماط . على سبيل المثال، درس و طرق الدمج في تقسيم الصور العصبية من خلال الاستفادة من أنماط تصويرية مختلفة في نفس خط البيانات. كما ركزت دراسة حديثة على تطوير تطبيقات رعاية صحية ذكية من خلال دمج إشارات متعددة الأنماط من أنواع مختلفة من الحساسات الطبية . وأظهرت دراسات أخرى تحسن الأداء التنبؤي عند استخدام أنماط متعددة في مهام التنبؤ بمآل مرضى كوفيد-19 .

ورغم الوعود التي يقدمها التعلم متعدد الأنماط في الرعاية الصحية، إلا أن الأبحاث حول تطبيقات تكميم عدم اليقين الموثوقة في هذا السياق لا تزال محدودة. فلا يوجد حتى الآن استخدام عام لطرق تكميم عدم اليقين التي تعالج تحولات التوزيع وتتعامل مع أنماط بيانات متعددة في آن واحد .

الاستدلال التقريبي في الشبكات العصبية

نعتبر شبكة عصبية عشوائية \(f(\cdot \,; \Theta)\) معرفة بمعلمات عشوائية \(\Theta \in \mathbb{R}^{P}\). بالنسبة لنموذج الملاحظة \(p_{Y | X, \Theta}\) وتوزيع ابتدائي على المعلمات \(p_{\Theta}\)، يوفر الاستدلال البايزي إطارًا رياضيًا لإيجاد التوزيع البعدي على المعلمات بعد مشاهدة البيانات \(p_{\Theta | \mathcal{D}}\) . لكن، وبسبب لاخطية الشبكات العصبية في معلماتها، فإن الاستدلال الدقيق على المعلمات العشوائية غير ممكن تحليليًا.

الاستدلال التقريبي هو نهج يهدف إلى تجاوز هذه الصعوبة من خلال صياغة الاستدلال البعدي كمشكلة تقريب \(q_{\Theta}\) للتوزيع البعدي \(p_{\Theta | \mathcal{D}}\) عبر مسألة تحسين تقريبي: \[\begin{aligned} \min\nolimits_{q_{\Theta} \in \mathcal{Q}_{\Theta}} D_{\text{KL}}\infdivx{q_{\Theta}}{p_{\Theta | \mathcal{D}}} \Longleftrightarrow \max\nolimits_{q_{\Theta} \in \mathcal{Q}_{\Theta}} \mathcal{F}(q_{\Theta}) ,\end{aligned}\] حيث \(\mathcal{F}(q_{\Theta})\) هو الهدف التقريبي: \[\begin{aligned} \mathcal{F}(q_{\Theta}) \,\dot{=}\, \mathbb{E}_{q_{\Theta}}[\log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}}, \Theta) ] - D_{\text{KL}}\infdivx{q_{\Theta}}{p_{\Theta}} , \label{eq:elbo}\end{aligned}\] \(\mathcal{Q}_{\Theta}\) هي عائلة التوزيعات التقريبية ، و\((x_{\mathcal{D}}, y_{\mathcal{D}})\) هي بيانات التدريب. أحد أبسط أنواع الاستدلال التقريبي هو الاستدلال الغاوسي متوسط الحقل ، حيث يُقرب التوزيع البعدي على معلمات الشبكة بتوزيع غاوسي بقطر تباين قطري. يتيح هذا النهج التحسين العشوائي وقابلية التوسع إلى شبكات كبيرة . ومع ذلك، أظهرت الدراسات أن الاستدلال الغاوسي متوسط الحقل قد يكون أداؤه ضعيفًا عند استخدام توزيعات ابتدائية غاوسية غير معلوماتية .

لتحسين الأداء، قمنا بتوسيع النهج المقدم في ليشمل الشبكات العصبية العشوائية، وبنينا توزيعًا ابتدائيًا موجهًا بالبيانات من مدخلات متعددة الأنماط، واستخدمنا هذا التوزيع في الاستدلال الغاوسي متوسط الحقل لتحسين أداء الشبكات العصبية في مهام التنبؤ السريري متعددة الأنماط.

بناء توزيعات ابتدائية موجهة بالبيانات للنماذج ذات المدخلات متعددة الأنماط

نعتبر مهمة دمج إشارات متعددة الأنماط تحت إشراف على بيانات \(\mathcal{D}\doteq\{(x^{1}_n, x^{2}_n,{y}_n^{\textrm{fusion}})\}^{\mathit{N}}_{n=1}=(X^{1}_\mathcal{D},X^{2}_\mathcal{D},{Y}_\mathcal{D})\). كما هو موضح في الشكل [fig:fusion_encoder]، نعتبر النمط الأول بيانات سلاسل زمنية سريرية مستخرجة من السجلات الطبية الإلكترونية، نرمز لها بـ \(X^{\textrm{ehr}}\)، والثاني صور أشعة الصدر \(X^{\textrm{cxr}}\). لكل عينة \((x^{\textrm{ehr}}, x^{\textrm{cxr}})\)، تتم معالجة النمطين بواسطة مشفرين \(\Phi_{\textrm{ehr}}\) و\(\Phi_{\textrm{cxr}}\)، ثم تُدمج التمثيلات وتُمرر إلى مصنف \(g(\cdot)\) ودالة تفعيل لحساب التنبؤ النهائي \(\hat{y}^{\textrm{fusion}}\). تُحسب الخسارة بناءً على التنبؤات والتسميات الحقيقية \(y^{\textrm{fusion}} \in \mathcal{Y}\)، حيث \(\mathcal{Y}\subseteq\{0,1\}^\mathit{Q}\)، و\(\mathit{Q}>1\) في حالة التصنيف متعدد التسميات.

توزيعات ابتدائية معلوماتية للبيانات متعددة الأنماط

أحد العناصر الأساسية في تعريف النموذج الاحتمالي لطريقتنا في تكميم عدم اليقين هو تحديد توزيع ابتدائي معبر وقابل للتفسير. في هذا العمل، نبني توزيعًا ابتدائيًا على المعلمات يضع كثافة احتمالية عالية على القيم التي تؤدي إلى دوال تنبؤية ذات عدم يقين مرتفع على نقاط إدخال تختلف جوهريًا عن بيانات التدريب. لتحقيق ذلك، نعتمد على النهج المقترح في ونستخدم معلومات من النمطين لبناء توزيع ابتدائي موجه بالبيانات يساعد في إيجاد توزيع بعدي تقريبي بخصائص مرغوبة (مثل توزيع تنبؤي موثوق في تقدير عدم اليقين). بشكل أكثر تحديدًا، نبني توزيعًا ابتدائيًا على مجموعة من معلمات النموذج \(\Psi\) ونجعله مشروطًا بمجموعة من نقاط السياق \(\tilde{X}\)، أي \(p(\psi | \tilde{x})\). في ، نوضح أنه يمكننا اشتقاق هدف تقريبي قابل للحساب باستخدام هذا التوزيع الابتدائي. الهدف موضح في .

لبناء توزيع ابتدائي معبر، يجب تحديد توزيع على مجموعة نقاط السياق \(p_{\tilde{X}}\). نصمم توزيعًا ابتدائيًا متعدد الأنماط بجعل \(\tilde{X}\) مجموعة من نقاط الإدخال متعددة الأنماط المولدة عشوائيًا \((\tilde{X}^{\textrm{ehr}}, \tilde{X}^{\textrm{cxr}})\) مصممة لتكون مختلفة عن بيانات التدريب. بالنسبة لبيانات السلاسل الزمنية السريرية، نبني \(\tilde{X}^{\textrm{ehr}}\) عبر تطبيق ثلاث تحويلات: حذف البداية، إضافة ضوضاء غاوسية، وعكس السلسلة (أي، لكل \(x_i\) من \(1,...,n\)، \(x_1=x_n\)، \(x_2=x_{n-1}\)، وهكذا). أما لصور أشعة الصدر، فنطبق سبع تحويلات تمثل اضطرابات واقعية: القص العشوائي، الانعكاس الأفقي والرأسي العشوائي، التمويه الغاوسي، التشميس العشوائي، العكس العشوائي، وتغيير الألوان.

بالتالي، تضم مجموعة السياق هذه نقاطًا متحولة توزيعيًا، حيث نرغب أن يكون عدم يقين النموذج عليها مرتفعًا.

التقييم التجريبي

لتقييم المنهج المقترح، جمعنا بيانات السلاسل الزمنية السريرية من MIMIC-IV وصور أشعة الصدر من MIMIC-CXR لنفس إقامة المريض في وحدة العناية المركزة، وذلك لتصنيف الحالات الحادة متعددة التسميات.

إعداد التجارب

اتبعنا خطوات ما قبل المعالجة واستخدمنا نفس بنية الشبكة العصبية (MedFuse) كما في . \(\Phi_{\textrm{ehr}}\) هي شبكة LSTM بطبقتين ، \(\Phi_{\textrm{cxr}}\) هي ResNet-34 ، \(g(\cdot)\) طبقة كاملة الاتصال، و\(\hat{y}^{\textrm{fusion}}\) هي احتمالات التصنيف بعد تطبيق دالة سيجمويد على \(g\). استخدمنا مجموعة بيانات مزدوجة بحيث تحتوي كل عينة على كلا النمطين (أي لا توجد أنماط مفقودة). بالتالي، كانت مجموعات التدريب والتحقق والاختبار مكونة من \(7756\)، \(877\)، و\(2161\) عينة على التوالي. تم بناء مجموعة السياق باستخدام مجموعة التدريب.

قمنا بتدريب الشبكة متعددة الأنماط لمدة 400 حقبة باستخدام دالة الخسارة الموضحة في ، مع خوارزمية آدم، حجم دفعة \(16\)، ومعدل تعلم \(2\times10^{-4}\). يمكن العثور على تفاصيل إضافية حول الإعداد التجريبي وضبط المعاملات في .

معايير التقييم

قمنا بتقييم الأداء الكلي للنماذج على مجموعة الاختبار باستخدام مساحة تحت منحنى الاستقبال (AUROC) ومساحة تحت منحنى الدقة-الاسترجاع (AUPRC) .

بالإضافة إلى ذلك، حسبنا معايير تقييم التنبؤ الانتقائي لتقييم عدم يقين النماذج بشكل أفضل. كما هو موضح في ، يعدل التنبؤ الانتقائي خط الأنابيب التنبؤي القياسي من خلال إدخال خيار "الرفض" \(\bot\) عبر آلية انتقاء تحدد ما إذا كان يجب إصدار تنبؤ لنقطة إدخال معينة \(x\in\mathcal{X}\) . بالنسبة لعتبة رفض \(\tau\)، مع \(s\) تمثل إنتروبيا \(x\)، يكون النموذج: \[\begin{aligned} (p(y\,|\,\cdot,\mathbf{\theta};f),s)(x) = \begin{cases} p(y\,|\,x,\mathbf{\theta};f), & \text{إذا كان}\ s\le \tau \\ \bot, & \text{خلاف ذلك} \end{cases}\end{aligned}\] لتقييم أداء النموذج \((p(y\,|\,\cdot,\mathbf{\theta};f),s)(x)\) مع تسمية واحدة، نحسب AUROC وAUPRC عبر عتبات الرفض \(\tau=0\%,...,99\%\)، ثم نأخذ المتوسط عبر جميع العتبات، مما يعطي درجات انتقائية تعكس الأداء التنبؤي وعدم اليقين معًا. في مهمة التصنيف متعدد التسميات، نبلغ عن المتوسط عبر جميع التسميات البالغ عددها 25.

النتائج

تلخص النتائج على مجموعة الاختبار. تظهر نتائج إضافية لكل تسمية في الملحق 9. حققت الشبكة العصبية البايزية مع توزيع ابتدائي m2d2 AUROC وAUPRC أفضل (0.735 و0.514 على التوالي) مقارنة بالنموذج الحتمي (0.726 و0.503). كما حققت انتقائية أعلى (AUROC=0.748 وAUPRC=0.452) مقارنة بالنموذج الحتمي (0.724 و0.439). كما أن منهجنا يحقق انتقائية مماثلة عند استخدام توزيع ابتدائي قياسي.

لاحظنا أيضًا انخفاضًا في AUPRC الانتقائي مقارنة بـ AUPRC عند رفض 0%. يمكن أن يحدث ذلك عندما يكون النموذج غير مضبوط جيدًا: إذا كان AUPRC لأي عتبة رفض أقل من قيمة 0%، فقد يكون AUPRC الانتقائي أقل من قيمة 0%. بشكل عام، تعكس درجات التنبؤ الانتقائي قدرة النموذج على تحديد العينات الأكثر عرضة للخطأ والتي ينبغي مراجعتها من قبل الطبيب، وبالتالي فهي ذات قيمة في تقييم موثوقية النماذج في البيئات السريرية.

الخلاصة

قمنا بتصميم توزيع ابتدائي موجه بالبيانات متعددة الأنماط (m2d2) لتحسين موثوقية دمج بيانات السلاسل الزمنية السريرية مع صور أشعة الصدر. أظهرنا أن الشبكات العصبية البايزية مع هذا التوزيع تحقق أداءً أفضل من النماذج الحتمية من حيث AUROC وAUPRC ودرجات التنبؤ الانتقائي. في الأعمال المستقبلية، نهدف إلى تقييم المنهج المقترح في حالات وجود أنماط مفقودة، وعلى مهام إضافية مثل التنبؤ بالوفيات داخل المستشفى، وعلى مجموعات بيانات متعددة الأنماط أخرى.

الشكر والتقدير

تم إجراء هذا البحث باستخدام موارد الحوسبة عالية الأداء في جامعة نيويورك أبوظبي. كما نشكر الدكتور أليخاندرو غيرا مانزاناريس، الباحث ما بعد الدكتوراه، على المناقشات المفيدة والدعم في إعادة هيكلة الشيفرة من PyTorch إلى JAX.

الهدف التقريبي

ليكن التابع \(f\) في نموذج الملاحظة البارامتري \(p_{Y | X, \Theta}(y \,|\,x, \theta; f)\) معرفًا بـ \(f(\cdot \,; \theta) \,\dot{=}\,h(\cdot \,; \theta_{h}) \theta_{L}\). في نموذج الشبكة العصبية، \(h(\cdot \,; \theta_{h})\) هو ناتج الطبقة قبل الأخيرة بعد التفعيل، \(\Theta_{L}\) هي معلمات الطبقة النهائية العشوائية، \(\Theta_{h}\) هي معلمات الطبقات غير النهائية، و\(\Theta \,\dot{=}\,\{ \Theta_{h} , \Theta_{L}\}\) هي مجموعة المعلمات الكاملة.

لاشتقاق توزيع ابتدائي يأخذ في الاعتبار عدم اليقين على مجموعة المعلمات العشوائية \(\Theta\)، نبدأ بتحديد مسألة استدلال مساعدة. ليكن \(\tilde{x} = \{ x_{1}, ..., x_{M} \}\) مجموعة من نقاط السياق مع التسميات المقابلة \(\tilde{y}\)، ونعرّف دالة الاحتمالية \(\tilde{p}_{Y | X, \Theta}(\tilde{y} \,|\,\tilde{x} , \theta)\) وتوزيع ابتدائي على معلمات النموذج \(p_{\Theta}(\theta)\). لتبسيط الرموز، سنحذف المؤشرات الفرعية إلا عند الحاجة. باستخدام مبرهنة بايز، يمكننا كتابة التوزيع البعدي تحت نقاط السياق والتسميات كالتالي: \[\begin{aligned} \tilde{p}(\theta \,|\,\tilde{x}, \tilde{y}) \propto \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta_{h}) p(\theta_{h}) p(\theta_{L}) .\end{aligned}\] لتعريف دالة احتمالية تؤدي إلى توزيع بعدي بخصائص مرغوبة، نبدأ من نفس الخطوة كما في ونعتبر النموذج الخطي العشوائي التالي لأي مجموعة نقاط \(x \,\dot{=}\,\{ x_{1}, ..., x_{M'} \}\): \[\begin{aligned} \tilde{Y}_{k}(x) \,\dot{=}\, h(x ; \theta_{h}) \Theta_{k} + \varepsilon \quad \text{حيث} ~~ \Theta_{k} \sim \mathcal{N}(\theta_{L} ; m_{k}, \tau_{f}^{-1} s_{k}) ~~ \text{و} ~~ \varepsilon \sim \mathcal{N}(\mathbf{0}, \tau_{f}^{-1}\beta I)\end{aligned}\] لأبعاد الإخراج \(k = 1, ..., K\)، حيث \(h(\cdot \,; \theta_{h})\) هو التمثيل المميز، \(\tau_{f}\) و\(\beta\) معاملات التباين، و\(m \in \mathbb{R}^{P_{L}}\) و\(s \in \mathbb{R}^{P_{L}}\) معاملات ثابتة مؤقتًا. هذا النموذج الخطي العشوائي يولد توزيعًا على الدوال ، والذي عند تقييمه على \(\tilde{x}\) يُعطى بـ: \[\begin{aligned} \mathcal{N}(\tilde{y}_{k}(\tilde{x}) ; h(\tilde{x} ; \theta_{h}) m_{k}, \tau_{f}^{-1} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} ) , \label{eq:induced_prior_distribution}\end{aligned}\] حيث \[\begin{aligned} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} \,\dot{=}\, h(\tilde{x} ; \theta_{h}) ( s_{k} I ) h(\tilde{x} ; \theta_{h})^\top + \beta I \label{eq:covariance}\end{aligned}\] هي مصفوفة التباين. باعتبار هذه الكثافة الاحتمالية على تقييمات الدوال كدالة احتمالية معلمة بـ \(\theta\)، نبتعد عن ونعرف: \[\begin{aligned} \begin{split} \tilde{p}(\tilde{y}_{k} \,|\,\tilde{x} , \theta_{h}) \,\dot{=}\, \mathcal{N}(\tilde{y}_{k} ; h(\tilde{x} ; \theta_{h}) m_{k} , \tau_{f}^{-1} K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} ) ,\hspace*{-3pt} \label{eq:aux_likelihood} \end{split}\end{aligned}\] حيث لا نفترض \(m = \mathbf{0}\) و\(s = I\). إذا عرفنا توزيع التسميات المساعدة كـ \(p_{\smash{\tilde{Y} \,|\,\tilde{X}}}(\tilde{y} \,|\,\tilde{x}) \,\dot{=}\,\delta(\{\mathbf{0}, ..., \mathbf{0} \} - \tilde{y})\)، فإن دالة الاحتمالية \(\tilde{p}(\tilde{y}_{k} \,|\,\tilde{x} , \theta_{h})\) تفضل المعلمات \(\theta_{h}\) التي تجعل التوزيع الناتج على الدوال لديه احتمال عالٍ للتنبؤ بـ \(\mathbf{0}\). بجمع ذلك عبر جميع الأبعاد: \[\begin{aligned} \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta) \,\dot{=}\, \prod\nolimits_{k = 1}^{K} \tilde{p}(\tilde{y}_{k} \,|\,\tilde{x} , \theta, m_{k}, s_{k}) ,\end{aligned}\] وبأخذ اللوغاريتم: \[\begin{aligned} & \log \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta_{h}) \propto -\sum\nolimits_{k = 1}^{K} \frac{\tau_{f}}{2} (h(\tilde{x} ; \theta_{h}) m_{k})^\top K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k}^{-1} h(\tilde{x} ; \theta_{h}) m_{k} , \nonumber \end{aligned}\] ونعرف: \[\begin{aligned} \begin{split} \mathcal{J}(\theta, m, s, \tilde{x}, \tilde{y}) \,\dot{=}\, -\sum\nolimits_{k = 1}^{K} \frac{\tau_{f}}{2} d^{2}_{M}(h(\tilde{x} ; \theta_{h}) m_{k} - \tilde{y}, K(\tilde{x}, \tilde{x} ; \theta_{h}, s)_{k} ) \label{eq:fs_map_regularizer} \end{split}\end{aligned}\] حيث \(d^{2}_{M}(\Delta, K) \,\dot{=}\,\Delta^\top K^{-1} \Delta\) هو مربع مسافة ماهالانوبس. بالتالي: \[\begin{aligned} \mathop{\mathrm{arg\,max}}\nolimits_{\theta} \tilde{p}(\theta \,|\,\tilde{x}, \tilde{y}) = \mathop{\mathrm{arg\,max}}\nolimits_{\theta}\mathcal{J}(\theta, m, s, \tilde{x}, \tilde{y}) + \log p(\theta) \end{aligned}\] وبالتالي، تعظيم \(\mathcal{J}(\theta, m, s, \tilde{x}, \tilde{y}) + \log p(\theta)\) بالنسبة لـ \(\theta\) يعادل رياضيًا تعظيم التوزيع البعدي \(\tilde{p}(\theta \,|\,\tilde{x}, \tilde{y})\) ويؤدي إلى دوال مرجحة تحت التوزيع الناتج عن الشبكة العصبية ومتسقة مع التوزيع الابتدائي.

لكن، بما أن المعلمات \(m\) و\(s\) ثابتة وتظهر في دالة الاحتمالية المساعدة فقط، فإن الهدف أعلاه ليس مناسبًا إذا كان الهدف هو إيجاد معلمات \(\theta\) تؤدي إلى دوال ذات عدم يقين مرتفع على نقاط السياق. لمعالجة ذلك، ندرج هذه المعلمات في نموذج الملاحظة كوسيط وتباين للطبقة النهائية في \(f(\cdot \,; \theta)\)، ونعاملها كمتغيرات عشوائية \(M\) و\(S\)، ونضع توزيعات ابتدائية عليها، ونستنتج توزيعًا بعديًا تقريبيًا لكليهما.

على وجه التحديد، نعرف توزيعًا ابتدائيًا على معلمات الطبقة النهائية \(\Theta_{L}\) كالتالي: \[\begin{aligned} p_{\Theta_{L}}(\theta_{L} \,|\,m, s) = \mathcal{N}(\theta_{L} ; m, s I)\end{aligned}\] وتوزيعات ابتدائية فائقة: \[\begin{aligned} p_{M}(m) & = \mathcal{N}(m ; \mu_{0}, \tau_{0}^{-1} I) \\ p_{S}(s) & = \textrm{Lognormal}(s ; \mathbf{0}, 2 \tau^{-1}_{s} I) .\end{aligned}\] النموذج الاحتمالي الكامل يصبح: \[\begin{aligned} p(y \,|\,x, \theta_{h}, \theta_{L}; f) \, p(\theta, m, s \,|\,\tilde{x}, \tilde{y}) .\end{aligned}\] مع التوزيع الابتدائي: \[\begin{aligned} \begin{split} p(\theta, m, s \,|\,\tilde{x}, \tilde{y}) & = \tilde{p}(\theta_{h} \,|\,m, s, \smash{\tilde{x}, \tilde{y}}) \, p(\theta_{L} \,|\,m, s) \, p(m) \, p(s) \\ & \propto p(\theta_{L} \,|\,m, s) \, \tilde{p}(\tilde{y} \,|\,\tilde{x} , \theta ; f) \, p(\theta_{h}) \, p(m) \, p(s) , \end{split}\end{aligned}\] ويمكن حساب جميعها تحليليًا. باستخدام هذا التوزيع الابتدائي، يمكننا اشتقاق هدف تقريبي وإجراء استدلال تقريبي.

نبدأ بتعريف توزيع تقريبي: \[\begin{aligned} q(\theta, m, s, \tilde{x}, \tilde{y}) \,\dot{=}\, q(\theta_{h}) \, q(\theta_{L} \,|\,m, s) \, q(m) \, q(s) \, q(\tilde{x}, \tilde{y}) ,\end{aligned}\] ونصيغ مسألة الاستدلال كمسألة تحسين: \[\begin{aligned} \min_{q_{\Theta, M, S, \tilde{X}, \tilde{Y}} \in \mathcal{Q}} D_{\text{KL}}\infdivx{q_{\Theta, M, S, \tilde{X}, \tilde{Y}}}{p_{\Theta, M, S, \tilde{X}, \tilde{Y} \,|\,X_{\mathcal{D}}, Y_{\mathcal{D}}}} ,\end{aligned}\] حيث \(\mathcal{Q}\) عائلة التوزيعات التقريبية. إذا كان التوزيع البعدي ضمن العائلة، يكون الحل دقيقًا. بتعديل المسألة بتعريف \(q(\tilde{x}, \tilde{y}) \,\dot{=}\,p(\tilde{x}, \tilde{y}) = p(\tilde{y} \,|\,\tilde{x}) p(\tilde{x})\)، تتبسط المسألة إلى: \[\begin{aligned} \min_{q_{\Theta, M, S} \in \mathcal{Q}} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \left[ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}, X_{\mathcal{D}}, Y_{\mathcal{D}}}} \right] ,\end{aligned}\] والتي تعادل تعظيم الهدف التقريبي: \[\begin{aligned} \bar{\mathcal{F}}(q_{\Theta}, q_{M}, q_{S}) \,\dot{=}\, \mathbb{E}_{q_{\Theta, M, S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ] - \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} ] . \end{aligned}\] لحساب الحد التنظيمي، نلاحظ: \[\begin{aligned} \begin{split} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}}] ] = \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \Big[ \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log q(\Theta) q(M) q(S) ] - \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}) ] \Big] , \label{eq:kl_divergence} \end{split}\end{aligned}\] وباستخدام نفس الأفكار، يمكننا كتابة: \[\begin{aligned} \begin{split} \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ \mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}) ] ] \propto \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} \Big[\mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} \left[ \log \tilde{p}(\smash{\tilde{Y} \,|\,\tilde{X}} , \Theta_{h}, M, S) \right] + \mathbb{E}_{q_{\Theta}} \left[ \log p(\Theta_{h}) \, p(\Theta_{L} \,|\,M, S) \, p(M) \, p(S) \right] \Big] , \end{split}\end{aligned}\] وبالتالي: \[\begin{aligned} \begin{split} D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \propto - \mathbb{E}_{q_{M} q_{S}} [ \mathbb{E}_{q_{\Theta}} [\log \tilde{p}(\tilde{Y} \,|\,\tilde{X} , \Theta_{h}, M, S) ] + D_{\text{KL}}\infdivx{q_{\Theta_{L} \,|\,M, S}}{p_{\Theta_{L} \,|\,M, S}} ] + D_{\text{KL}}\infdivx{q_{\Theta_{h}}}{p_{\Theta_{h}}} + D_{\text{KL}}\infdivx{q_{M}}{p_{M}} + D_{\text{KL}}\infdivx{q_{S}}{p_{S}} . \end{split}\end{aligned}\] وبتحديد العائلة التقريبية: \[\begin{aligned} \begin{split} q(\theta_{L} \,|\,m, s) & = \mathcal{N}(\theta_{L} ; m, s I) \\ q(\theta_{h}) & = \mathcal{N}(\theta_{h} ; \mu_{h}, \Sigma_{h}) \\ q(m) & = \mathcal{N}(m ; \mu_{L}, \Sigma_{L}) \\ q(s) & = \textrm{Lognormal}(s ; \Sigma_{L}, \sigma^{2}_{s} I) . \end{split}\end{aligned}\] مع معلمات تقريبية قابلة للتعلم \(\mu \,\dot{=}\,\{ \mu_{h}, \mu_{m} \}\) و\(\Sigma \,\dot{=}\,\{ \Sigma_{L}, \Sigma_{L} \}\) ومعلمات ثابتة \(\{ \sigma^{2}_{m}, \sigma^{2}_{s} \}\)، نحصل على \(D_{\text{KL}}\infdivx{q_{\Theta_{L} \,|\,M, S}}{p_{\Theta_{L} \,|\,M, S}} = 0\)، ويتبسط الحد التنظيمي إلى: \[\begin{aligned} \begin{split} D_{\text{KL}}\infdivx{q_{\Theta, M, S}}{p_{\Theta, M, S \,|\,\smash{\tilde{X}, \tilde{Y}}}} \propto - \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [\log \tilde{p}(\tilde{Y} \,|\,\tilde{X} , \Theta_{h}, M, S) ] + D_{\text{KL}}\infdivx{q_{\Theta_{h}}}{p_{\Theta_{h}}} + D_{\text{KL}}\infdivx{q_{M}}{p_{M}} + D_{\text{KL}}\infdivx{q_{S}}{p_{S}} , \end{split}\end{aligned}\] ويمكن حساب كل حد تحليليًا، ويمكن تقدير اللوغاريتم السلبي لدالة الاحتمالية باستخدام مونتي كارلو.

بما أن \(\Theta_{h}\) و\(q_{M}\) توزيعات غاوسية، يمكننا كتابة الهدف التقريبي الكامل بشكل مبسط: \[\begin{aligned} \begin{split} \mathcal{F}(\mu, \Sigma) \,\dot{=}\, \underbrace{\mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ]}_{\textrm{متوسط اللوغاريتم الاحتمالي}} - \underbrace{D_{\text{KL}}\infdivx{q_{\Phi}}{p_{\Phi}}}_{\textrm{تنظيم KL}} + \underbrace{ \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [ \mathbb{E}_{p_{\tilde{X}, \tilde{Y}}} [ \log \tilde{p}(\smash{\tilde{Y} \,|\,\tilde{X}} , \Theta_{h}, M, S) ]] - \smash{\tau_{s} \| \Sigma_{L} \|_{2}^{2}}}_{\textrm{تنظيم عدم اليقين}} , \end{split}\end{aligned}\] حيث \(\Phi \,\dot{=}\,\{ \Theta_{h}, M \}\). يمكن تقدير التوقعات باستخدام مونتي كارلو، وتقدير التدرجات باستخدام إعادة التشكيل كما في .

بجعل \(p_{\tilde{Y} | \tilde{X}}(\tilde{y} \,|\,\tilde{x}) = \delta(\mathbf{0})\) لتشجيع عدم اليقين العالي في التنبؤات على نقاط السياق، حيث \(\delta(\cdot)\) دالة ديراك، نحصل على الهدف المبسط: \[\begin{aligned} \begin{split} \mathcal{F}(\mu, \Sigma) \,\dot{=}\, \underbrace{\mathbb{E}_{q_{\Theta} q_{M} q_{S}} [ \log p(y_{\mathcal{D}} \,|\,x_{\mathcal{D}} , \Theta ; f) ]}_{\textrm{متوسط اللوغاريتم الاحتمالي}} - \underbrace{D_{\text{KL}}\infdivx{q_{\Phi}}{p_{\Phi}}}_{\textrm{تنظيم KL}} + \underbrace{ \mathbb{E}_{q_{\Theta_{h}} q_{M} q_{S}} [ \mathbb{E}_{p_{\tilde{X}}} [ \log \tilde{p}(\smash{\mathbf{0} \,|\,\tilde{X}} , \Theta_{h}, M, S) ]] - \smash{\tau_{s} \| \Sigma_{L} \|_{2}^{2}}}_{\textrm{تنظيم عدم اليقين}} \label{eq:final_objective} \end{split}\end{aligned}\]

تفاصيل التجارب

تفاصيل التدريب

في التدريب، استخدمنا بروتوكول الدمج المشترك كما في حيث يتم تدريب الشبكة من البداية بما في ذلك المشفرات الخاصة بكل نمط \(\Phi_{cxr}\) و\(\Phi_{ehr}\) باستخدام الطبقة الكاملة الاتصال \(g(\cdot)\) للحصول على احتمالات التصنيف متعدد التسميات \({\hat{y}}_{\textrm{fusion}}\). يوضح الجدول التالي تفاصيل تقسيم البيانات المستخدمة كمدخلات للشبكة.

ملخص أحجام مجموعات البيانات الأحادية ومتعددة الأنماط. نلاحظ أن حجم مجموعة البيانات متعددة الأنماط ينخفض عند إقران النمطين.
مجموعة البيانات تدريب تحقق اختبار سياق
بيانات السلاسل الزمنية السريرية 124,671 8,813 20,747 124,671
صور أشعة الصدر 42,628 4,802 11,914 42,628
متعدد الأنماط 7,756 877 2,161 7,756

استخدمنا دالة خسارة الانتروبيا الثنائية ، المعدلة لمهمة التصنيف متعدد التسميات: \[\label{equation:loss} \log p(y | x, \theta ; f) = -\sum_{i=1}^{n}(y_i\log(\hat{y}_i)+(1-y_i)(\log(1-\hat{y}_i))) ,\] حيث \(\hat{y}_{i} \,\dot{=}\,\textrm{sigmoid}(f(x_{i} ; \theta))\). الهدف التقريبي الكلي في طريقتنا يتكون من متوسط اللوغاريتم الاحتمالي، وتنظيم KL، وتنظيم عدم اليقين. في الحالة العشوائية، كما هو موضح في ، ندمج بيانات التدريب والسياق كمدخل لحساب هذه الخسارة.

ضبط المعاملات

في البداية، استخدمنا النموذج الحتمي الأساسي لاختيار معدل التعلم عشوائيًا بين \(10^{-5}\) و\(10^{-3}\)، وتم اختيار النموذج ومعدل التعلم الذي حقق أفضل AUROC على مجموعة التحقق. أفضل معدل تعلم كان \(2\times10^{-4}\)، وتم التحقق منه عبر 10 بذور عشوائية.

بالنسبة للنموذج العشوائي، أجرينا بحثًا شبكيًا قياسيًا للحصول على أفضل معاملات لتنظيم الدالة. يوضح الجدول التالي نطاق القيم لكل معامل في الشبكة، والتي تتكون من 324 تركيبة مختلفة. نلاحظ أن هذه العملية تتطلب موارد أكثر بسبب العدد الأكبر من المعاملات القابلة للضبط مقارنة بالنموذج الحتمي. بالإضافة إلى ذلك، تحتوي النماذج العشوائية على عدد أكبر من المعلمات القابلة للتعلم (ضعف العدد تقريبًا)، حيث أن النموذج يحتوي على معلمات للمتوسط والتباين، ويتطلب التنظيم إجراء تمرير أمامي على عدد نقاط السياق المأخوذة من توزيع السياق (والذي نختاره ليكون أقل من عدد العينات في كل دفعة). بشكل عام، كما هو الحال في كل توزيع تقريبي متوسط الحقل، لدينا معلمات أكثر من الشبكة الحتمية ونتطلب تمريرات أمامية أكثر لكل خطوة تدرجية.

قيم شبكة البحث عن المعاملات للنموذج العشوائي
المعامل القيم الأفضل
تباين التوزيع الابتدائي [1, 0.1, 0.01] 0.1
مقياس احتمالية التوزيع الابتدائي [1, 0.1, 10] 1
مقياس f لاحتمالية التوزيع الابتدائي [0, 1, 10] 10
مقياس تباين احتمالية التوزيع الابتدائي [0.1, 0.01, 0.001, 0.0001] 0.1
قطر تباين احتمالية التوزيع الابتدائي [1, 5, 0.5] 5

اختيار النموذج

قمنا بتدريب النموذج العشوائي لمدة 400 حقبة. نظرًا لوجود أربعة معايير اهتمام (AUROC، AUPRC، AUROC الانتقائي، وAUPRC الانتقائي)، حسبنا الحجم الفائق باستخدام صيغة حجم الكرة رباعية الأبعاد كمقياس تجميعي رئيسي لاختيار أفضل نقطة تحقق للنموذج أثناء التدريب: \[\textrm{hypervolume}=\frac{\pi^2\textrm{R}^4}{2}\] حيث \(\textrm{R}\) هو مقدار متجه رباعي الأبعاد. يضمن هذا النهج عدم الإفراط في التخصيص لمعيار واحد أثناء اختيار النموذج الأفضل.

التنفيذ التقني

تم تنفيذ تحميل البيانات وخطوات ما قبل المعالجة باستخدام PyTorch باتباع نفس بنية الشيفرة المستخدمة في . ومع ذلك، أعدنا هيكلة النماذج الأحادية ومتعددة الأنماط، ودورات التدريب والتقييم باستخدام JAX . يسهل هذا الإطار تنفيذ الشبكات العصبية البايزية والتدريب العشوائي، وهي أساس طرق تكميم عدم اليقين المستخدمة في هذا العمل. بالإضافة إلى ذلك، حصلنا على تقليل كبير في وقت التدريب الكلي للنماذج باستخدام JAX مقارنة بـ PyTorch.

نلاحظ أنه بسبب إجراءات التخزين المؤقت الخاصة بإطار JAX، كان علينا توحيد كل عينة \(x_{\textrm{ehr}}\) إلى 300 خطوة زمنية لمشفر LSTM لتجنب مشاكل الذاكرة. يتطلب JAX أن يحدد مشفر LSTM طولًا ثابتًا للتسلسلات التي سيعالجها، ثم يخزن هذا النموذج لزيادة سرعة التدريب. إذا تم استخدام أطوال تسلسلات مختلفة، سيخزن JAX نسخة من المشفر لكل طول محدد، مما يسبب مشاكل في الذاكرة عند التعامل مع بيانات ذات أطوال متغيرة كما في MIMIC-IV . بالمقابل، لا يستخدم PyTorch هذا النهج ويمكنه معالجة تسلسلات بأطوال متغيرة بنسخة واحدة من المشفر، لكن ذلك على حساب سرعة التدريب.

تم تنفيذ جميع التجارب باستخدام وحدات معالجة الرسوميات NVIDIA A100 وV100 بسعة 80 جيجابايت.

نتائج تجريبية إضافية

في هذا القسم، نقدم نتائج إضافية على مجموعة الاختبار. يعرض الجدول التالي نتائج النموذج العشوائي لقيم مختلفة لحجم دفعة السياق.

نتائج الأداء على مجموعة الاختبار للنموذج العشوائي مع اختلاف حجم دفعة السياق.
حجم الدفعة AUROC AUPRC
AUROC
AUPRC
16 0.732 (0.725, 0.739) 0.511 (0.502, 0.525) 0.740 (0.728, 0.753) 0.447 (0.432, 0.469)
32 0.733 (0.725, 0.739) 0.510 (0.500, 0.524) 0.743 (0.733, 0.756) 0.448 (0.435, 0.466)
64 0.735 (0.728, 0.742) 0.514 (0.504, 0.528) 0.748 (0.738, 0.760) 0.452 (0.441, 0.472)
128 0.733 (0.726, 0.739) 0.512 (0.502, 0.525) 0.728 (0.718, 0.739) 0.401 (0.391, 0.418)

، وتعرض النتائج الموسعة لتجاربنا لكل تسمية للنموذج الحتمي، والنموذج البايزي مع توزيع ابتدائي قياسي، والنموذج البايزي مع توزيع m2d2، على التوالي.


تم تحويل هذا الإصدار من LaTeX إلى HTML تلقائيًا.
تم عرض المعادلات الرياضية باستخدام MathJax.