على الرغم من نجاح الشبكات العصبية العميقة في تشخيص صور الأشعة السينية للصدر (CXR)، إلا أن التعلم الخاضع للإشراف يسمح فقط بتوقع فئات الأمراض التي تم رؤيتها أثناء التدريب. عند الاستدلال، لا يمكن لهذه الشبكات التنبؤ بفئة مرض غير مرئية سابقًا. يتطلب إدراج فئة جديدة جمع بيانات موسومة، وهو أمر ليس سهلاً، خاصة بالنسبة للأمراض النادرة. ونتيجة لذلك، يصبح من غير الممكن بناء نموذج قادر على تشخيص جميع فئات الأمراض المحتملة. في هذا العمل، نقترح شبكة تعلم بدون أمثلة مسبقة معممة ومتعددة الوسوم (CXR-ML-GZSL) قادرة على التنبؤ المتزامن بعدة أمراض مرئية وغير مرئية في صور الأشعة السينية للصدر. عند إدخال صورة، تتعلم الشبكة تمثيلاً بصريًا موجهًا بدلالات مستخرجة من نصوص طبية غنية. لتحقيق هذا الهدف الطموح، نقترح إسقاط كل من التمثيلات البصرية والدلالية إلى فضاء كامن مشترك باستخدام هدف تعلم مبتكر. يضمن هذا الهدف أن (1) يتم ترتيب الوسوم الأكثر صلة بالصورة أعلى من الوسوم غير ذات الصلة، (2) يتعلم النموذج تمثيلاً بصريًا متوافقًا مع دلالاته في الفضاء الكامن، و(3) تحافظ الدلالات المُسقطة على علاقاتها التبادلية الأصلية بين الفئات. الشبكة قابلة للتدريب من البداية إلى النهاية ولا تتطلب تدريبًا مسبقًا مستقلًا لمستخرج السمات البصرية. أظهرت التجارب على مجموعة بيانات NIH للأشعة السينية للصدر أن شبكتنا تتفوق على نموذجين أساسيين قويين من حيث الاسترجاع والدقة ودرجة F1 ومساحة تحت منحنى ROC. الشيفرة متاحة للجمهور على: https://github.com/nyuad-cai/CXR-ML-GZSL.git
مكن التعلم العميق من تطوير أنظمة تشخيصية مدعومة بالحاسوب قادرة على تصنيف الأمراض في الصور الطبية بدقة تقارب مستوى الإنسان . من أبرز القيود في هذه الشبكات حاجتها إلى كميات كبيرة من البيانات الموسومة للتدريب، وهو أمر يتطلب جهدًا وخبرة عالية ويعد مكلفًا. تزداد الصعوبة عند محاولة جمع بيانات كافية للأمراض النادرة أو للأوبئة الجديدة مثل كوفيد-19 . لذا، يصبح من غير العملي توفير بيانات تدريبية موسومة لجميع الأمراض الممكنة لتدريب شبكة تعلم عميق. وبسبب هذا القيد، لا تستطيع الشبكة تصنيف فئات الأمراض غير المرئية أثناء التدريب . في المقابل، يستطيع أطباء الأشعة التعرف على أمراض جديدة بالاعتماد على معرفتهم بسمات الأمراض المستقاة من الأدبيات الطبية.
يمتلك التعلم بدون أمثلة مسبقة (ZSL) القدرة على محاكاة سلوك أطباء الأشعة من خلال التعرف على أمراض غير مرئية بالاعتماد على مصادر معرفية أخرى . ويعد هذا النهج من أكثر حالات التعلم تحت إشراف محدود تطرفًا. باختصار، عند إعطاء صورة استعلام، تبحث طرق ZSL عن التوافق بين التمثيل البصري للصورة وتمثيلها الدلالي . وقد حقق ZSL نتائج مبهرة في الصور الطبيعية . إلا أن معظم الطرق المقترحة تعطي وسمًا واحدًا فقط لكل صورة، وغالبًا ما يكون الوسم من الفئات المرئية فقط . في مهام التصوير الطبي، مثل تصنيف الأمراض في صور الأشعة السينية للصدر، قد تحتوي الصورة على أكثر من مرض واحد، وقد تكون الوسوم من الفئات المرئية أو غير المرئية . هذا يحد من تطبيق طرق ZSL أحادية الوسم في مهام التصنيف الطبي متعددة الوسوم. من ناحية أخرى، يسمح التعلم بدون أمثلة مسبقة متعدد الوسوم (ML-ZSL) بإسناد عدة وسوم لكل صورة. أما في حالة التعلم بدون أمثلة مسبقة معمّم ومتعدد الوسوم (ML-GZSL)، فالهدف هو إسناد عدة وسوم للصورة قد تكون من الفئات المرئية أو غير المرئية . تعتمد الطرق الحالية لـ ML-GZSL في الصور الطبيعية على البحث عن الجار الأقرب في الفضاء الدلالي: \[P^c_x = \langle f_x, \mathcal{W} \rangle, \label{eqn:scores}\] حيث \(\langle ,\rangle\) هي دالة التشابه الكوني، \(f_x\) تمثل السمات البصرية لصورة الاستعلام \(x\)، و\(\mathcal{W}\) هي التضمينات الدلالية لجميع الفئات. تحسب هذه المعادلة درجات التشابه بين السمات البصرية والتضمينات الدلالية لكل فئة محتملة، مما يعكس مدى ارتباط الوسم بالصورة. غالبًا ما يتم ذلك عبر إسقاط السمات البصرية المجمعة إلى الفضاء الدلالي . إلا أن هذه الطرق تعتمد على تمثيل بصري ثابت مستخرج من مشفر بصري مدرب مسبقًا أو شبكة كشف. كما أن إسقاط هذه السمات البصرية إلى الفضاء الدلالي يقلل من تنوع المعلومات البصرية، مما يؤدي إلى مشكلات جوهرية مثل مشكلة "hubness" .
لتجاوز هذه التحديات، نقترح شبكة CXR-ML-GZSL لتصنيف الأمراض في صور الأشعة السينية للصدر. تتكون شبكتنا من مشفر بصري للسمات البصرية ووحدتي إسقاط لكل من السمات البصرية والدلالية، حيث يتم إسقاط كل منهما إلى فضاء كامن مشترك يمكن فيه تحقيق التوافق بينهما. قمنا بتقييم الطريقة المقترحة على مجموعة بيانات NIH للأشعة السينية للصدر وأظهرت النتائج تفوق CXR-ML-GZSL على النماذج الأساسية. نقدم في هذا العمل ثلاث مساهمات رئيسية:
من الناحية التقنية، صممنا شبكة قابلة للتدريب من البداية للنهاية تتعلم التمثيل البصري وتقوم بمحاذاته مع التمثيل الدلالي دون الحاجة لتدريب مسبق مستقل لمشفر السمات البصرية.
اقترحنا هدف تعلم جديد لشبكة CXR-ML-GZSL يحقق توزيعًا تنبؤيًا فعالًا، ويضمن تمركز التمثيلات البصرية حول دلالات الفئات في الفضاء الكامن، ويفرض قيدًا للحفاظ على التمثيل الأصلي لدلالات الفئات.
من منظور التصوير الطبي، نعد أول من يقترح إطار ML-GZSL لتصنيف الأمراض في صور الأشعة السينية للصدر.
نستعرض الأعمال ذات الصلة في القسم 2، والمنهجية في القسم 3، والتجارب في القسم 4، والنتائج في القسم 5، والمناقشة في القسم 6، وأخيرًا الخلاصة في القسم [sec:conclusion].
تعاني نماذج تصنيف صور الأشعة السينية للصدر متعددة الوسوم التقليدية من محدودية توافر البيانات ووسمها. يتغلب عملنا على تحدي جمع مجموعات بيانات موسومة واسعة النطاق من خلال الاستفادة من الأدبيات الطبية الغنية، كونها المصدر الرئيسي للمعرفة حول جميع الأمراض المكتشفة من قبل المجتمع الطبي. يبرز ذلك أهمية التعلم متعدد الوسائط في تطبيقات الرعاية الصحية. وعلى الرغم من تركيزنا على صور الأشعة السينية للصدر، إلا أن تصميم الشبكة يمكن تعميمه على أي مهمة تصوير طبي، حيث أن المشفر الدلالي غير مرتبط بمهمة محددة. إن تحسين تشخيص الأمراض غير المرئية أثناء الاستدلال قد ينقذ حياة المرضى.
لنعتبر مجموعة \(\mathcal{X}^{s}\) التي تحتوي على صور التدريب للفئات المرئية فقط. كل \(x \in \mathcal{X}^{s}\) مرتبطة بمجموعة وسوم \(\textbf{y}_x\)، حيث \(y_x^i \in \mathcal\{0,1\}_{i=1}^S\) و"1" تعني وجود المرض رقم \(i\) من بين \(S\) فئة مرئية أثناء التدريب. نرمز للفئات المرئية وغير المرئية بـ \(\mathcal{Y}^{s} = \{1,\dots, S\}\) و\(\mathcal{Y}^{u} = \{S+1,\dots, C\}\) على التوالي، حيث \(C\) هو العدد الكلي للفئات. هاتان المجموعتان منفصلتان بحيث \(\mathcal{Y}^{s} \cap \mathcal{Y}^{u} = \emptyset\). الهدف هو تعلم تمثيل بصري لـ \(x\) موجه بدلالات وسومها \(\textbf{y}_x\). عند الاستدلال، وبالنسبة لصورة اختبار \(x_{test}\)، الهدف هو توقع \(\textbf{y}_{x_{test}}\) حيث \(y_{x_{test}}^i\in [ 0,1 ]_{i=1}^{C}\). في الأقسام التالية، نصف معمارية الشبكة المقترحة وهدف التعلم.
توضح الشكل 1 نظرة عامة على معمارية الشبكة. تتكون من مشفر بصري قابل للتدريب، ومشفر دلالي ثابت، ووحدات محاذاة. نوضح فيما يلي تفاصيل كل مكون ودالة الخسارة.
المشفر البصري: لتعلم التمثيل البصري، نعرف مشفرًا بصريًا \(\boldsymbol{\rho}(x): \mathbb{R}^{w \times h \times c} \mapsto\! \mathbb{R}^{v}\) يحسب \(f^v\)، وهو تمثيل بصري بعدد أبعاد \(v\) لصورة الإدخال \(x\). بعد ذلك، تعالج وحدة الإسقاط البصرية \(\boldsymbol{\psi}(f^v): \mathbb{R}^{v} \mapsto\! \mathbb{R}^{l}\) التمثيل البصري وتسقطه إلى فضاء كامن \(l\) يتم تعلمه مع المعلومات الدلالية.
الدلالات: لنفترض أن تضمينات الفئات المرئية هي \(\mathcal{W}^{s} = \{w_1, w_2, \cdots ,w_S\}\)، حيث \(w_i\) تمثل تمثيلاً دلاليًا بعدد أبعاد \(d\) للفئة \(i \in \mathcal{Y}^{s}\)، ويتم استخراجها من الطبقة قبل الأخيرة في BioBert لجميع الوسوم القابلة للتدريب. يعد هذا العمل الأول الذي يستخدم BioBert في مشاكل ZSL في الرعاية الصحية، نظرًا لفعاليته في تعلم تضمينات كلمات سياقية متخصصة في النصوص الطبية الحيوية.
نعرف \(\boldsymbol{\phi}(w^d): \mathbb{R}^{d} \mapsto\! \mathbb{R}^{l}\) كوحدة إسقاط دلالية تتعلم إسقاط التضمين الدلالي إلى الفضاء الكامن المشترك \(l\).
بالنسبة للمعمارية المقترحة، نعيد تعريف المعادلة [eqn:scores] كالتالي: \[P_x^S = \langle \boldsymbol{\psi} ( \boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(\mathcal{W}^{s}) \rangle, \label{eqn:scoresours}\] حيث \(P_x^S\) تمثل درجات الصلة للوسوم التدريبية، أي \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\). تعكس هذه الدرجات مدى التشابه بين الصورة وكل وسم محتمل.
هدف التدريب: نصيغ هدف التدريب لتحسين معلمات الشبكة كالتالي: \[\min_{\boldsymbol{\phi} ,\boldsymbol{\rho} ,\boldsymbol{\psi}} \mathcal{L} = \mathcal{L}_{{rank}} +\gamma_{1} \mathcal{L}_{align} +\gamma_{2} \mathcal{L}_{con}, \label{eqn:full_loss}\] حيث \(\gamma_1\) و\(\gamma_2\) هما معاملا تنظيم لخسارتي \(\mathcal{L}_{align}\) و\(\mathcal{L}_{con}\) على التوالي. في الأقسام التالية، نعرف كل مكون من مكونات الخسارة.
أثناء التدريب، تعطي الشبكة درجات الصلة \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\) لكل من الفئات المرئية \(S\) لصورة الإدخال \(x\). بالاعتماد على الوسوم الحقيقية \(\textbf{y}_x\)، حيث \(y_x^i \in \mathcal\{0,1\}_{i=1}^S\)، نرمز إلى \(Y_p\) كمجموعة الوسوم الإيجابية (الأمراض الموجودة في الصورة) و\(Y_n\) كمجموعة الوسوم السلبية (الأمراض غير الموجودة). لنفترض أن \(p_{y_p}\) و\(p_{y_n}\) هما الدرجتان المحسوبتان للوسم الإيجابي والسلبي على التوالي. في التصنيف متعدد الوسوم، نرغب في تحقيق شرطين: أن تكون \(p_{y_p}\) أعلى من \(p_{y_n}\)، وأن يكون الفرق بينهما على الأقل بقيمة هامشية \(\delta\). لذا نصيغ خسارة ترتيب على مستوى الصورة كالتالي: \[\mathcal{L}(P_x^S, \textbf{y}_x) = \frac{1}{S}\sum_{y_p \in Y_p } \sum_{y_n \in {Y_n}} \max(\delta + (p_{y_n} - p_{y_p}) ,\ 0). \label{eq:rankingloss}\] تكون الخسارة صفرًا إذا تحقق الشرط بفارق لا يقل عن \(\delta\)، وتفرض عقوبة لا تقل عن \(\delta\) إذا لم يتحقق. يتم حساب متوسط الخسارة على جميع الصور التدريبية:
\[\mathcal{L}_{{rank}} = \frac{1}{N} \sum_{\forall x \in \mathcal{X}^{s}} \mathcal{L} (P_x^S, \textbf{y}_x),\] حيث \(N\) هو عدد الصور الكلي.
لمحاذاة التمثيلات البصرية مع الدلالية أثناء التدريب، نصيغ خسارة محاذاة بين النمطين كالتالي: \[\mathcal{L}_{align} = \frac{1}{N} (1 - \sum_{\forall x \in X^s} \langle \boldsymbol{\psi} (\boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(w_x) \rangle),\] حيث \(w_x\) هو التضمين الدلالي المقابل لصورة الإدخال \(x\) و\(\langle , \rangle\) دالة التشابه الكوني. في حال وجود عدة وسوم للصورة، يتم حساب متوسط التضمينات الدلالية في \(w_x\)، مما يسمح بمحاذاة التمثيل البصري مع دلالاته في حالة تعدد الوسوم.
تنشأ التمثيلات الدلالية والبصرية من نمطين مختلفين. يتم تعلم الدلالات من الأدبيات الطبية النصية، بينما يتم تعلم التمثيلات البصرية من صور الأشعة. لجسر الفجوة بين النمطين، نتعلم دالتين للإسقاط إلى فضاء مشترك. بينما يتم تحسين التمثيلات البصرية أثناء التدريب، تظل الدلالات ثابتة بعد استخراجها من المشفر اللغوي. قد يؤدي إسقاط الدلالات إلى الفضاء الكامن إلى فقدان العلاقات بين الفئات. لذا، نهدف إلى الحفاظ على اتساق الفضاء الدلالي عبر تنظيم يعتمد على العلاقة بين الفئات في الفضاء الأصلي والمُسقط، وذلك عبر تنظيم \(L_1\) كالتالي: \[\mathcal{L}_{con} = \sum_{w_i \in W } \sum_{\substack{w_j \in W \\ j\neq i}} \| \langle {w_i},\ {w_j} \rangle - \langle {\boldsymbol{\phi}(w_i)},\ {\boldsymbol{\phi}(w_j)} \rangle \|\] حيث \(w_i\) و\(w_j\) هما التمثيلات الدلالية الأصلية لفئتين، و\(\boldsymbol{\phi}(.)\) تمثل الإسقاط. من المثالي أن يكون التشابه الكوني بين الفئتين في الفضاء الأصلي مساويًا له في الفضاء المُسقط، وبالتالي تكون الخسارة صفرًا.
بعد تدريب الشبكة، نحصل على مشفر الصور المحسن \(\boldsymbol{\rho}(x)\) ووحدات الإسقاط \(\boldsymbol\psi(f^v)\) و\(\boldsymbol\phi(w^d)\) التي تسقط كل من السمات البصرية والتضمينات الدلالية إلى الفضاء الكامن المشترك. عند الاستدلال، وبالنسبة لصورة اختبار \(x \in \mathcal{X}^{C}\)، نقوم بتحديث \(\mathcal{W}\) في المعادلة [eqn:scoresours] لتشمل التضمينات الدلالية للفئات المرئية وغير المرئية. بخلاف التصنيف التقليدي متعدد الوسوم، يمكننا بعد تعديل \(\mathcal{W}\) الحصول على درجات التنبؤ \(P_x^c = \{p_1, p_2, \cdots ,p_c\}\) لمجموعة من \(C\) فئات تشمل المرئية وغير المرئية، كالتالي: \[P^C_x = \langle \boldsymbol\psi (\boldsymbol\rho (x)),\ \boldsymbol\phi (\mathcal{W}^{C}) \rangle. \label{eqn:infer}\] حيث \(\mathcal{W}^{C}\) تمثل التضمينات الدلالية المحدثة لكافة الفئات.
لتقييم الشبكة المقترحة CXR-ML-GZSL، أجرينا التجارب على مجموعة بيانات NIH للأشعة السينية للصدر . تحتوي المجموعة على 112,120 صورة أمامية من 30,805 مريضًا. تم تقسيم البيانات عشوائيًا إلى مجموعة تدريب (70%)، تحقق (10%)، واختبار (20%). كل صورة مرتبطة بـ 14 فئة محتملة. شملنا جميع الفئات الـ 14 وقمنا بتقسيمها عشوائيًا إلى فئات مرئية (10) وغير مرئية (4). الفئات المرئية: Atelectasis, Effusion, Infiltration, Mass, Nodule, Pneumothorax, Consolidation, Cardiomegaly, Pleural Thickening, Hernia. الفئات غير المرئية: Edema, Pneumonia, Emphysema, Fibrosis. تم استبعاد جميع الصور المرتبطة بأي فئة غير مرئية من مجموعة التدريب، وفقًا للإعداد الاستقرائي. بلغ عدد صور التدريب النهائي 30,758، والتحقق 4,474، والاختبار 10,510.
نوضح هنا إعدادات التجربة لـ CXR-ML-GZSL. لتشفير المعلومات البصرية، صممنا طريقتنا للعمل مع أي شبكة عصبية التفافية متقدمة. أجرينا جميع التجارب باستخدام Densenet-121 نظرًا لأدائه الممتاز في تصنيف صور الأشعة السينية للصدر . أزلنا الطبقة التصنيفية النهائية واستخدمنا الشبكة الناتجة كمشفر بصري \(\boldsymbol\rho(x)\) لإنتاج تمثيل بصري \(f^v \in \mathbb{R}^{1024}\).
تمت برمجة وحدة الإسقاط البصرية كشبكة عصبية أمامية من ثلاث طبقات: \(\boldsymbol{\psi}: f^v \xrightarrow{} \texttt{fc1} \xrightarrow{} \texttt{Relu} \xrightarrow{} \texttt{fc2} \xrightarrow{} \texttt{Relu} \xrightarrow{} \texttt{fc3} \xrightarrow{} {f^l}\)، حيث \(\texttt{fc1}\) طبقة كاملة التوصيل بوزن \(\mathbf{W}_{\texttt{fc1}} \in \mathbb{R}^{1024 \times 512}\) وانحياز \(\mathbf{b}_{\texttt{fc1}} \in \mathbb{R}^{512}\). الطبقة التالية بوزن \(\mathbf{W}_{\texttt{fc2}} \in \mathbb{R}^{512 \times 256}\) وانحياز \(\mathbf{b}_{\texttt{fc2}} \in \mathbb{R}^{256}\). الطبقة الأخيرة بوزن \(\mathbf{W}_{\texttt{fc3}} \in \mathbb{R}^{256 \times 128}\) وانحياز \(\mathbf{b}_{\texttt{fc3}} \in \mathbb{R}^{128}\)، ليتم الإسقاط النهائي إلى الفضاء الكامن المشترك مع التضمينات الدلالية. تتبع وحدة الإسقاط الدلالية نفس البنية. يتيح هذا التصميم التعامل مع تضمينات مستخرجة من معماريات مختلفة وإسقاطها إلى فضاء مشترك بغض النظر عن أبعادها الأصلية.
تم تدريب الشبكة باستخدام خوارزمية Adam لـ 100 حقبة، مع تقليل معدل التعلم \(lr\) بمقدار 0.01 عند ثبات خسارة التحقق لعشر حقب. استغرق تدريب النموذج الواحد حوالي 8 ساعات على بطاقة NVIDIA Quadro RTX 6000. تم تعيين \(\delta=0.5\) في معادلة [eq:rankingloss]. لاختيار أفضل القيم لـ \(\gamma_1\) و\(\gamma_2\) ومعدل التعلم، أجرينا عدة تجارب باختيار عشوائي من \(\gamma \in \{0.1, 0.01, 0.05\}\) و\(lr \in \{ 0.0001, 0.00005, 0.00001\}\)، ثم اخترنا النموذج الأفضل على مجموعة التحقق بناءً على متوسط AUROC التوافقي. تم تطوير الشيفرة باستخدام مكتبة Pytorch .
استخدمنا مقاييس تقييم شائعة في طرق ML-GZSL . حسبنا الدقة والاسترجاع ودرجة F1 لأفضل \(k\) تنبؤات حيث \(k \in \{2, 3 \}\) في GZSL. اخترنا قيمة صغيرة لـ \(k\) نظرًا لقلة عدد الفئات مقارنة ببيانات الصور الطبيعية . كما أبلغنا عن متوسط مساحة تحت منحنى ROC (AUROC) للفئات المرئية وغير المرئية ومتوسطها التوافقي، حيث أن الاسترجاع لأفضل \(k\) قد لا يعكس الأداء لكل فئة. من المهم ملاحظة أن المتوسط التوافقي يقيس التحيز الكامن في طرق GZSL تجاه الفئات المرئية.
قارنّا أداء النهج المقترح (\(OUR_{e2e}\)) مع طريقتين متقدمتين في ML-GZSL: LESA وMLZSL . يلخص الجدول [tab:recall] النتائج على مجموعة الاختبار. أظهرت النتائج أن طريقتنا تتفوق في جميع المقاييس، حيث بلغت AUROC للفئات غير المرئية 0.66، والمتوسط التوافقي 0.72 عبر جميع الفئات. حققت LESA الأداء الأضعف، بينما جاءت MLZSL في المرتبة الثانية. تفوقت طريقتنا على MLZSL بفارق كبير، على سبيل المثال بنسبة 73.68% في precision@2.
يقارن الجدول [tab:class_wise] قيم AUROC لكل فئة مع الطرق المتقدمة. حققت طريقتنا أفضل أداء في جميع الفئات المرئية مقارنة بالنماذج الأساسية، باستثناء Hernia حيث كان الأداء مقاربًا لـ MLZSL (0.90 AUROC). أما في الفئات غير المرئية، فقد حققت أفضل أداء AUROC مقارنة بكلا النموذجين.
يوضح الشكل [fig:qual] أمثلة لتنبؤات الشبكة على 9 صور اختبار. تم اختيار أفضل ثلاثة تنبؤات لكل صورة. نلاحظ أن طريقتنا قادرة على التنبؤ بالفئات غير المرئية حتى عند وجود عدد كبير من الوسوم الحقيقية، مما يبرز فعالية الطريقة في التنبؤ المتزامن بعدة فئات مرئية وغير مرئية.
أجرينا دراستين استبعادية باستخدام مجموعة التحقق. في جميع الدراسات، تم تعيين معدل التعلم الابتدائي إلى 0.0001، \(\gamma_{1}=0.01\)، و\(\gamma_{2}=0.01\). يوضح الجدول [tab:ablation] قيم AUROC للفئات المرئية وغير المرئية ومتوسطها التوافقي مع صيغ مختلفة لدالة الهدف. أجرينا تجارب لتقييم مساهمة كل من خسارة المحاذاة ومنظم الاتساق الدلالي. بينما بقي أداء الفئات المرئية ثابتًا (0.783-0.791 AUROC)، لوحظ تحسن في AUROC للفئات غير المرئية عند إضافة خسارة المحاذاة \(\mathcal{L}_{{align}}\)، التي تضمن تمركز التمثيلات البصرية حول دلالات الفئات. كما ساهم الحفاظ على اتساق الفضاء الدلالي باستخدام \(\mathcal{L}_{{con}}\) في تحسين الأداء للفئات غير المرئية. بناءً عليه، استخدمنا جميع مكونات الخسارة في تدريب النموذج النهائي.
كما درسنا تأثير استخدام مشفر بصري غير قابل للتدريب مقارنة بالنهج المقترح القابل للتدريب من البداية للنهاية. أجرينا تجارب بتجميد المشفر البصري المدرب مسبقًا على ImageNet لاستخراج السمات البصرية، ثم دربناه بشكل منفصل على مجموعة بيانات NIH للفئات المرئية فقط واستخدمناه لاستخراج سمات ثابتة. يوضح الجدول [tab:training_approaches] أداء هذه النهج مقارنة بالنهج القابل للتدريب من البداية للنهاية. من المثير للاهتمام أن النهج الأخير أظهر أداءً جيدًا، مما يؤكد أهمية تعلم تمثيل بصري متوافق مع التضمينات الدلالية، خاصة للفئات غير المرئية حيث تحسن AUROC بشكل ملحوظ.
تعتمد التطورات الحديثة في مجال التعلم العميق للتصوير الطبي بشكل كبير على توفر مجموعات بيانات واسعة النطاق. في هذا البحث، نقدم نهجًا واعدًا لتطوير شبكة تشخيصية متعددة الوسوم قادرة على تصنيف الفئات غير المرئية باستخدام التعلم بدون أمثلة مسبقة معمّم. تستفيد شبكة CXR-ML-GZSL من الدلالات السياقية المستقاة من الأدبيات الطبية الغنية وتتعلم تمثيلات بصرية موجهة بهذه الدلالات عبر هدف تعلم فريد. دربنا النموذج على مجموعة من الفئات المرئية ثم اختبرناه على فئات مرئية وغير مرئية باستخدام مجموعة بيانات NIH. الفرضية أن الفئات غير المرئية لم تُعرض على النموذج أثناء التدريب لمحاكاة سيناريو واقعي لتصنيف الأمراض النادرة. أظهرت النتائج أن الشبكة تعمم جيدًا على الفئات المرئية وغير المرئية وتحقق مكاسب ملحوظة مقارنة بالطرق السابقة. نوصي في التطبيق السريري بأن يتم عرض قائمة الأمراض مرتبة من الأكثر إلى الأقل احتمالًا بناءً على درجات التنبؤ، ويمكن للأطباء تحديد عتبة لتحويل الدرجات إلى نتائج ثنائية باستخدام تحليل الحساسية والنوعية.
اقترح مؤخرًا طريقة GZSL لتصوير الصدر، شملت 9 فئات من أصل 14 بناءً على توفر تقارير الأشعة المقطعية، واختاروا 6 فئات كمرئية و3 كغير مرئية. إلا أن افتراضهم بتوفر بيانات الفئات غير المرئية أثناء التدريب (بما في ذلك التقارير والصور) يخالف فرضية ZSL، مما قد لا يعطي تقييمًا دقيقًا للأداء على الفئات غير المرئية. لذا، لضمان تقييم متين، حرصنا على عدم استخدام أي بيانات مساعدة للفئات غير المرئية أثناء التدريب. وبسبب اختلاف الافتراضات، لا يمكن مقارنة النتائج مباشرة مع عمل .
اقتصر تقييم الشبكة المقترحة على مجموعة بيانات متاحة، ما يفرض عدة قيود. أولاً، تحتوي المجموعة على عدد فئات أقل من مجموعات الصور الطبيعية. لتقييم متانة الطريقة والأعمال المستقبلية، نؤكد على الحاجة لإنشاء مجموعة بيانات معيارية أكثر تحديًا بعدد فئات أكبر. كما اخترنا الفئات المرئية وغير المرئية عشوائيًا، ويجب تقييم الطريقة على تقسيمات أخرى، وربما على مهام طبية أخرى وأنواع تصوير مختلفة وبيانات من مؤسسات أخرى لاختبار قابلية التعميم، وكذلك على مجموعات بيانات الرؤية الحاسوبية القياسية. بالإضافة إلى ذلك، اقتصرنا في ضبط المعاملات على معدل التعلم ومعاملات \(\gamma\) فقط، ونتوقع تحسن النتائج عند ضبط معاملات أخرى مثل حجم الدفعة وأبعاد وحدات الإسقاط.
في هذا العمل، نقترح شبكة تعلم بدون أمثلة مسبقة معمّم ومتعدد الوسوم (CXR-ML-GZSL) لتصنيف صور الأشعة السينية للصدر. أظهرنا من خلال التجارب أن الشبكة قادرة عند الاستدلال على إسناد عدة وسوم من الفئات المرئية وغير المرئية في آن واحد. ونظرًا لأن التدريب يقتصر على الفئات المرئية فقط دون أي معلومات مساعدة من صور أو تقارير سريرية للفئات غير المرئية، نعتقد أن CXR-ML-GZSL لديها إمكانات كبيرة لتشخيص الفئات غير المرئية عند الاستدلال، خاصة للأمراض النادرة أو الناشئة التي تعاني من نقص البيانات الموسومة.