ArXiv ID: 2107.06563v1
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2107.06563v1_extracted/full-paper-template.tex
تم التحويل: 2025-06-06 13:11:45

التعلم الآلي متعدد الوسوم بدون أمثلة مسبقة لتشخيص أمراض الصدر في الأشعة السينية


قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربية المتحدة
قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربية المتحدة
قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربية المتحدة

الملخص

على الرغم من نجاح الشبكات العصبية العميقة في تشخيص صور الأشعة السينية للصدر (CXR)، إلا أن التعلم الخاضع للإشراف يسمح فقط بتوقع فئات الأمراض التي تم رؤيتها أثناء التدريب. عند الاستدلال، لا يمكن لهذه الشبكات التنبؤ بفئة مرض غير مرئية سابقًا. يتطلب إدراج فئة جديدة جمع بيانات موسومة، وهو أمر ليس سهلاً، خاصة بالنسبة للأمراض النادرة. ونتيجة لذلك، يصبح من غير الممكن بناء نموذج قادر على تشخيص جميع فئات الأمراض المحتملة. في هذا العمل، نقترح شبكة تعلم بدون أمثلة مسبقة معممة ومتعددة الوسوم (CXR-ML-GZSL) قادرة على التنبؤ المتزامن بعدة أمراض مرئية وغير مرئية في صور الأشعة السينية للصدر. عند إدخال صورة، تتعلم الشبكة تمثيلاً بصريًا موجهًا بدلالات مستخرجة من نصوص طبية غنية. لتحقيق هذا الهدف الطموح، نقترح إسقاط كل من التمثيلات البصرية والدلالية إلى فضاء كامن مشترك باستخدام هدف تعلم مبتكر. يضمن هذا الهدف أن (1) يتم ترتيب الوسوم الأكثر صلة بالصورة أعلى من الوسوم غير ذات الصلة، (2) يتعلم النموذج تمثيلاً بصريًا متوافقًا مع دلالاته في الفضاء الكامن، و(3) تحافظ الدلالات المُسقطة على علاقاتها التبادلية الأصلية بين الفئات. الشبكة قابلة للتدريب من البداية إلى النهاية ولا تتطلب تدريبًا مسبقًا مستقلًا لمستخرج السمات البصرية. أظهرت التجارب على مجموعة بيانات NIH للأشعة السينية للصدر أن شبكتنا تتفوق على نموذجين أساسيين قويين من حيث الاسترجاع والدقة ودرجة F1 ومساحة تحت منحنى ROC. الشيفرة متاحة للجمهور على: https://github.com/nyuad-cai/CXR-ML-GZSL.git

المقدمة

مكن التعلم العميق من تطوير أنظمة تشخيصية مدعومة بالحاسوب قادرة على تصنيف الأمراض في الصور الطبية بدقة تقارب مستوى الإنسان . من أبرز القيود في هذه الشبكات حاجتها إلى كميات كبيرة من البيانات الموسومة للتدريب، وهو أمر يتطلب جهدًا وخبرة عالية ويعد مكلفًا. تزداد الصعوبة عند محاولة جمع بيانات كافية للأمراض النادرة أو للأوبئة الجديدة مثل كوفيد-19 . لذا، يصبح من غير العملي توفير بيانات تدريبية موسومة لجميع الأمراض الممكنة لتدريب شبكة تعلم عميق. وبسبب هذا القيد، لا تستطيع الشبكة تصنيف فئات الأمراض غير المرئية أثناء التدريب . في المقابل، يستطيع أطباء الأشعة التعرف على أمراض جديدة بالاعتماد على معرفتهم بسمات الأمراض المستقاة من الأدبيات الطبية.

يمتلك التعلم بدون أمثلة مسبقة (ZSL) القدرة على محاكاة سلوك أطباء الأشعة من خلال التعرف على أمراض غير مرئية بالاعتماد على مصادر معرفية أخرى . ويعد هذا النهج من أكثر حالات التعلم تحت إشراف محدود تطرفًا. باختصار، عند إعطاء صورة استعلام، تبحث طرق ZSL عن التوافق بين التمثيل البصري للصورة وتمثيلها الدلالي . وقد حقق ZSL نتائج مبهرة في الصور الطبيعية . إلا أن معظم الطرق المقترحة تعطي وسمًا واحدًا فقط لكل صورة، وغالبًا ما يكون الوسم من الفئات المرئية فقط . في مهام التصوير الطبي، مثل تصنيف الأمراض في صور الأشعة السينية للصدر، قد تحتوي الصورة على أكثر من مرض واحد، وقد تكون الوسوم من الفئات المرئية أو غير المرئية . هذا يحد من تطبيق طرق ZSL أحادية الوسم في مهام التصنيف الطبي متعددة الوسوم. من ناحية أخرى، يسمح التعلم بدون أمثلة مسبقة متعدد الوسوم (ML-ZSL) بإسناد عدة وسوم لكل صورة. أما في حالة التعلم بدون أمثلة مسبقة معمّم ومتعدد الوسوم (ML-GZSL)، فالهدف هو إسناد عدة وسوم للصورة قد تكون من الفئات المرئية أو غير المرئية . تعتمد الطرق الحالية لـ ML-GZSL في الصور الطبيعية على البحث عن الجار الأقرب في الفضاء الدلالي: \[P^c_x = \langle f_x, \mathcal{W} \rangle, \label{eqn:scores}\] حيث \(\langle ,\rangle\) هي دالة التشابه الكوني، \(f_x\) تمثل السمات البصرية لصورة الاستعلام \(x\)، و\(\mathcal{W}\) هي التضمينات الدلالية لجميع الفئات. تحسب هذه المعادلة درجات التشابه بين السمات البصرية والتضمينات الدلالية لكل فئة محتملة، مما يعكس مدى ارتباط الوسم بالصورة. غالبًا ما يتم ذلك عبر إسقاط السمات البصرية المجمعة إلى الفضاء الدلالي . إلا أن هذه الطرق تعتمد على تمثيل بصري ثابت مستخرج من مشفر بصري مدرب مسبقًا أو شبكة كشف. كما أن إسقاط هذه السمات البصرية إلى الفضاء الدلالي يقلل من تنوع المعلومات البصرية، مما يؤدي إلى مشكلات جوهرية مثل مشكلة "hubness" .

لتجاوز هذه التحديات، نقترح شبكة CXR-ML-GZSL لتصنيف الأمراض في صور الأشعة السينية للصدر. تتكون شبكتنا من مشفر بصري للسمات البصرية ووحدتي إسقاط لكل من السمات البصرية والدلالية، حيث يتم إسقاط كل منهما إلى فضاء كامن مشترك يمكن فيه تحقيق التوافق بينهما. قمنا بتقييم الطريقة المقترحة على مجموعة بيانات NIH للأشعة السينية للصدر وأظهرت النتائج تفوق CXR-ML-GZSL على النماذج الأساسية. نقدم في هذا العمل ثلاث مساهمات رئيسية:

نستعرض الأعمال ذات الصلة في القسم 2، والمنهجية في القسم 3، والتجارب في القسم 4، والنتائج في القسم 5، والمناقشة في القسم 6، وأخيرًا الخلاصة في القسم [sec:conclusion].

رؤى عامة حول التعلم الآلي في سياق الرعاية الصحية

تعاني نماذج تصنيف صور الأشعة السينية للصدر متعددة الوسوم التقليدية من محدودية توافر البيانات ووسمها. يتغلب عملنا على تحدي جمع مجموعات بيانات موسومة واسعة النطاق من خلال الاستفادة من الأدبيات الطبية الغنية، كونها المصدر الرئيسي للمعرفة حول جميع الأمراض المكتشفة من قبل المجتمع الطبي. يبرز ذلك أهمية التعلم متعدد الوسائط في تطبيقات الرعاية الصحية. وعلى الرغم من تركيزنا على صور الأشعة السينية للصدر، إلا أن تصميم الشبكة يمكن تعميمه على أي مهمة تصوير طبي، حيث أن المشفر الدلالي غير مرتبط بمهمة محددة. إن تحسين تشخيص الأمراض غير المرئية أثناء الاستدلال قد ينقذ حياة المرضى.

الأعمال ذات الصلة

التعلم بدون أمثلة مسبقة: الاستقرائي والانتقالي

يصنف التعلم بدون أمثلة مسبقة (ZSL) الفئات غير المرئية أثناء التدريب من خلال نقل المعرفة من الفئات المرئية، ويعتمد على دلالات الفئات لسد الفجوة بين الفئات المرئية وغير المرئية. يتم الحصول على الدلالات إما من خلال سمات الفئات الموسومة يدويًا أو من أوصاف نصية مضمنة في فضاء عالي الأبعاد ، أو عبر استخراج متجهات دلالية للوسوم باستخدام Word2vec أو Glove . يمكن تصنيف طرق تدريب ZSL إلى الاستقرائي، الذي يدرب فقط على بيانات الفئات المرئية ، والانتقالي، الذي يفترض توفر أمثلة بصرية غير موسومة للفئات غير المرئية أثناء التدريب . إلا أن التعلم الانتقالي يخالف فرضية عدم رؤية الفئات غير المرئية أثناء التدريب، وهو افتراض غير عملي. لذا، فإن معالجة ZSL في الإعداد الاستقرائي أكثر واقعية ويقدم حلاً عمليًا لتصنيف صور الأشعة السينية للصدر.

التعلم بدون أمثلة مسبقة معمّم ومتعدد الوسوم

قليل من الأعمال تناولت التصنيف متعدد الوسوم في الصور الطبيعية. قام ببناء رسوم معرفية منظمة من خلال استغلال العلاقات الدلالية في WordNet لإسناد الوسوم للفئات غير المرئية. في عمل حديث، deep0tag ، تم استخراج مجموعة من الرقع المحلية باستخدام شبكة كشف مدربة مسبقًا، ثم تجميع هذه المقترحات وإسقاطها في الفضاء الدلالي لإيجاد التوافق بين الفئات المرئية وغير المرئية. إلا أن هذا النهج يتطلب مجموعة بيانات كبيرة مع وسوم لمربعات التحديد لتدريب FasterRCNN . اقترح نموذج انتباه مشترك لتعلم سمات انتباه متعددة غير مرتبطة بالفئة عبر استخراج سمات مناطق مقصوصة باستخدام شبكة CNN مدربة مسبقًا. يتم إسقاط هذه السمات إلى الفضاء الدلالي لإيجاد الصلة بين الوسوم. على الرغم من أن هذه الطرق تؤدي أداءً جيدًا في الصور الطبيعية، إلا أنها غالبًا غير قابلة للتطبيق مباشرة على تصنيف صور الأشعة السينية للصدر أو تعتمد على مستخرجات سمات بصرية مدربة مسبقًا على ImageNet . كما أظهر أن نقل المعرفة من ImageNet لا يقدم فائدة كبيرة لتشخيص الأشعة. لذا، من المهم تعلم تمثيل بصري فعال لمشفر الصور في CXR-ML-GZSL. نقترح هنا تعلم التمثيل البصري ومحاذاته مع الدلالات في شبكة قابلة للتدريب من البداية للنهاية.

التعلم العميق لصور الأشعة السينية للصدر

يفترض التصنيف متعدد الوسوم إمكانية ظهور عدة وسوم في صورة واحدة، وهو أمر شائع في تصنيف صور الأشعة السينية للصدر حيث قد تحتوي الصورة على عدة أمراض. قام سابقًا بتدريب Densenet-121 عبر صياغة مشكلة تصنيف متعددة الوسوم تقليدية، إلا أن منهجهم لم يلتقط العلاقات بين الفئات المختلفة. استخدم آلية انتباه عبر قص مناطق الاهتمام المستخرجة من خرائط انتباه صادرة عن مشفر صورة عالمي، ثم دمج السمات من الفروع المحلية والعالمية لإسناد الدرجات التصنيفية. اعتمد على DenseNet لتمثيل الصورة عالميًا، واستخدم شبكة LSTM لتعلم الاعتماديات بين الفئات لتحسين التشخيص . رغم الأداء الواعد لهذه الطرق، إلا أنها تعتمد على كميات كبيرة من البيانات الموسومة، ولا يمكنها عند الاستدلال توقع فئات لم تُرَ أثناء التدريب.

هناك أعمال محدودة جدًا حول استخدام ZSL في تصوير الصدر. مؤخرًا، اقترح إطار GZSL باستخدام مشفر تلقائي ثنائي الفروع يجمع المعرفة الخارجية من ثلاثة مصادر نصية: تقارير الأشعة السينية، تقارير الأشعة المقطعية، وسمات بصرية معرفة يدويًا. إلا أن تصميمهم يعاني من عدة قيود: أولاً، يتنبأ النموذج بوسم واحد فقط رغم أن البيانات متعددة الوسوم؛ ثانيًا، يعتمد على توفر تقارير وصور غير موسومة للفئات غير المرئية أثناء التدريب، مما يخالف فرضية ZSL؛ ثالثًا، يتم تعلم التمثيل الدلالي من تقارير لحالات مرئية فقط ويسترشد بسمات الفئات الموسومة يدويًا، مما يقيد التطبيق بمجموعة مغلقة من الفئات. على عكس ذلك، يمكن لشبكتنا إسناد عدة وسوم للصورة وتعميمها على مجموعة مفتوحة من الفئات غير المرئية دون الاعتماد على تقارير أو وسوم يدوية.

المنهجية

صياغة المشكلة

لنعتبر مجموعة \(\mathcal{X}^{s}\) التي تحتوي على صور التدريب للفئات المرئية فقط. كل \(x \in \mathcal{X}^{s}\) مرتبطة بمجموعة وسوم \(\textbf{y}_x\)، حيث \(y_x^i \in \mathcal\{0,1\}_{i=1}^S\) و"1" تعني وجود المرض رقم \(i\) من بين \(S\) فئة مرئية أثناء التدريب. نرمز للفئات المرئية وغير المرئية بـ \(\mathcal{Y}^{s} = \{1,\dots, S\}\) و\(\mathcal{Y}^{u} = \{S+1,\dots, C\}\) على التوالي، حيث \(C\) هو العدد الكلي للفئات. هاتان المجموعتان منفصلتان بحيث \(\mathcal{Y}^{s} \cap \mathcal{Y}^{u} = \emptyset\). الهدف هو تعلم تمثيل بصري لـ \(x\) موجه بدلالات وسومها \(\textbf{y}_x\). عند الاستدلال، وبالنسبة لصورة اختبار \(x_{test}\)، الهدف هو توقع \(\textbf{y}_{x_{test}}\) حيث \(y_{x_{test}}^i\in [ 0,1 ]_{i=1}^{C}\). في الأقسام التالية، نصف معمارية الشبكة المقترحة وهدف التعلم.

معمارية الشبكة

توضح الشكل 1 نظرة عامة على معمارية الشبكة. تتكون من مشفر بصري قابل للتدريب، ومشفر دلالي ثابت، ووحدات محاذاة. نوضح فيما يلي تفاصيل كل مكون ودالة الخسارة.

المشفر البصري: لتعلم التمثيل البصري، نعرف مشفرًا بصريًا \(\boldsymbol{\rho}(x): \mathbb{R}^{w \times h \times c} \mapsto\! \mathbb{R}^{v}\) يحسب \(f^v\)، وهو تمثيل بصري بعدد أبعاد \(v\) لصورة الإدخال \(x\). بعد ذلك، تعالج وحدة الإسقاط البصرية \(\boldsymbol{\psi}(f^v): \mathbb{R}^{v} \mapsto\! \mathbb{R}^{l}\) التمثيل البصري وتسقطه إلى فضاء كامن \(l\) يتم تعلمه مع المعلومات الدلالية.

الدلالات: لنفترض أن تضمينات الفئات المرئية هي \(\mathcal{W}^{s} = \{w_1, w_2, \cdots ,w_S\}\)، حيث \(w_i\) تمثل تمثيلاً دلاليًا بعدد أبعاد \(d\) للفئة \(i \in \mathcal{Y}^{s}\)، ويتم استخراجها من الطبقة قبل الأخيرة في BioBert لجميع الوسوم القابلة للتدريب. يعد هذا العمل الأول الذي يستخدم BioBert في مشاكل ZSL في الرعاية الصحية، نظرًا لفعاليته في تعلم تضمينات كلمات سياقية متخصصة في النصوص الطبية الحيوية.

نعرف \(\boldsymbol{\phi}(w^d): \mathbb{R}^{d} \mapsto\! \mathbb{R}^{l}\) كوحدة إسقاط دلالية تتعلم إسقاط التضمين الدلالي إلى الفضاء الكامن المشترك \(l\).

بالنسبة للمعمارية المقترحة، نعيد تعريف المعادلة [eqn:scores] كالتالي: \[P_x^S = \langle \boldsymbol{\psi} ( \boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(\mathcal{W}^{s}) \rangle, \label{eqn:scoresours}\] حيث \(P_x^S\) تمثل درجات الصلة للوسوم التدريبية، أي \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\). تعكس هذه الدرجات مدى التشابه بين الصورة وكل وسم محتمل.

هدف التدريب: نصيغ هدف التدريب لتحسين معلمات الشبكة كالتالي: \[\min_{\boldsymbol{\phi} ,\boldsymbol{\rho} ,\boldsymbol{\psi}} \mathcal{L} = \mathcal{L}_{{rank}} +\gamma_{1} \mathcal{L}_{align} +\gamma_{2} \mathcal{L}_{con}, \label{eqn:full_loss}\] حيث \(\gamma_1\) و\(\gamma_2\) هما معاملا تنظيم لخسارتي \(\mathcal{L}_{align}\) و\(\mathcal{L}_{con}\) على التوالي. في الأقسام التالية، نعرف كل مكون من مكونات الخسارة.

\(\mathcal{L}_{rank}\) خسارة الترتيب لدرجات الصلة

أثناء التدريب، تعطي الشبكة درجات الصلة \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\) لكل من الفئات المرئية \(S\) لصورة الإدخال \(x\). بالاعتماد على الوسوم الحقيقية \(\textbf{y}_x\)، حيث \(y_x^i \in \mathcal\{0,1\}_{i=1}^S\)، نرمز إلى \(Y_p\) كمجموعة الوسوم الإيجابية (الأمراض الموجودة في الصورة) و\(Y_n\) كمجموعة الوسوم السلبية (الأمراض غير الموجودة). لنفترض أن \(p_{y_p}\) و\(p_{y_n}\) هما الدرجتان المحسوبتان للوسم الإيجابي والسلبي على التوالي. في التصنيف متعدد الوسوم، نرغب في تحقيق شرطين: أن تكون \(p_{y_p}\) أعلى من \(p_{y_n}\)، وأن يكون الفرق بينهما على الأقل بقيمة هامشية \(\delta\). لذا نصيغ خسارة ترتيب على مستوى الصورة كالتالي: \[\mathcal{L}(P_x^S, \textbf{y}_x) = \frac{1}{S}\sum_{y_p \in Y_p } \sum_{y_n \in {Y_n}} \max(\delta + (p_{y_n} - p_{y_p}) ,\ 0). \label{eq:rankingloss}\] تكون الخسارة صفرًا إذا تحقق الشرط بفارق لا يقل عن \(\delta\)، وتفرض عقوبة لا تقل عن \(\delta\) إذا لم يتحقق. يتم حساب متوسط الخسارة على جميع الصور التدريبية:

\[\mathcal{L}_{{rank}} = \frac{1}{N} \sum_{\forall x \in \mathcal{X}^{s}} \mathcal{L} (P_x^S, \textbf{y}_x),\] حيث \(N\) هو عدد الصور الكلي.

\(\mathcal{L}_{align}\) خسارة المحاذاة بين التمثيلات البصرية والدلالية

لمحاذاة التمثيلات البصرية مع الدلالية أثناء التدريب، نصيغ خسارة محاذاة بين النمطين كالتالي: \[\mathcal{L}_{align} = \frac{1}{N} (1 - \sum_{\forall x \in X^s} \langle \boldsymbol{\psi} (\boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(w_x) \rangle),\] حيث \(w_x\) هو التضمين الدلالي المقابل لصورة الإدخال \(x\) و\(\langle , \rangle\) دالة التشابه الكوني. في حال وجود عدة وسوم للصورة، يتم حساب متوسط التضمينات الدلالية في \(w_x\)، مما يسمح بمحاذاة التمثيل البصري مع دلالاته في حالة تعدد الوسوم.

\(\mathcal{L}_{con}\) منظم الاتساق بين الفئات الدلالية

تنشأ التمثيلات الدلالية والبصرية من نمطين مختلفين. يتم تعلم الدلالات من الأدبيات الطبية النصية، بينما يتم تعلم التمثيلات البصرية من صور الأشعة. لجسر الفجوة بين النمطين، نتعلم دالتين للإسقاط إلى فضاء مشترك. بينما يتم تحسين التمثيلات البصرية أثناء التدريب، تظل الدلالات ثابتة بعد استخراجها من المشفر اللغوي. قد يؤدي إسقاط الدلالات إلى الفضاء الكامن إلى فقدان العلاقات بين الفئات. لذا، نهدف إلى الحفاظ على اتساق الفضاء الدلالي عبر تنظيم يعتمد على العلاقة بين الفئات في الفضاء الأصلي والمُسقط، وذلك عبر تنظيم \(L_1\) كالتالي: \[\mathcal{L}_{con} = \sum_{w_i \in W } \sum_{\substack{w_j \in W \\ j\neq i}} \| \langle {w_i},\ {w_j} \rangle - \langle {\boldsymbol{\phi}(w_i)},\ {\boldsymbol{\phi}(w_j)} \rangle \|\] حيث \(w_i\) و\(w_j\) هما التمثيلات الدلالية الأصلية لفئتين، و\(\boldsymbol{\phi}(.)\) تمثل الإسقاط. من المثالي أن يكون التشابه الكوني بين الفئتين في الفضاء الأصلي مساويًا له في الفضاء المُسقط، وبالتالي تكون الخسارة صفرًا.

الاستدلال

بعد تدريب الشبكة، نحصل على مشفر الصور المحسن \(\boldsymbol{\rho}(x)\) ووحدات الإسقاط \(\boldsymbol\psi(f^v)\) و\(\boldsymbol\phi(w^d)\) التي تسقط كل من السمات البصرية والتضمينات الدلالية إلى الفضاء الكامن المشترك. عند الاستدلال، وبالنسبة لصورة اختبار \(x \in \mathcal{X}^{C}\)، نقوم بتحديث \(\mathcal{W}\) في المعادلة [eqn:scoresours] لتشمل التضمينات الدلالية للفئات المرئية وغير المرئية. بخلاف التصنيف التقليدي متعدد الوسوم، يمكننا بعد تعديل \(\mathcal{W}\) الحصول على درجات التنبؤ \(P_x^c = \{p_1, p_2, \cdots ,p_c\}\) لمجموعة من \(C\) فئات تشمل المرئية وغير المرئية، كالتالي: \[P^C_x = \langle \boldsymbol\psi (\boldsymbol\rho (x)),\ \boldsymbol\phi (\mathcal{W}^{C}) \rangle. \label{eqn:infer}\] حيث \(\mathcal{W}^{C}\) تمثل التضمينات الدلالية المحدثة لكافة الفئات.

الإعدادات التجريبية

مجموعة البيانات

لتقييم الشبكة المقترحة CXR-ML-GZSL، أجرينا التجارب على مجموعة بيانات NIH للأشعة السينية للصدر . تحتوي المجموعة على 112,120 صورة أمامية من 30,805 مريضًا. تم تقسيم البيانات عشوائيًا إلى مجموعة تدريب (70%)، تحقق (10%)، واختبار (20%). كل صورة مرتبطة بـ 14 فئة محتملة. شملنا جميع الفئات الـ 14 وقمنا بتقسيمها عشوائيًا إلى فئات مرئية (10) وغير مرئية (4). الفئات المرئية: Atelectasis, Effusion, Infiltration, Mass, Nodule, Pneumothorax, Consolidation, Cardiomegaly, Pleural Thickening, Hernia. الفئات غير المرئية: Edema, Pneumonia, Emphysema, Fibrosis. تم استبعاد جميع الصور المرتبطة بأي فئة غير مرئية من مجموعة التدريب، وفقًا للإعداد الاستقرائي. بلغ عدد صور التدريب النهائي 30,758، والتحقق 4,474، والاختبار 10,510.

تدريب النموذج واختياره

نوضح هنا إعدادات التجربة لـ CXR-ML-GZSL. لتشفير المعلومات البصرية، صممنا طريقتنا للعمل مع أي شبكة عصبية التفافية متقدمة. أجرينا جميع التجارب باستخدام Densenet-121 نظرًا لأدائه الممتاز في تصنيف صور الأشعة السينية للصدر . أزلنا الطبقة التصنيفية النهائية واستخدمنا الشبكة الناتجة كمشفر بصري \(\boldsymbol\rho(x)\) لإنتاج تمثيل بصري \(f^v \in \mathbb{R}^{1024}\).

تمت برمجة وحدة الإسقاط البصرية كشبكة عصبية أمامية من ثلاث طبقات: \(\boldsymbol{\psi}: f^v \xrightarrow{} \texttt{fc1} \xrightarrow{} \texttt{Relu} \xrightarrow{} \texttt{fc2} \xrightarrow{} \texttt{Relu} \xrightarrow{} \texttt{fc3} \xrightarrow{} {f^l}\)، حيث \(\texttt{fc1}\) طبقة كاملة التوصيل بوزن \(\mathbf{W}_{\texttt{fc1}} \in \mathbb{R}^{1024 \times 512}\) وانحياز \(\mathbf{b}_{\texttt{fc1}} \in \mathbb{R}^{512}\). الطبقة التالية بوزن \(\mathbf{W}_{\texttt{fc2}} \in \mathbb{R}^{512 \times 256}\) وانحياز \(\mathbf{b}_{\texttt{fc2}} \in \mathbb{R}^{256}\). الطبقة الأخيرة بوزن \(\mathbf{W}_{\texttt{fc3}} \in \mathbb{R}^{256 \times 128}\) وانحياز \(\mathbf{b}_{\texttt{fc3}} \in \mathbb{R}^{128}\)، ليتم الإسقاط النهائي إلى الفضاء الكامن المشترك مع التضمينات الدلالية. تتبع وحدة الإسقاط الدلالية نفس البنية. يتيح هذا التصميم التعامل مع تضمينات مستخرجة من معماريات مختلفة وإسقاطها إلى فضاء مشترك بغض النظر عن أبعادها الأصلية.

تم تدريب الشبكة باستخدام خوارزمية Adam لـ 100 حقبة، مع تقليل معدل التعلم \(lr\) بمقدار 0.01 عند ثبات خسارة التحقق لعشر حقب. استغرق تدريب النموذج الواحد حوالي 8 ساعات على بطاقة NVIDIA Quadro RTX 6000. تم تعيين \(\delta=0.5\) في معادلة [eq:rankingloss]. لاختيار أفضل القيم لـ \(\gamma_1\) و\(\gamma_2\) ومعدل التعلم، أجرينا عدة تجارب باختيار عشوائي من \(\gamma \in \{0.1, 0.01, 0.05\}\) و\(lr \in \{ 0.0001, 0.00005, 0.00001\}\)، ثم اخترنا النموذج الأفضل على مجموعة التحقق بناءً على متوسط AUROC التوافقي. تم تطوير الشيفرة باستخدام مكتبة Pytorch .

مقاييس الأداء

استخدمنا مقاييس تقييم شائعة في طرق ML-GZSL . حسبنا الدقة والاسترجاع ودرجة F1 لأفضل \(k\) تنبؤات حيث \(k \in \{2, 3 \}\) في GZSL. اخترنا قيمة صغيرة لـ \(k\) نظرًا لقلة عدد الفئات مقارنة ببيانات الصور الطبيعية . كما أبلغنا عن متوسط مساحة تحت منحنى ROC (AUROC) للفئات المرئية وغير المرئية ومتوسطها التوافقي، حيث أن الاسترجاع لأفضل \(k\) قد لا يعكس الأداء لكل فئة. من المهم ملاحظة أن المتوسط التوافقي يقيس التحيز الكامن في طرق GZSL تجاه الفئات المرئية.

النتائج

المقارنة مع النماذج الأساسية

قارنّا أداء النهج المقترح (\(OUR_{e2e}\)) مع طريقتين متقدمتين في ML-GZSL: LESA وMLZSL . يلخص الجدول [tab:recall] النتائج على مجموعة الاختبار. أظهرت النتائج أن طريقتنا تتفوق في جميع المقاييس، حيث بلغت AUROC للفئات غير المرئية 0.66، والمتوسط التوافقي 0.72 عبر جميع الفئات. حققت LESA الأداء الأضعف، بينما جاءت MLZSL في المرتبة الثانية. تفوقت طريقتنا على MLZSL بفارق كبير، على سبيل المثال بنسبة 73.68% في precision@2.

يقارن الجدول [tab:class_wise] قيم AUROC لكل فئة مع الطرق المتقدمة. حققت طريقتنا أفضل أداء في جميع الفئات المرئية مقارنة بالنماذج الأساسية، باستثناء Hernia حيث كان الأداء مقاربًا لـ MLZSL (0.90 AUROC). أما في الفئات غير المرئية، فقد حققت أفضل أداء AUROC مقارنة بكلا النموذجين.

يوضح الشكل [fig:qual] أمثلة لتنبؤات الشبكة على 9 صور اختبار. تم اختيار أفضل ثلاثة تنبؤات لكل صورة. نلاحظ أن طريقتنا قادرة على التنبؤ بالفئات غير المرئية حتى عند وجود عدد كبير من الوسوم الحقيقية، مما يبرز فعالية الطريقة في التنبؤ المتزامن بعدة فئات مرئية وغير مرئية.

image image image
image image image
image image image

دراسات الاستبعاد

أجرينا دراستين استبعادية باستخدام مجموعة التحقق. في جميع الدراسات، تم تعيين معدل التعلم الابتدائي إلى 0.0001، \(\gamma_{1}=0.01\)، و\(\gamma_{2}=0.01\). يوضح الجدول [tab:ablation] قيم AUROC للفئات المرئية وغير المرئية ومتوسطها التوافقي مع صيغ مختلفة لدالة الهدف. أجرينا تجارب لتقييم مساهمة كل من خسارة المحاذاة ومنظم الاتساق الدلالي. بينما بقي أداء الفئات المرئية ثابتًا (0.783-0.791 AUROC)، لوحظ تحسن في AUROC للفئات غير المرئية عند إضافة خسارة المحاذاة \(\mathcal{L}_{{align}}\)، التي تضمن تمركز التمثيلات البصرية حول دلالات الفئات. كما ساهم الحفاظ على اتساق الفضاء الدلالي باستخدام \(\mathcal{L}_{{con}}\) في تحسين الأداء للفئات غير المرئية. بناءً عليه، استخدمنا جميع مكونات الخسارة في تدريب النموذج النهائي.

كما درسنا تأثير استخدام مشفر بصري غير قابل للتدريب مقارنة بالنهج المقترح القابل للتدريب من البداية للنهاية. أجرينا تجارب بتجميد المشفر البصري المدرب مسبقًا على ImageNet لاستخراج السمات البصرية، ثم دربناه بشكل منفصل على مجموعة بيانات NIH للفئات المرئية فقط واستخدمناه لاستخراج سمات ثابتة. يوضح الجدول [tab:training_approaches] أداء هذه النهج مقارنة بالنهج القابل للتدريب من البداية للنهاية. من المثير للاهتمام أن النهج الأخير أظهر أداءً جيدًا، مما يؤكد أهمية تعلم تمثيل بصري متوافق مع التضمينات الدلالية، خاصة للفئات غير المرئية حيث تحسن AUROC بشكل ملحوظ.

المناقشة

تعتمد التطورات الحديثة في مجال التعلم العميق للتصوير الطبي بشكل كبير على توفر مجموعات بيانات واسعة النطاق. في هذا البحث، نقدم نهجًا واعدًا لتطوير شبكة تشخيصية متعددة الوسوم قادرة على تصنيف الفئات غير المرئية باستخدام التعلم بدون أمثلة مسبقة معمّم. تستفيد شبكة CXR-ML-GZSL من الدلالات السياقية المستقاة من الأدبيات الطبية الغنية وتتعلم تمثيلات بصرية موجهة بهذه الدلالات عبر هدف تعلم فريد. دربنا النموذج على مجموعة من الفئات المرئية ثم اختبرناه على فئات مرئية وغير مرئية باستخدام مجموعة بيانات NIH. الفرضية أن الفئات غير المرئية لم تُعرض على النموذج أثناء التدريب لمحاكاة سيناريو واقعي لتصنيف الأمراض النادرة. أظهرت النتائج أن الشبكة تعمم جيدًا على الفئات المرئية وغير المرئية وتحقق مكاسب ملحوظة مقارنة بالطرق السابقة. نوصي في التطبيق السريري بأن يتم عرض قائمة الأمراض مرتبة من الأكثر إلى الأقل احتمالًا بناءً على درجات التنبؤ، ويمكن للأطباء تحديد عتبة لتحويل الدرجات إلى نتائج ثنائية باستخدام تحليل الحساسية والنوعية.

اقترح مؤخرًا طريقة GZSL لتصوير الصدر، شملت 9 فئات من أصل 14 بناءً على توفر تقارير الأشعة المقطعية، واختاروا 6 فئات كمرئية و3 كغير مرئية. إلا أن افتراضهم بتوفر بيانات الفئات غير المرئية أثناء التدريب (بما في ذلك التقارير والصور) يخالف فرضية ZSL، مما قد لا يعطي تقييمًا دقيقًا للأداء على الفئات غير المرئية. لذا، لضمان تقييم متين، حرصنا على عدم استخدام أي بيانات مساعدة للفئات غير المرئية أثناء التدريب. وبسبب اختلاف الافتراضات، لا يمكن مقارنة النتائج مباشرة مع عمل .

القيود

اقتصر تقييم الشبكة المقترحة على مجموعة بيانات متاحة، ما يفرض عدة قيود. أولاً، تحتوي المجموعة على عدد فئات أقل من مجموعات الصور الطبيعية. لتقييم متانة الطريقة والأعمال المستقبلية، نؤكد على الحاجة لإنشاء مجموعة بيانات معيارية أكثر تحديًا بعدد فئات أكبر. كما اخترنا الفئات المرئية وغير المرئية عشوائيًا، ويجب تقييم الطريقة على تقسيمات أخرى، وربما على مهام طبية أخرى وأنواع تصوير مختلفة وبيانات من مؤسسات أخرى لاختبار قابلية التعميم، وكذلك على مجموعات بيانات الرؤية الحاسوبية القياسية. بالإضافة إلى ذلك، اقتصرنا في ضبط المعاملات على معدل التعلم ومعاملات \(\gamma\) فقط، ونتوقع تحسن النتائج عند ضبط معاملات أخرى مثل حجم الدفعة وأبعاد وحدات الإسقاط.

الخلاصة

في هذا العمل، نقترح شبكة تعلم بدون أمثلة مسبقة معمّم ومتعدد الوسوم (CXR-ML-GZSL) لتصنيف صور الأشعة السينية للصدر. أظهرنا من خلال التجارب أن الشبكة قادرة عند الاستدلال على إسناد عدة وسوم من الفئات المرئية وغير المرئية في آن واحد. ونظرًا لأن التدريب يقتصر على الفئات المرئية فقط دون أي معلومات مساعدة من صور أو تقارير سريرية للفئات غير المرئية، نعتقد أن CXR-ML-GZSL لديها إمكانات كبيرة لتشخيص الفئات غير المرئية عند الاستدلال، خاصة للأمراض النادرة أو الناشئة التي تعاني من نقص البيانات الموسومة.


تم تحويل هذا الإصدار HTML تلقائيًا من LaTeX.
تم عرض المعادلات الرياضية باستخدام MathJax.