ArXiv ID: 2107.06563v1
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2107.06563v1_extracted/full-paper-template.tex
تمّ التحويل: 2025-06-06 13:11:45

التعلُّم الآلي مُتعدِّد الوسوم بدون أمثلة مُسبقة لتشخيص أمراض الصدر في الأشعّة السينيّة

قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربيّة المتّحدة
قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربيّة المتّحدة
قسم الهندسة
جامعة نيويورك أبوظبي، أبوظبي، الإمارات العربيّة المتّحدة

الملخّص

على الرغم من نجاح الشبكات العصبيّة العميقة في تشخيص صور الأشعّة السينيّة للصدر (CXR)، فإن التعلُّم الخاضع للإشراف لا يتيح إلا توقّع فئات الأمراض التي شوهدت أثناء التدريب. عند الاستدلال، لا يمكن لهذه الشبكات التنبؤ بفئة مرض غير مرئيّة سابقًا. إن إدراج فئة جديدة يتطلّب جمع بيانات مُوسومة، وهو أمر غير يسير، لا سيّما للأمراض النادرة. ونتيجة لذلك، يصبح من غير الممكن بناء نموذج قادر على تشخيص جميع فئات الأمراض المحتملة. في هذا العمل، نقترح شبكة تعلُّم بدون أمثلة مُسبقة مُعمَّمة ومُتعدِّدة الوسوم (CXR-ML-GZSL) قادرة على التنبؤ المتزامن بعدّة أمراض مرئيّة وغير مرئيّة في صور الأشعّة السينيّة للصدر. عند إدخال صورة، تتعلّم الشبكة تمثيلًا بصريًّا مُوجَّهًا بدلالات مُستخرجة من نصوص طبّية غنيّة. لتحقيق هذا الهدف، نقترح إسقاط كلٍّ من التمثيلات البصريّة والدلاليّة إلى فضاء كامن مشترك باستخدام هدف تعلُّم مُبتكر. يضمن هذا الهدف أن: (1) تُرتَّب الوسوم الأكثر صِلة بالصورة أعلى من الوسوم غير ذات الصِّلة، (2) يتعلّم النموذج تمثيلًا بصريًّا مُتوافقًا مع دلالاته في الفضاء الكامن، و(3) تحافظ الدلالات المُسقَّطة على علاقاتها المتبادلة الأصليّة بين الفئات. الشبكة قابلة للتدريب من البداية إلى النهاية ولا تتطلّب تدريبًا مُسبقًا مستقلًّا للمُشفر البصري. أظهرت التجارب على مجموعة بيانات NIH للأشعّة السينيّة للصدر أنّ شبكتنا تتفوّق على نموذجين أساسيّين قويّين من حيث الاسترجاع والدقّة ودرجة F1 ومساحة تحت منحنى ROC. الشيفرة مُتاحة على: https://github.com/nyuad-cai/CXR-ML-GZSL.git

المقدّمة

أتاح التعلُّم العميق تطوير أنظمة تشخيصيّة مُعتمدة على الحاسوب قادرة على تصنيف الأمراض في الصور الطبيّة بدقّة تقارب مستوى الإنسان . من أبرز القيود حاجتها إلى كميّات كبيرة من البيانات المُوسومة للتدريب، وهو أمر يتطلّب جهدًا وخبرة عالية ويُعدّ مُكلفًا. تتزايد الصعوبة عند محاولة جمع بيانات كافية للأمراض النادرة أو للأوبئة الناشئة مثل كوفيد-19 . لذا، يصبح من غير العملي توفير بيانات تدريبيّة مُوسومة لجميع الأمراض الممكنة لتدريب شبكة تعلُّم عميق، وبسبب هذا القيد لا تستطيع الشبكة تصنيف فئات الأمراض غير المرئيّة أثناء التدريب . في المقابل، يستطيع أطبّاء الأشعّة التعرّف على أمراض جديدة بالاعتماد على معرفتهم بسمات الأمراض المُستقاة من الأدبيّات الطبيّة.

يمتلك التعلُّم بدون أمثلة مُسبقة (ZSL) القدرة على محاكاة هذا السلوك عبر التعرّف على أمراض غير مرئيّة بالاستناد إلى مصادر معرفيّة أخرى ، وهو من أكثر صور التعلُّم تحت إشراف محدود تطلّبًا. باختصار، عند إعطاء صورة استعلام، تبحث طرق ZSL عن التوافق بين التمثيل البصري للصورة وتمثيلها الدلالي ، وقد حقّق ZSL نتائج مُبهرة في الصور الطبيعيّة . إلّا أنّ معظم الطرق المقترحة تُسنِد وسمًا واحدًا فقط لكل صورة، وغالبًا ما يكون الوسم من الفئات المرئيّة فقط . في التصوير الطبي، مثل تصنيف الأمراض في صور الأشعّة السينيّة للصدر، قد تحتوي الصورة على أكثر من مرض واحد، وقد تكون الوسوم من الفئات المرئيّة أو غير المرئيّة ، ما يحدّ من تطبيق طرق ZSL أحاديّة الوسم. من ناحية أخرى، يسمح التعلُّم بدون أمثلة مُسبقة مُتعدِّد الوسوم (ML-ZSL) بإسناد عدّة وسوم لكل صورة. أمّا في حالة التعلُّم بدون أمثلة مُسبقة مُعمَّم ومُتعدِّد الوسوم (ML-GZSL)، فالهدف هو إسناد عدّة وسوم للصورة قد تكون من الفئات المرئيّة أو غير المرئيّة . تعتمد الطرق الحاليّة لـ ML-GZSL في الصور الطبيعيّة على البحث عن الجار الأقرب في الفضاء الدلالي: \[P^c_x = \langle f_x, \mathcal{W} \rangle, \label{eqn:scores}\] حيث \(\langle \cdot,\cdot\rangle\) هي دالّة تشابه جيب التمام، وتمثّل \(f_x\) السمات البصريّة لصورة الاستعلام \(x\)، و\(\mathcal{W}\) هي التضمينات الدلاليّة لجميع الفئات. تُحسب هذه المعادلة درجات التشابه بين السمات البصريّة والتضمينات الدلاليّة لكل فئة محتملة، بما يعكس مدى ارتباط الوسم بالصورة. غالبًا ما يتم ذلك عبر إسقاط السمات البصريّة المُجمَّعة إلى الفضاء الدلالي . إلّا أنّ هذه الطرق تعتمد على تمثيل بصري ثابت مُستخرج من مُشفر بصري مُدرَّب مُسبقًا أو شبكة كشف، كما أنّ إسقاط هذه السمات إلى الفضاء الدلالي قد يُقلِّص تنوّع المعلومات البصريّة، ما يؤدّي إلى مشكلات جوهريّة مثل مشكلة المحوريّة (hubness) .

لتجاوز هذه التحدّيات، نقترح شبكة CXR-ML-GZSL لتصنيف الأمراض في صور الأشعّة السينيّة للصدر. تتكوّن شبكتنا من مُشفر بصري يتعلّم السمات البصريّة ووحدتَي إسقاط لكلٍّ من السمات البصريّة والدلاليّة، حيث يُسقَط كلٌّ منهما إلى فضاء كامن مشترك يمكن فيه تحقيق التوافق بينهما. قيّمنا الطريقة المقترحة على مجموعة بيانات NIH للأشعّة السينيّة للصدر وأظهرت النتائج تفوّق CXR-ML-GZSL على النماذج الأساسيّة. نقدّم في هذا العمل ثلاث مساهمات رئيسيّة:

من الناحية التقنيّة، صمّمنا شبكة قابلة للتدريب من البداية للنهاية تتعلّم التمثيل البصري وتقوم بمُحاذاته مع التمثيل الدلالي دون الحاجة إلى تدريب مُسبق مستقلّ للمُشفر البصري.
اقترحنا هدف تعلُّم جديدًا لشبكة CXR-ML-GZSL يحقّق توزيعًا تنبّؤيًا فعّالًا، ويضمن تمركز التمثيلات البصريّة حول دلالات الفئات في الفضاء الكامن، ويفرض قيدًا للحفاظ على التمثيل الأصلي لدلالات الفئات.
من منظور التصوير الطبي، نعدّ - فيما نعلم - أوّل من يقترح إطار ML-GZSL لتصنيف الأمراض في صور الأشعّة السينيّة للصدر.

نستعرض الأعمال ذات الصِّلة في القسم 2، والمنهجيّة في القسم 3، والتجارب في القسم 4، والنتائج في القسم 5، والمناقشة في القسم 6، وأخيرًا الخُلاصة في القسم 7.

رؤى عامة حول التعلُّم الآلي في سياق الرعاية الصحيّة

تعاني نماذج تصنيف صور الأشعّة السينيّة للصدر مُتعدِّدة الوسوم التقليديّة من محدوديّة توافر البيانات ووسمها. يتغلّب عملُنا على تحدّي جمع مجموعات بيانات مُوسومة واسعة النطاق من خلال الاستفادة من الأدبيّات الطبيّة الغنيّة، باعتبارها المصدر الرئيسي للمعرفة حول الأمراض التي اكتشفها المجتمع الطبي. يبرز ذلك أهميّة التعلُّم مُتعدِّد الوسائط في تطبيقات الرعاية الصحيّة. وعلى الرغم من تركيزنا على صور الأشعّة السينيّة للصدر، فإن تصميم الشبكة قابل للتعميم على أي مهمة تصوير طبي، إذ إنّ المُشفر الدلالي غير مرتبط بمهمة محدّدة. إن تحسين تشخيص الأمراض غير المرئيّة أثناء الاستدلال قد يُسهم في إنقاذ حياة المرضى.

الأعمال ذات الصِّلة

التعلُّم بدون أمثلة مُسبقة: الاستقرائي والانتقالي

يُصنِّف التعلُّم بدون أمثلة مُسبقة (ZSL) الفئات غير المرئيّة أثناء التدريب عبر نقل المعرفة من الفئات المرئيّة، ويعتمد على دلالات الفئات لسدّ الفجوة بين الفئات المرئيّة وغير المرئيّة. تُستحصَل الدلالات إمّا من خلال سمات الفئات المُوسومة يدويًّا أو من أوصاف نصيّة مُضمّنة في فضاء عالِ الأبعاد ، أو عبر استخراج متجهات دلاليّة للوسوم باستخدام Word2vec أو GloVe . يمكن تصنيف طرائق تدريب ZSL إلى استقرائي، يُدرَّب فقط على بيانات الفئات المرئيّة ، وانتقالي، يفترض توافر أمثلة بصريّة غير مُوسومة للفئات غير المرئيّة أثناء التدريب . غير أنّ التعلُّم الانتقالي يُنتهك فرضيّة عدم رؤية الفئات غير المرئيّة أثناء التدريب، وهو افتراض غير عملي. لذا فإن معالجة ZSL في الإعداد الاستقرائي أكثر واقعيّة وتقدِّم حلًّا عمليًّا لتصنيف صور الأشعّة السينيّة للصدر.

التعلُّم بدون أمثلة مُسبقة مُعمَّم ومُتعدِّد الوسوم

قليل من الأعمال تناولت التصنيف مُتعدِّد الوسوم في الصور الطبيعيّة. قام ببناء رسوم بيانيّة معرفيّة باستغلال العلاقات الدلاليّة في WordNet لإسناد الوسوم إلى الفئات غير المرئيّة. في عمل حديث، deepTag ، تم استخراج مجموعة من الرقع المحليّة باستخدام شبكة كشف مُدرَّبة مُسبقًا، ثم تجميع هذه المُقترحات وإسقاطها في الفضاء الدلالي لإيجاد التوافق بين الفئات المرئيّة وغير المرئيّة. غير أنّ هذا النهج يتطلّب مجموعة بيانات كبيرة مع وسوم صناديق الإحاطة لتدريب Faster R-CNN . اقترح نموذج انتباه مُشترك لتعلُّم سمات انتباه متعدِّدة غير مرتبطة بالفئة عبر استخراج سمات مناطق مقصوصة باستخدام شبكة CNN مُدرَّبة مُسبقًا. تُسقَط هذه السمات إلى الفضاء الدلالي لإيجاد صلة الوسوم. على الرغم من أنّ هذه الطرق تُظهر أداءً جيّدًا في الصور الطبيعيّة، إلّا أنّها غالبًا غير قابلة للتطبيق مباشرةً على تصنيف صور الأشعّة السينيّة للصدر أو تعتمد على مُشفرات بصريّة مُدرَّبة مُسبقًا على ImageNet . كما أظهر أنّ نقل المعرفة من ImageNet لا يقدِّم فائدة كبيرة لتشخيصات الأشعّة. لذلك، من المُهم تعلُّم تمثيل بصري فعّال لمُشفر الصور في CXR-ML-GZSL. نقترح هنا تعلُّم التمثيل البصري ومُحاذاته مع الدلالات في شبكة قابلة للتدريب من البداية للنهاية.

التعلُّم العميق لصور الأشعّة السينيّة للصدر

يفترض التصنيف مُتعدِّد الوسوم إمكانيّة ظهور عدّة وسوم في صورة واحدة، وهو أمر شائع في تصنيف صور الأشعّة السينيّة للصدر حيث قد تحتوي الصورة على عدّة أمراض. قام بتدريب DenseNet-121 عبر صياغة مشكلة تصنيف مُتعدِّدة الوسوم تقليديّة، غير أنّ منهجهم لم يلتقط العلاقات بين الفئات المختلفة. استخدم آليّة انتباه عبر قصّ مناطق الاهتمام المُستخرجة من خرائط انتباه صادرة عن مُشفر صورة عالمي، ثم دمج السمات من الفروع المحليّة والعالميّة لإسناد الدرجات التصنيفيّة. اعتمد على DenseNet لتمثيل الصورة عالميًّا، واستخدم شبكة LSTM لتعلُّم الارتباطات بين الفئات لتحسين التشخيص . رغم الأداء الواعد، تعتمد هذه الطرق على كميّات كبيرة من البيانات المُوسومة، ولا يمكنها عند الاستدلال توقّع فئات لم تُرَ أثناء التدريب.

هناك أعمال محدودة جدًا حول استخدام ZSL في تصوير الصدر. مؤخرًا، اقترح إطار GZSL باستخدام مُشفر تلقائي ثنائي الفروع يجمع المعرفة الخارجيّة من ثلاثة مصادر نصيّة: تقارير الأشعّة السينيّة، وتقارير الأشعّة المقطعيّة، وسمات بصريّة مُعرَّفة يدويًّا. إلّا أنّ تصميمهم يعاني من عدّة قيود: أوّلًا، يتنبّأ النموذج بوسم واحد فقط رغم أنّ البيانات مُتعدِّدة الوسوم؛ ثانيًا، يعتمد على توافر تقارير وصور غير مُوسومة للفئات غير المرئيّة أثناء التدريب، ما يُنتهك فرضيّة ZSL؛ ثالثًا، يُتعلَّم التمثيل الدلالي من تقارير لحالات مرئيّة فقط ويُسترشَد بسمات فئات مُوسومة يدويًّا، ما يقيّد التطبيق بمجموعة مُغلَقة من الفئات. على العكس من ذلك، يمكن لشبكتنا إسناد عدّة وسوم للصورة وتعميمها على مجموعة مفتوحة من الفئات غير المرئيّة دون الاعتماد على تقارير أو وسوم يدويّة.

نظرة عامة على نموذج CXR-ML-GZSL المُقترَح لتعلُّم التمثيلات البصريّة لصور الأشعّة السينيّة للصدر. يوضّح الشكل نظرة عامة على الشبكة المُقترَحة، والتي تتضمّن مُشفرًا بصريًّا قابلًا للتدريب وفضاءات بصريّة ودلاليّة بأبعاد \(v\) و\(d\) على التوالي. بالنسبة لصورة الإدخال \(x\) ووسومها \(y\)، تتعلّم الشبكة تمثيلًا بصريًّا مُوجَّهًا بدلالات مُستخرجة بواسطة BioBERT. تُدرَّب المكوّنات الثلاثة (المُشفر البصري ووحدة الإسقاط البصريّة ووحدة الإسقاط الدلاليّة) من البداية للنهاية كما هو موضّح بالخطّ المتقطّع الأسود.

المنهجيّة

صياغة المشكلة

لنعتبر مجموعة \(\mathcal{X}^{s}\) التي تحتوي على صور التدريب للفئات المرئيّة فقط. كل \(x \in \mathcal{X}^{s}\) مرتبطة بمجمّعة وسوم \(\mathbf{y}_x\)، حيث \(y_x^i \in \{0,1\},\, i=1,\dots,S\) و"1" تعني وجود المرض رقم \(i\) من بين \(S\) فئة مرئيّة أثناء التدريب. نرمز للفئات المرئيّة وغير المرئيّة بـ \(\mathcal{Y}^{s} = \{1,\dots, S\}\) و\(\mathcal{Y}^{u} = \{S+1,\dots, C\}\) على التوالي، حيث \(C\) هو العدد الكلّي للفئات. هاتان المجموعتان منفصلتان بحيث \(\mathcal{Y}^{s} \cap \mathcal{Y}^{u} = \emptyset\). الهدف هو تعلُّم تمثيل بصري لـ \(x\) مُوجَّه بدلالات وسومها \(\mathbf{y}_x\). عند الاستدلال، وبالنسبة لصورة اختبار \(x_{test}\)، الهدف هو توقّع \(\mathbf{y}_{x_{test}}\) حيث \(y_{x_{test}}^i \in [0,1],\, i=1,\dots,C\). في الأقسام التالية، نصف معماريّة الشبكة المُقترَحة وهدف التعلُّم.

معماريّة الشبكة

يوضّح الشكل 1 نظرة عامة على معماريّة الشبكة. تتكوّن من مُشفر بصري قابل للتدريب، ومُشفر دلالي ثابت، ووحدات مُحاذاة. نوضّح فيما يلي تفاصيل كل مكوّن ودوالّ الخسارة.

المُشفر البصري: لتعلُّم التمثيل البصري، نُعرِّف مُشفرًا بصريًّا \(\boldsymbol{\rho}(x): \mathbb{R}^{w \times h \times c} \mapsto \mathbb{R}^{v}\) يحسب \(f^v\)، وهو تمثيل بصري بعدد أبعاد \(v\) لصورة الإدخال \(x\). بعد ذلك، تُعالج وحدة الإسقاط البصريّة \(\boldsymbol{\psi}(f^v): \mathbb{R}^{v} \mapsto \mathbb{R}^{l}\) هذا التمثيل وتُسقِطه إلى فضاء كامن \(l\) مُتعلَّم مع المعلومات الدلاليّة.

الدلالات: لنفترض أن تضمينات الفئات المرئيّة هي \(\mathcal{W}^{s} = \{w_1, w_2, \cdots ,w_S\}\)، حيث \(w_i\) يمثّل تمثيلًا دلاليًّا بعدد أبعاد \(d\) للفئة \(i \in \mathcal{Y}^{s}\)، ويُستخرَج من الطبقة قبل الأخيرة في BioBERT لجميع الوسوم القابلة للتدريب. يُعدّ هذا العمل الأوّل الذي يستخدم BioBERT في مسائل ZSL في الرعاية الصحيّة، نظرًا لفاعليّته في تعلُّم تضمينات كلمات سياقيّة مُتخصّصة في النصوص الطبيّة الحيويّة.

نُعرِّف \(\boldsymbol{\phi}(w^d): \mathbb{R}^{d} \mapsto \mathbb{R}^{l}\) كوحدة إسقاط دلاليّة تتعلّم إسقاط التضمين الدلالي إلى الفضاء الكامن المشترك \(l\).

بالنسبة للمعماريّة المُقترَحة، نُعيد تعريف المعادلة [eqn:scores] كما يلي: \[P_x^S = \langle \boldsymbol{\psi} ( \boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(\mathcal{W}^{s}) \rangle, \label{eqn:scoresours}\] حيث \(P_x^S\) يمثّل درجات الصِّلة للوسوم التدريبيّة، أي \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\). تعكس هذه الدرجات مدى التشابه بين الصورة وكل وسم محتمل.

هدف التدريب: نُصيغ هدف التدريب لتحسين معلمات الشبكة كما يلي: \[\min_{\boldsymbol{\phi} ,\boldsymbol{\rho} ,\boldsymbol{\psi}} \mathcal{L} = \mathcal{L}_{rank} + \gamma_1 \mathcal{L}_{align} + \gamma_2 \mathcal{L}_{con}, \label{eqn:full_loss}\] حيث \(\gamma_1\) و\(\gamma_2\) معاملا تنظيم لخسارتي \(\mathcal{L}_{align}\) و\(\mathcal{L}_{con}\) على التوالي. في الأقسام التالية، نُعرِّف كل مكوّن من مكوّنات الخسارة.

\(\mathcal{L}_{rank}\) خسارة الترتيب لدرجات الصِّلة

أثناء التدريب، تُنتِج الشبكة درجات الصِّلة \(P_x^S = \{p_1, p_2, \cdots ,p_S\}\) لكل الفئات المرئيّة \(S\) لصورة الإدخال \(x\). بالاستناد إلى الوسوم الحقيقيّة \(\mathbf{y}_x\)، حيث \(y_x^i \in \{0,1\},\, i=1,\dots,S\)، نرمز إلى \(Y_p\) كمجموعة الوسوم الإيجابيّة (الأمراض الموجودة في الصورة) و\(Y_n\) كمجموعة الوسوم السلبيّة (الأمراض غير الموجودة). لنفترض أنّ \(p_{y_p}\) و\(p_{y_n}\) هما الدرجتان المحسوبتان للوسم الإيجابي والسلبي على التوالي. في التصنيف مُتعدِّد الوسوم، نرغب في شرطين: أن تكون \(p_{y_p}\) أعلى من \(p_{y_n}\)، وأن يكون الفارق بينهما على الأقل بقيمة هامشيّة \(\delta\). لذا نُصيغ خسارة ترتيب على مستوى الصورة كالتالي: \[\mathcal{L}(P_x^S, \mathbf{y}_x) = \frac{1}{S}\sum_{y_p \in Y_p } \sum_{y_n \in Y_n} \max\!\big(\delta + (p_{y_n} - p_{y_p}) ,\ 0\big). \label{eq:rankingloss}\] تكون الخسارة صفرًا إذا تحقّق الشرط بفارق لا يقلّ عن \(\delta\)، وتفرض عقوبة لا تقلّ عن \(\delta\) إذا لم يتحقّق. ويُؤخذ متوسّط الخسارة على جميع صور التدريب:

\[\mathcal{L}_{rank} = \frac{1}{N} \sum_{\forall x \in \mathcal{X}^{s}} \mathcal{L} (P_x^S, \mathbf{y}_x),\] حيث \(N\) هو العدد الكلّي للصور.

\(\mathcal{L}_{align}\) خسارة المُحاذاة بين التمثيلات البصريّة والدلاليّة

لمُحاذاة التمثيلات البصريّة مع الدلاليّة أثناء التدريب، نُصيغ خسارة مُحاذاة بين النمطين كما يلي: \[\mathcal{L}_{align} = \frac{1}{N} \sum_{\forall x \in \mathcal{X}^s} \Big(1 - \langle \boldsymbol{\psi} (\boldsymbol{\rho} (x)),\ \boldsymbol{\phi}(w_x) \rangle\Big),\] حيث \(w_x\) هو التضمين الدلالي المقابل لصورة الإدخال \(x\) و\(\langle \cdot,\cdot \rangle\) دالّة تشابه جيب التمام. في حال وجود عدّة وسوم للصورة، يُحسَب متوسّط التضمينات الدلاليّة في \(w_x\)، بما يسمح بمُحاذاة التمثيل البصري مع دلالاته في حالة تعدّد الوسوم.

\(\mathcal{L}_{con}\) مُنظِّم الاتّساق بين الفئات الدلاليّة

تنشأ التمثيلات الدلاليّة والبصريّة من نمطين مختلفين: تُتعلّم الدلالات من الأدبيّات الطبيّة النصيّة، بينما تُتعلّم التمثيلات البصريّة من الصور. لجسر الفجوة بين النمطين، نتعلّم دالّتَي إسقاط إلى فضاء مشترك. وبينما تُحسَّن التمثيلات البصريّة أثناء التدريب، تظلّ الدلالات ثابتة بعد استخراجها من المُشفر اللغوي. قد يؤدّي إسقاط الدلالات إلى الفضاء الكامن إلى فقدان العلاقات بين الفئات. لذا، نهدف إلى الحفاظ على اتّساق الفضاء الدلالي عبر تنظيم يعتمد على العلاقة بين الفئات في الفضاء الأصلي والمُسقَّط، وذلك عبر تنظيم \(L_1\) كما يلي: \[\mathcal{L}_{con} = \sum_{w_i \in \mathcal{W}} \sum_{\substack{w_j \in \mathcal{W} \\ j\neq i}} \big| \langle w_i,\ w_j \rangle - \langle \boldsymbol{\phi}(w_i),\ \boldsymbol{\phi}(w_j) \rangle \big|,\] حيث \(w_i\) و\(w_j\) هما التمثيلان الدلاليّان الأصليّان لفئتَين، و\(\boldsymbol{\phi}(\cdot)\) تمثّل الإسقاط. من المثالي أن يكون تشابه جيب التمام بين الفئتَين في الفضاء الأصلي مساويًا له في الفضاء المُسقَّط، وبالتالي تكون الخسارة صفرًا.

الاستدلال

بعد تدريب الشبكة، نحصل على مُشفر الصور المُحسَّن \(\boldsymbol{\rho}(x)\) ووحدتَي الإسقاط \(\boldsymbol{\psi}(f^v)\) و\(\boldsymbol{\phi}(w^d)\) اللتين تُسقطان كلًّا من السمات البصريّة والتضمينات الدلاليّة إلى الفضاء الكامن المشترك. عند الاستدلال، وبالنسبة لصورة اختبار \(x \in \mathcal{X}^{C}\)، نقوم بتحديث \(\mathcal{W}\) في المعادلة [eqn:scoresours] لتشمل التضمينات الدلاليّة للفئات المرئيّة وغير المرئيّة. بخلاف التصنيف التقليدي مُتعدِّد الوسوم، يمكننا بعد تعديل \(\mathcal{W}\) الحصول على درجات التنبّؤ \(P_x^C = \{p_1, p_2, \cdots ,p_C\}\) لمجموعة من \(C\) فئات تشمل المرئيّة وغير المرئيّة، كما يلي: \[P^C_x = \langle \boldsymbol{\psi} (\boldsymbol{\rho} (x)),\ \boldsymbol{\phi} (\mathcal{W}^{C}) \rangle. \label{eqn:infer}\] حيث \(\mathcal{W}^{C}\) تمثّل التضمينات الدلاليّة المُحدّثة لكافّة الفئات.

الإعدادات التجريبية

مجموعة البيانات

لتقييم الشبكة المُقترَحة CXR-ML-GZSL، أجرينا التجارب على مجموعة بيانات NIH للأشعّة السينيّة للصدر . تحتوي المجموعة على 112,120 صورة أماميّة لـ 30,805 مريضًا. قُسِّمت البيانات عشوائيًا إلى تدريب (70%)، وتحقّق (10%)، واختبار (20%). كل صورة مرتبطة بـ 14 فئة محتملة. شملنا جميع الفئات الـ 14 وقسّمناها عشوائيًا إلى فئات مرئيّة (10) وغير مرئيّة (4). الفئات المرئيّة: Atelectasis, Effusion, Infiltration, Mass, Nodule, Pneumothorax, Consolidation, Cardiomegaly, Pleural Thickening, Hernia. الفئات غير المرئيّة: Edema, Pneumonia, Emphysema, Fibrosis. استُبعدت جميع الصور المرتبطة بأي فئة غير مرئيّة من مجموعة التدريب، وفقًا للإعداد الاستقرائي. بلغ عدد صور التدريب النهائي 30,758، والتحقّق 4,474، والاختبار 10,510.

تدريب النموذج واختياره

نوضح هنا إعدادات التجربة لـ CXR-ML-GZSL. لتشفير المعلومات البصريّة، صمّمنا طريقتنا للعمل مع أي شبكة عصبيّة التفافيّة متقدّمة. أجرينا جميع التجارب باستخدام DenseNet-121 نظرًا لأدائه الممتاز في تصنيف صور الأشعّة السينيّة للصدر . أزلنا الطبقة التصنيفيّة النهائيّة واستخدمنا الشبكة الناتجة كمُشفر بصري \(\boldsymbol{\rho}(x)\) لإنتاج تمثيل بصري \(f^v \in \mathbb{R}^{1024}\).

تمّت برمجة وحدة الإسقاط البصريّة كشبكة عصبيّة أماميّة من ثلاث طبقات: \(\boldsymbol{\psi}: f^v \xrightarrow{} \texttt{fc1} \xrightarrow{} \texttt{ReLU} \xrightarrow{} \texttt{fc2} \xrightarrow{} \texttt{ReLU} \xrightarrow{} \texttt{fc3} \xrightarrow{} f^l\)، حيث \(\texttt{fc1}\) طبقة كاملة التوصيل بوزن \(\mathbf{W}_{\texttt{fc1}} \in \mathbb{R}^{1024 \times 512}\) وانحياز \(\mathbf{b}_{\texttt{fc1}} \in \mathbb{R}^{512}\). الطبقة التالية بوزن \(\mathbf{W}_{\texttt{fc2}} \in \mathbb{R}^{512 \times 256}\) وانحياز \(\mathbf{b}_{\texttt{fc2}} \in \mathbb{R}^{256}\). الطبقة الأخيرة بوزن \(\mathbf{W}_{\texttt{fc3}} \in \mathbb{R}^{256 \times 128}\) وانحياز \(\mathbf{b}_{\texttt{fc3}} \in \mathbb{R}^{128}\)، ليتم الإسقاط النهائي إلى الفضاء الكامن المشترك مع التضمينات الدلاليّة. تتبع وحدة الإسقاط الدلاليّة البنية نفسها. يتيح هذا التصميم التعامل مع تضمينات مُستخرجة من معماريّات مختلفة وإسقاطها إلى فضاء مشترك بغضّ النظر عن أبعادها الأصليّة.

دُرِّبت الشبكة باستخدام خوارزميّة Adam لمدة 100 حقبة، مع تقليل معدّل التعلُّم \(lr\) بمقدار 0.01 عند ثبات خسارة التحقّق لعشر حِقب. استغرق تدريب النموذج الواحد نحو 8 ساعات على بطاقة NVIDIA Quadro RTX 6000. تمّ تعيين \(\delta=0.5\) في المعادلة [eq:rankingloss]. لاختيار أفضل القيم لـ \(\gamma_1\) و\(\gamma_2\) ومعدّل التعلُّم، أجرينا عدّة تجارب باختيار عشوائي من \(\gamma \in \{0.1, 0.01, 0.05\}\) و\(lr \in \{ 0.0001, 0.00005, 0.00001\}\)، ثم اخترنا النموذج الأفضل على مجموعة التحقّق بناءً على المتوسّط التوافقي لـ AUROC. طُوِّرت الشيفرة باستخدام مكتبة PyTorch .

مقاييس الأداء

استخدمنا مقاييس تقييم شائعة في طرق ML-GZSL . حسبنا الدقّة والاسترجاع ودرجة F1 لأفضل \(k\) تنبّؤات حيث \(k \in \{2, 3\}\) في إعداد GZSL. اخترنا قيمة صغيرة لـ \(k\) نظرًا لقلة عدد الفئات مقارنةً ببيانات الصور الطبيعيّة . كما أبلغنا عن متوسّط مساحة تحت منحنى ROC (AUROC) للفئات المرئيّة وغير المرئيّة ومتوسّطهما التوافقي، إذ قد لا يعكس الاسترجاع لأفضل \(k\) الأداء على مستوى كل فئة. ومن المهم الإشارة إلى أنّ المتوسّط التوافقي يقيس التحيّز الكامن في طرائق GZSL تجاه الفئات المرئيّة.

النتائج

المقارنة مع النماذج الأساسيّة

قارَنّا أداء النهج المُقترَح (\(OUR_{e2e}\)) مع طريقتين متقدّمتين في ML-GZSL: LESA وMLZSL . يُلخّص الجدول [tab:recall] النتائج على مجموعة الاختبار. أظهرت النتائج أنّ طريقتنا تتفوّق في جميع المقاييس، حيث بلغت AUROC للفئات غير المرئيّة 0.66، والمتوسّط التوافقي 0.72 عبر جميع الفئات. حققت LESA الأداء الأضعف، بينما جاءت MLZSL في المرتبة الثانية. تفوّقت طريقتنا على MLZSL بفارق كبير، على سبيل المثال بنسبة 73.68% في precision@2.

يقارن الجدول [tab:class_wise] قيم AUROC لكل فئة مع الطرق المتقدمة. حقّقت طريقتنا أفضل أداء في جميع الفئات المرئيّة مقارنةً بالنماذج الأساسيّة، باستثناء Hernia حيث كان الأداء مُقارِبًا لـ MLZSL (0.90 AUROC). أمّا في الفئات غير المرئيّة، فقد حقّقت أفضل أداء AUROC مقارنةً بكلا النموذجين.

يوضح الشكل [fig:qual] أمثلة لتنبّؤات الشبكة على 9 صور اختبار. تم اختيار أفضل ثلاثة تنبّؤات لكل صورة. نلاحظ أنّ طريقتنا قادرة على التنبّؤ بالفئات غير المرئيّة حتى عند وجود عدد كبير من الوسوم الحقيقيّة، ما يبرز فاعليّة الطريقة في التنبّؤ المتزامن بعدّة فئات مرئيّة وغير مرئيّة.

عينات تنبّؤات

دراسات الإلغاءِ الجزئي (Ablation)

أجرينا دراستين إلغائيتين باستخدام مجموعة التحقّق. في جميع الدراسات، جرى تعيين معدّل التعلُّم الابتدائي إلى 0.0001، و\(\gamma_{1}=0.01\)، و\(\gamma_{2}=0.01\). يوضّح الجدول [tab:ablation] قيم AUROC للفئات المرئيّة وغير المرئيّة ومتوسّطها التوافقي مع صِيَغ مختلفة لدالّة الهدف. أجرينا تجارب لتقييم مساهمة كلٍّ من خسارة المُحاذاة ومُنظِّم الاتّساق الدلالي. وبينما بقي أداء الفئات المرئيّة ثابتًا (0.783–0.791 AUROC)، لوحِظ تحسّن في AUROC للفئات غير المرئيّة عند إضافة خسارة المُحاذاة \(\mathcal{L}_{align}\)، التي تضمن تمركز التمثيلات البصريّة حول دلالات الفئات. كما ساهم الحفاظ على اتّساق الفضاء الدلالي باستخدام \(\mathcal{L}_{con}\) في تحسين الأداء للفئات غير المرئيّة. بناءً عليه، استخدمنا جميع مكوّنات الخسارة في تدريب النموذج النهائي.

كما درسنا أثر استخدام مُشفر بصري غير قابل للتدريب مقارنةً بالنهج المُقترَح القابل للتدريب من البداية للنهاية. أجرينا تجارب بتجميد المُشفر البصري المُدرَّب مُسبقًا على ImageNet لاستخراج السمات البصريّة، ثم درّبناه بشكل منفصل على مجموعة بيانات NIH للفئات المرئيّة فقط واستخدمناه لاستخراج سمات ثابتة. يوضّح الجدول [tab:training_approaches] أداء هذه النُهج مقارنةً بالنهج القابل للتدريب من البداية للنهاية. ومن اللافت أنّ النهج الأخير أظهر أداءً أفضل، ما يؤكّد أهميّة تعلُّم تمثيل بصري مُتوافق مع التضمينات الدلاليّة، لا سيّما للفئات غير المرئيّة حيث تحسّن AUROC بشكل ملحوظ.

المناقشة

تعتمد التطوّرات الحديثة في مجال التعلُّم العميق للتصوير الطبي اعتمادًا كبيرًا على توافر مجموعات بيانات واسعة النطاق. في هذا البحث، نقدّم نهجًا واعدًا لتطوير شبكة تشخيصيّة مُتعدِّدة الوسوم قادرة على تصنيف الفئات غير المرئيّة باستخدام التعلُّم بدون أمثلة مُسبقة مُعمَّم. تستفيد شبكة CXR-ML-GZSL من الدلالات السياقيّة المُستقاة من الأدبيّات الطبيّة الغنيّة وتتعلم تمثيلات بصريّة مُوجَّهة بهذه الدلالات عبر هدف تعلُّم فريد. درّبنا النموذج على مجموعة من الفئات المرئيّة ثم اختبرناه على فئات مرئيّة وغير مرئيّة باستخدام مجموعة بيانات NIH. الفرضيّة أنّ الفئات غير المرئيّة لم تُعرَض على النموذج أثناء التدريب لمحاكاة سيناريو واقعي لتصنيف الأمراض النادرة. أظهرت النتائج أنّ الشبكة تُعمِّم جيّدًا على الفئات المرئيّة وغير المرئيّة وتُحقّق مكاسب ملحوظة مقارنةً بالطرائق السابقة. نوصي في التطبيق السريري بعرض قائمة الأمراض مُرتّبة من الأكثر إلى الأقل احتمالًا بناءً على درجات التنبّؤ، ويمكن للأطبّاء تحديد عتبة لتحويل الدرجات إلى نتائج ثنائيّة باستخدام تحليل الحساسيّة والنوعيّة.

اقترح مؤخرًا طريقة GZSL لتصوير الصدر، شملت 9 فئات من أصل 14 بناءً على توافر تقارير الأشعّة المقطعيّة، واختاروا 6 فئات كمرئيّة و3 كغير مرئيّة. إلّا أنّ افتراضهم بتوافر بيانات الفئات غير المرئيّة أثناء التدريب (بما في ذلك التقارير والصور) يُنتهك فرضيّة ZSL، ما قد لا يُعطي تقييمًا دقيقًا للأداء على الفئات غير المرئيّة. لذا، ولضمان تقييم متين، حرصنا على عدم استخدام أي بيانات مُساعِدة للفئات غير المرئيّة أثناء التدريب. وبسبب اختلاف الافتراضات، لا يمكن مقارنة النتائج مباشرةً مع عمل .

القيود

اقتصر تقييم الشبكة المُقترَحة على مجموعة بيانات مُتاحة، ما يفرض عدّة قيود. أوّلًا، تحتوي المجموعة على عدد فئات أقل من مجموعات الصور الطبيعيّة. لتقييم مُتانة الطريقة والأعمال المُستقبليّة، نؤكّد الحاجة إلى إنشاء مجموعة بيانات معياريّة أكثر تحدّيًا بعدد فئات أكبر. كما اخترنا الفئات المرئيّة وغير المرئيّة عشوائيًا، ويجب تقييم الطريقة على تقسيمات أخرى، وربما على مهام طبيّة أخرى وأنواع تصوير مختلفة وبيانات من مؤسّسات أخرى لاختبار قابليّة التعميم، وكذلك على مجموعات بيانات الرؤية الحاسوبيّة القياسيّة. بالإضافة إلى ذلك، اقتصرنا في ضبط المعاملات على معدّل التعلُّم ومعاملات \(\gamma\) فقط، ونتوقّع تحسّن النتائج عند ضبط معاملات أخرى مثل حجم الدفعة وأبعاد وحدات الإسقاط.

الخُلاصة

في هذا العمل، نقترح شبكة تعلُّم بدون أمثلة مُسبقة مُعمَّم ومُتعدِّد الوسوم (CXR-ML-GZSL) لتصنيف صور الأشعّة السينيّة للصدر. أظهرنا من خلال التجارب أنّ الشبكة قادرة عند الاستدلال على إسناد عدّة وسوم من الفئات المرئيّة وغير المرئيّة آن معًا. ونظرًا إلى أنّ التدريب يقتصر على الفئات المرئيّة فقط دون أي معلومات مُساعِدة من صور أو تقارير سريريّة للفئات غير المرئيّة، نعتقد أنّ CXR-ML-GZSL لديها إمكانات كبيرة لتشخيص الفئات غير المرئيّة عند الاستدلال، خصوصًا للأمراض النادرة أو الناشئة التي تعاني من نقص البيانات المُوسومة.