معرّف ArXiv: 2108.04800v3
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2108.04800v3_extracted/main.tex
تاريخ التحويل: 2025-06-06 13:11:45

المستودع الشامل لمُصنِّفات تصوير الثدي الشعاعي للتحرّي المبكر

بنيامين ستادنِك

يان فيتوفسكي

فيشوايش راجيف

ياكوب خلدوسكي

فرح إي. شاموت

كيونغهيون تشو

كريستوف جي. جيراس

المؤلفون:

ملخص في جملة واحدة: نُقدِّم مستودعًا شاملًا لنماذج الذكاء الاصطناعي الخاصة بتصوير الثدي الشعاعي للتحرّي المبكر، ونُقارن بين خمسة نماذج على سبع مجموعات بيانات دوليّة.

الملخص: يُظهِر الذكاء الاصطناعي (AI) وعودًا كبيرة في تحسين التَّشخيص السريري. في مجال التحري المبكر عن سرطان الثدي، تشير الدراسات الحديثة إلى أن الذكاء الاصطناعي قد يُحسِّن اكتشاف السرطان في مراحله الأولى ويُقلِّل من الإجراءات غير الضروريّة. ومع تزايد عدد النماذج المقترحة وتعقيدها، بات من الصعب إعادة تنفيذها وإعادة إنتاج نتائجها. لتعزيز قابليّة إعادة الإنتاج وإتاحة المقارنات بين الطرائق المختلفة، نُطلق مستودعًا شاملًا يضمّ مُصنِّفات صور الماموغرافيا للتحرّي. يُوفِّر هذا المستودع إطارَ عملٍ يتيح تقييم نماذج الذكاء الاصطناعي على أيّ مجموعة بيانات لتصوير الثدي الشعاعي. في نسخته الأولى، يحتوي على خمسة نماذج متقدّمة مع تطبيقات مفتوحة المصدر ومغلفة بحيث تعمل عبر منصّات متعددة. نقارن أداء هذه النماذج على سبع مجموعات بيانات دوليّة. يتميّز الإطار بتصميم مرن قابل للتعميم على مهامّ أخرى في تحليل الصور الطبيّة. المستودع متاح عبر الرابط: https://www.github.com/nyukat/mammography_metarepository.

المقدمة

يُعدّ تصوير الثدي الشعاعي (الماموغرافيا) الركيزةَ الأساسية لبرامج التحري المبكر عن سرطان الثدي حول العالم، إذ يهدف إلى خفض وفيّات سرطان الثدي عبر الكشف المبكر عن الأورام. ومع ذلك، فمن المعلوم أنّ الماموغرافيا تُنتِج عددًا كبيرًا من النتائج الإيجابيّة الكاذبة، ما يفضي إلى إعادة الاستدعاء لإجراء فحوص إضافية أو خزعات غير ضروريّة. كما قد تُسفر عن نتائج سلبيّة كاذبة، فتُفوّت فرصةَ الكشف المبكر، ولا سيّما لدى النساء ذوات الكثافة النسيجيّة العالية للثدي.

شهدت السنوات الأخيرة تقدّمًا ملحوظًا في استخدام الذكاء الاصطناعي لاكتشاف السرطان. فقد أطلقت مبادرة DREAM حديثًا تحدّيًا عالميًّا مفتوحًا في تصوير الثدي الشعاعي للتحرّي، شمل بيانات من الولايات المتحدة والسويد، وشارك فيه أكثر من 120 فريقًا من 44 دولة. أظهرت النتائج أن نماذج الذكاء الاصطناعي تقترب من دقّة أطباء الأشعة؛ إذ حقَّق تجميع أفضل ثمانية نماذج مع توقّعات الأطباء أداءً متفوّقًا بمساحة تحت منحنى ROC بلغت 0.942 وخصوصيّة 92%.

أدّى الاهتمام المتزايد في هذا المجال إلى تضاعف النماذج والتقنيات المقترحة. ولتقييم التقدّم بصورة واقعيّة واختيار الحل الأنسب للتطبيقات السريريّة، ينبغي للباحثين والأطباء أن يتمكّنوا من إجراء مقارنات عادلة بين معماريات النماذج. كثيرًا ما تُدرَّب نماذج الذكاء الاصطناعي على مجموعات بيانات تختلف عن الفئة المستهدفة، ولا يزال غير معروف إلى أي مدى تُعمِّم هذه النماذج على مجموعات اختبار خارجيّة، وهو ما يثير قلقًا معتبرًا في مجتمع الذكاء الاصطناعي الطبي. كما قد يختلف تعريف التصنيف المستهدف بين مجموعات البيانات بطرائق دقيقة يصعب تبيّنها.

حتى مع غياب اختلافات بيِّنة في التوزيع بين بيانات التدريب والاختبار، يواجه الباحثون مشكلة ضعف قابليّة إعادة الإنتاج. فقد بيّنت دراسة حديثة سعت لإعادة إنتاج نتائج 255 دراسة أنّ النجاح لم يتحقق إلّا في 162 دراسة (63.5%)، ويرجع ذلك غالبًا إلى نقص التفاصيل التقنيّة أو عدم مشاركة الشيفرة المصدريّة. وهذا يُعسِّر تقييم أداء النماذج بثقة، ومن ثمّ تقدير مدى تعميمها على مجموعات سكانيّة جديدة. تشمل هذه المشكلة أيضًا أبحاث سرطان الثدي؛ إذ اعتُبرت دراسة حديثة واسعة الانتشار غير قابلة لإعادة الإنتاج.

في مهامّ الرؤية الحاسوبيّة الشائعة، يسهل مقارنة النماذج باستخدام مجموعات بيانات معياريّة ومفتوحة مثل ImageNet لتصنيف الصور وCOCO لاكتشاف الأجسام. أمّا في مهامّ أقل شيوعًا، كاكتشاف سرطان الثدي في صور الماموغرافيا، فتغدو المقارنات أكثر صعوبة. فأشهر المجموعات العامة مثل DDSM وINbreast قديمة وصغيرة الحجم، والمجموعات الطبية تحمل تحيّزات متأصِّلة مرتبطة بإجراءات الجمع والأجهزة والسكان. وحتى مع توافر مجموعات أحدث، يبقى إجراء تقييم نهائي للأداء في البيئة السريريّة المستهدفة وعبر جميع الفئات الفرعيّة أمرًا عسيرًا. ونظرًا لصعوبة مشاركة البيانات لأسباب قانونية وأخلاقية، نقترح مشاركة النماذج بديلاً عمليًّا. إنّ جمع النماذج القابلة لإعادة الإنتاج في مستودع شامل يُتيح للمهتمين تقييم الأداء بصورة مستقلّة.

نُقدِّم هنا مستودعًا شاملًا يمكّن الباحثين من تقييم مُصنِّفات التعلم العميق بسهولة على أيّ مجموعة بيانات عامة أو خاصة لتصوير الثدي الشعاعي للتحرّي. وللتغلّب على ضعف قابليّة إعادة الإنتاج، وحَّدنا تنفيذ وتقييم مُصنِّفات الماموغرافيا وضمنّا خمسة نماذج مفتوحة المصدر وجاهزة للاستخدام. يمكن للباحثين الذين لديهم بيانات خاصة استخدام النماذج المُساهِمة لمقارنة أدائها على السكان المستهدفين. يقوم المستودع تلقائيًّا بإعداد البيئة، وتقييم النماذج على المجموعة المختارة، وحساب المقاييس ذات الصلة بتشخيص سرطان الثدي. وأخيرًا، استخدمنا في هذه الدراسة المستودع الشامل لتقييم أداء النماذج الخمسة المتوفّرة على سبع مجموعات بيانات دوليّة لقياس مدى التعميم عبر توزيعات اختبار مختلفة.

نأمل أن يكون المستودع الشامل مركزًا لأبحاث سرطان الثدي، ونشجّع الآخرين على المساهمة بنماذجهم. كما أضفنا لوحة نتائج1 لتتبّع أداء النماذج على أشهر المجموعات العامة واثنتين من مجموعات NYU الخاصة، بما يسهِّل قياس التقدّم في هذا المجال.

النتائج

مكوّنات المستودع الشامل

يتكوّن المستودع الشامل من نماذج مُدرَّبة لتصنيف صور الماموغرافيا للتحرّي، بالإضافة إلى شيفرات لتحميل ومعالجة مجموعات البيانات، وتوليد التنبؤات، وحساب مقاييس التقييم (انظر الشكل 1). حاليًّا، هناك خمسة نماذج مفتوحة المصدر وجاهزة للاستخدام، مُخصّصة لمرحلة الاستدلال والتقييم فقط. يمكن لأي باحث المساهمة بنموذجه. ولتيسير إعداد النماذج وتمكين الاستخدام على أجهزة وأنظمة متنوّعة، نستخدم Docker لتغليف النماذج. لكل نموذج ملفُّ إعدادٍ خاصٌّ بـ Docker يصف بيئة التنفيذ، بما في ذلك جميع الاعتمادات والأوزان المُدرَّبة والشيفرات والمكتبات الخارجيّة وأدوات مثل CUDA. ويمكن كذلك تحديد مَعلمات اختياريّة للمعالجة المُسبقة لكل نموذج. ولتقييم أيّ نموذج متوفّر، يحتاج المستخدم فقط إلى توفير مسار الصور وملف تسميات الحقيقة الأرضيّة. يُرجى الرجوع إلى قسم المواد والمنهجيّات لتفاصيل تنسيق الملفات المطلوب.

تعريف مهمة التنبؤ

يوفّر المستودع الشامل نماذج تُصنِّف صور الماموغرافيا للتحرّي، أي تُحدِّد ما إذا كانت الصورة تحتوي آفةً خبيثة أم لا. قد يُعرَض على النموذج صورة واحدة أو مجموعة صور من الفحص. تمثّل الصورة الواحدة عادةً أحد العروض الأربعة القياسيّة للفحص الروتيني: القحفي–الذيلي الأيسر (L-CC)، المائل الإِنسي–الوحشي الأيسر (L-MLO)، القحفي–الذيلي الأيمن (R-CC)، والمائل الإِنسي–الوحشي الأيمن (R-MLO). إذا كان النموذج يتطلّب المجموعة الكاملة من الصور، وجب توفير صورة من كل عرض لكلّ ثدي. بعد ذلك، يُصدِر النموذج تنبؤًا استنادًا إلى الصورة أو مجموعة الصور (انظر الشكل 2). عند توفير صورة واحدة فقط، يُعطي النموذج احتمال وجود آفة خبيثة على مستوى الصورة. أمّا إذا توفّرت المجموعة الكاملة، فيُنتِج احتمالين: احتمال الخباثة في الثدي الأيسر واحتمالها في الثدي الأيمن.

المقاييس

تُعدّ كلٌّ من المساحة تحت منحنى ROC (AUC ROC) والمساحة تحت منحنى الدقّة–الاسترجاع (AUC PR) من المقاييس القياسية لتقييم مهامّ التصنيف الثنائي، وتُستخدم على نطاق واسع في علم الأشعة. تكون منحنيات الدقّة–الاسترجاع أكثر إفادةً من منحنيات ROC عند تقييم الأداء على مجموعات بيانات منخفضة الانتشار (قلّة الحالات الإيجابيّة)، كما أنّ تحسين AUC ROC لا يستلزم بالضرورة تحسين AUC PR. رغم أنّ المستودع يستهدف مجموعات سكانيّة ذات دلالة دراسة واحدة (سكان الفحص/التحرّي)، ندرك أنّ العديد من المجموعات قد تكون مُثرَاة بحالات أكثر تحدّيًا أو بانتشار مرض أعلى من السكان المستهدفين. على سبيل المثال، تضمّ مجموعة اختبار DDSM دراسات بحالات خبيثة أو حميدة قابلة للتدخّل فقط، كما أن CSAW-CC مُثرَاة بعدد محدود من السلبيّات الصحيّة. يحسب المستودع تلقائيًّا AUC ROC وAUC PR على مستوى الثدي وعلى مستوى الصورة (إن أمكن). نستخدم طريقة لامعلميّة لتقدير AUC لا تفترض توزيعًا محدّدًا للبيانات وقد غدت معيارًا في تقييم النماذج التشخيصيّة المدعومة بالحاسوب. إذا أصدر النموذج تنبؤات لكلّ صورة (عرض) على حدة، نأخذ متوسّط التنبؤات للحصول على تنبؤ على مستوى الثدي. كما يرسم المستودع منحنيات ROC وPR ويوفّرها للمستخدم. كذلك، نحسب ونبلّغ عن فترات الثقة 95% باستخدام 2000 تكرارٍ من إعادة المعاينة بالاستبدال (Bootstrap). ويمكن إضافة مقاييس أخرى بسهولة ضمن إجراء التقييم.

تفصيل الدراسات والتسميات في مجموعات البيانات المستخدمة لتقييم أداء النماذج. مجموعة دراسة القرّاء في NYU هي جزء من مجموعة اختبار NYU، وهي الوحيدة التي تتيح مقارنة أداء النماذج مع مجموعة من أطباء الأشعة. أعداد الدراسات لمجموعتَي DDSM وINbreast تمثّل أمثلة الاختبار فقط ضمن المجموعات الكاملة. لا تحتوي CMMD على مجموعة اختبار محدّدة مُسبقًا، لذا يشمل الجدول جميع دراساتها. تمثّل أعداد OPTIMAM الجزء الذي مُنِحنا حقّ الوصول إليه. لا تُبلّغ CSAW-CC عن الحالات الحميدة، بل فقط عن الاستدعاء من عدمه.

النماذج

يحوي المستودع خمسة نماذج جاهزة للاستخدام، هي: End2end (Shen وآخرون)، وFaster R-CNN (Ribli وآخرون)، وDMV-CNN (Wu وآخرون)، وGMIC (Shen وآخرون)، وGLAM (Liu وآخرون). أُدرجت هذه النماذج لتوفّر تطبيقات رسميّة مفتوحة المصدر وإمكان تقييمها الكامل. سنُضيف نماذج أخرى حال توافرها.

تختلف النماذج كثيرًا من حيث المعمارية وإجراءات التدريب. مثلًا، يعتمد End2end على تصنيف رقعٍ من الصورة ثم تعميم ذلك إلى الصورة الكاملة. أمّا Faster R-CNN فمبنيّ على معمارية شهيرة لاكتشاف الأجسام؛ إذ يُحدِّد مناطقَ مشتبهًا بها ويمرّرها إلى فرع تصنيف لتوصيفها كحميدة أو خبيثة أو سلبيّة. ويُعدّ DMV-CNN النموذجَ الوحيد الذي يستخدم افتراضيًّا العروض الأربعة مجتمعةً لإصدار التنبؤات، مع إمكان العمل على صورة واحدة عند نقص العروض. يتّبع GMIC نهجًا هرميًّا: يحدِّد أوّلًا مناطق الاهتمام على الصورة الكاملة عبر شبكة عالميّة، ثم يُعالِج المناطق المُقتَطَعة في شبكة محليّة، ويُدمِج أخيرًا معلومات الفرعين لإصدار التنبؤ. أمّا GLAM فله بنية شبيهة بـ GMIC مع تعديلات في الشبكة العالميّة، وصُمِّم لإنتاج تقسيمات عالية الدقّة (لا نقيمها هنا). يُفضي هذا التنوّع في المعماريات إلى تعلُّم ميزات مختلفة من الصور. وتُساعد المقارنات المباشرة في فهم أثر قرارات التصميم على الأداء.

قيّمنا النماذج المتاحة في المستودع الشامل على سبع مجموعات بيانات للماموغرافيا كما ذُكر أعلاه. كانت المهمّة تصنيف الفحوص على مستوى الثدي إلى وجود آفات خبيثة من عدمه. نعرض النتائج المفصّلة في القسم التالي.

مجموعات البيانات

لتوضيح مرونة المستودع، قيّمنا النماذج على سبع مجموعات بيانات (انظر الجدول 1). أول مجموعتين من NYU Langone (مجموعة دراسة القرّاء ومجموعة الاختبار)، وقد استُخدمتا سابقًا في تطوير DMV-CNN وGMIC وGLAM. والمجموعات الخمس الأخرى هي: DDSM، وINbreast، وOPTIMAM، وCMMD الصينيّة، وCSAW-CC. المجموعتان المستخدمتان من DDSM وINbreast هنا هما جزء من المجموعات الكاملة المتاحة للعامة. لمزيد من المعلومات حول المجموعات، راجع قسم المواد والمنهجيّات.

جميع حالات السرطان في هذه المجموعات مثبتة مرضيًّا (بخزعة أو جراحة). أمّا الحالات الحميدة فمعظمها مثبت مرضيًّا أيضًا، باستثناء بعض أمثلة DDSM. ولا تحتوي CSAW-CC على معلومات تفصيليّة عن الحميد؛ بل تُبلّغ فقط عن الاستدعاء من عدمه.

تأتي المجموعات من مؤسّسات مختلفة حول العالم، ما يتيح تقييم الأداء على صور خارجيّة وإثبات القدرة على التعميم. كما يمكن استخدام المستودع مع مجموعات بيانات خاصة لقياس الأداء على السكان المستهدفين. ستُصبح المجموعات العامة المستقبلية متوافقة أيضًا مع المستودع بسهولة.

أداء تصنيف السرطان

تشير النتائج إلى أنّ النماذج تُحقّق أداءً أفضل على مجموعات اختبار تُماثل توزيع بيانات تدريبها. فعلى مجموعات NYU، كانت أفضل ثلاثة نماذج من تلك المُدرَّبة على بيانات مماثلة. حقّقت GMIC وDMV-CNN وGLAM أداءً تراوح بين 0.779 و0.857 لمساحة تحت منحنى ROC على مجموعة دراسة القرّاء في NYU. بالمقابل، سجّل End2end وFaster R-CNN قيمًا بلغت 0.454 (95% CI: 0.377–0.536) و0.714 (0.643–0.784) على التوالي. كان End2end مُدرَّبًا على DDSM وأظهر أفضلية على أمثلة الاختبار من هذه المجموعة (AUC ROC = 0.904 [0.864–0.939]). أمّا النسخة المحسّنة من End2end على INbreast فبلغت 0.977 (0.931–1.000). ويُذكر أنّ فترات الثقة عند التقييم على INbreast وDDSM كانت واسعة، ما يؤكّد أهمية المقارنة عبر مجموعات متعدّدة.

لم تُستخدَم نسخ من CMMD وOPTIMAM وCSAW-CC في تدريب أيّ من النماذج المُدرجة. على CMMD، حقّق GMIC أفضل أداء (AUC ROC 0.825 [95% CI: 0.809–0.841]، وAUC PR 0.854 [0.836–0.869])، تلاه Faster R-CNN ثمّ GLAM. وعلى OPTIMAM، كان GMIC أيضًا الأفضل (AUC ROC 0.813 [0.804–0.820]، وAUC PR 0.592 [0.577–0.608])، تلاه DMV-CNN ثم GLAM. كما تفوّق GMIC على CSAW-CC (AUC ROC 0.933 [0.921–0.944]، وAUC PR 0.422 [0.374–0.469]).

يتميّز GMIC بتوافُر عدّة نماذج يمكن تجميعها (Ensemble). في تجاربنا، تجاوز تجميع أفضل خمسة مُصنِّفات من GMIC أداءَ أيّ نسخة منفردة عبر جميع المجموعات، كما فاق End2end المحسّن على INbreast. ويمكن مقارنة الأداء على مجموعة دراسة القرّاء في NYU مباشرةً مع أربعة عشر خبيرًا من دراسة سابقة؛ إذ تراوحت قيم AUC ROC بين 0.705 و0.860 بمتوسط 0.778±0.04. تفوّقت نماذج GMIC وGLAM وDMV-CNN على متوسّط أداء أطباء الأشعة، بينما كان Faster R-CNN قريبًا من المتوسّط. أمّا في AUC PR، فتراوحت نتائج القرّاء بين 0.244 و0.453 (متوسط 0.364±0.05)، ولم يتجاوز متوسّطَ أداء القرّاء سوى تجميع GMIC.

المناقشة

نهدف عبر المستودع الشامل إلى تيسير وتسريع وإضفاء الطابع المعياري على البحث العالمي في الذكاء الاصطناعي للماموغرافيا التحريّة. يتيح الحلّ المقترح للباحثين التحقّق العادل من أداء نماذجهم المُدرَّبة، كما يمنح مُلّاك البيانات إمكان الوصول إلى عدّة نماذج متقدّمة.

لدعم قابليّة إعادة الإنتاج وإتاحة الوصول في أبحاث الماموغرافيا بالذكاء الاصطناعي، ضمنّا خمسة نماذج متقدّمة مفتوحة المصدر وقُمنا بتغليفها بـ Docker، بما يضمن توحيد البيئة والتنفيذ لجميع المساهمين ويُتيح مقارنات عادلة. حاويات Docker وحداتٌ برمجية خفيفة تُمكّن المستخدمين من اتّباع إعدادٍ مُحدّد وتثبيت الأطر اللازمة وتشغيل التطبيقات عبر منصّات عدّة.

هناك مشاريع سعت إلى استخدام Docker لتيسير الوصول إلى النماذج، مثل OncoServe الذي يضمّ ثلاثة نماذج: أحدها يتنبّأ بكثافة الثدي وفق BI-RADS واثنان يتنبّآن باحتمال الإصابة بالسرطان خلال سنة أو خمس سنوات. مثالٌ آخر ModelHub، وهو مجموعة نماذج تعلّم عميق لمهامّ متنوّعة، منها تطبيقات أشعّة. ورغم اعتماد مستودعنا أيضًا على Docker، فإنّ هدفه مختلف؛ إذ يركّز على مهمة واحدة محدّدة: التنبؤ باحتمال الإصابة بسرطان الثدي في الماموغرافيا، ما يجعل تصميمه مُلاءِمًا للبيانات والمقاييس الخاصة بهذه المهمّة. كما أن جميع نماذجنا متاحة للجميع، بخلاف OncoServe الذي يتطلّب موافقة المطوّرين. علاوة على ذلك، خضعت نماذج المستودع للتحقّق من قِبل باحثين متعدّدين وعلى مجموعات بيانات متنوّعة، بينما اختبر مطوّرو OncoServe نماذجهم على بيانات جهة واحدة. وأخيرًا، لم يُحدَّث OncoServe وModelHub منذ أكثر من عامين، بينما نلتزم نحن بصيانة المستودع، وإضافة نماذج جديدة، وتحديث لوحة النتائج، ودعم المستخدمين، وتحسين الوظائف.

يُتيح المستودع الشامل مقارنةً فعّالة بين النماذج المختلفة عبر مجموعات بيانات عامة وخاصّة. ومن منظور المقارنة، نلاحظ تباين النتائج بين النماذج؛ فالنموذج الذي يبلُغ أداءً جيدًا على DDSM أو INbreast قد يتعثّر على بيانات NYU والعكس. يمكن عزو هذه الفروقات إلى عوامل عدّة، منها بيانات التدريب وتعريف التصنيف المستهدف. وتؤكّد هذه الاختلافات ضرورةَ المقارنة عبر مجموعات متعددة، إذ قد يكون الاعتماد على مجموعة واحدة مُضلِّلًا. ومن خلال المستودع، نقلِّص الجهد اللازم لتشغيل النماذج، بما يتيح تقييمًا أفضل ومقارنةً أدقّ، حيث يمكن للباحثين بسهولة استخدام النماذج على بياناتهم الخاصة. نأمل أن تُساهِم مجموعاتٌ أخرى بنماذجها، وسنحافظ على لوحة النتائج لمجموعات البيانات المختلفة على صفحتنا في GitHub: https://github.com/nyukat/mammography_metarepository.

المواد والمنهجيّات

الأخلاقيّات

حصلت هذه الدراسة ومعالجة مجموعات بيانات NYU على موافقة مجلس المراجعة المؤسسية في NYU Langone Health (رقم الموافقة s18-00712)، مع التنازل عن شرط الموافقة المستنيرة لأنّ الدراسة لا تتضمّن أكثر من حدٍّ أدنى من المخاطر. كانت جميع المجموعات الخارجية مُجهّلة الهوية بالكامل قبل الدراسة، ومن ثمّ لم تتطلّب موافقات إضافية. أُجريت جميع عمليات معالجة البيانات والتجارب وفقًا لإعلان هلسنكي لعام 1964 وتعديلاته اللاحقة.

مجموعات البيانات

مجموعة اختبار NYU: هي جزء من مجموعة بيانات NYU للتحرّي عن سرطان الثدي، واستُخدمت أصلًا لتقييم DMV-CNN. مجموعة دراسة القرّاء في NYU: هي جزء من مجموعة الاختبار نفسها، واستُخدمت لمقارنة أداء النماذج بأداء مجموعة من أطباء الأشعة. تتكوّن مجموعة الاختبار من 14,148 فحصًا لنساء أعمارهن بين 27 و92 عامًا، أُجريت بين مايو وأغسطس 2017 في NYU Langone Health. تحتوي 307 فحوصات على آفات حميدة فقط، و40 على خبيثة فقط، و21 على آفات حميدة وخبيثة معًا، والبقيّة (13,780) لمرضى لم يخضعوا لخزعة. في مجموعة دراسة القرّاء، هناك 720 فحصًا: 300 بحالات حميدة فقط، و40 بخبيثة فقط، و20 مختلطة، و360 لمرضى لم يخضعوا لخزعة. إفراد هذه المجموعة يتيح مقارنة مباشرة مع أداء أطباء الأشعة؛ إذ طُلب إلى أربعة عشر طبيبًا (بخبرات متفاوتة) تقديم توقّعاتهم لجميع صورها.
مجموعة اختبار DDSM: أُطلقت عام 1999 وتضمّ 2,620 فحصًا و10,480 صورة ماموغرافيا رقميّة، مصدرُها عدّة مؤسّسات أمريكية. وأُطلقت نسخة مُحسَّنة (CBIS-DDSM) عام 2017 بتحسينات في التعليقات التوضيحية. استخدمنا مجموعة اختبار معدّلة تتبع Shen وآخرين لتمكين المقارنة. لمزيد من التفاصيل حول معرفات المرضى، راجع الجدول التكميلي 2؛ وتضمّ 188 فحصًا. بخلاف بيانات NYU، قد تحتوي بعض الفحوص على صور لبعض العروض فقط أو لثدي واحد فقط. من بين 188 فحصًا، هناك 89 خبيثة فقط، و96 حميدة فقط، و3 مختلطة.
مجموعة INbreast: أُكملت عام 2010 وأُطلقت عام 2012، وتضمّ 115 فحصًا من مستشفى في البرتغال. تحتوي أنواعًا مختلفة من الآفات مع تعليقات توضيحية، وجميع الصور رقمية بالكامل. استخدمنا 31 فحصًا من INbreast في الاختبار. وكما في DDSM، قد لا تتوافر كل العروض لكل فحص. من بين 31 فحصًا، هناك 4 خبيثة فقط، و16 حميدة فقط، و11 مختلطة. قائمة معرفات المرضى متاحة في الجدول التكميلي 3.
OPTIMAM: قاعدة بيانات بريطانية تضم صور ماموغرافيا وبيانات سريرية منذ 2011. الوصول إليها مُقيّد، وقد استخدمنا جزءًا منها يضمّ 6,000 مريض و11,633 فحصًا. استخدمنا فقط الصور المُهيّأة للعرض.
قاعدة بيانات CMMD الصينيّة: أُطلقت عام 2021 وتضمّ 1,775 فحصًا من عدّة مؤسسات صينيّة، مع تسميات مثبتة بالخزعة. تتوافر بيانات إضافية مثل العمر ونوع الآفة وبعض المؤشرات المناعية.
CSAW-CC: مجموعة فرعيّة من CSAW السويدية، تضمّ جميع حالات السرطان و10,000 حالة سلبيّة مختارة عشوائيًا. تحتوي فقط على صور من أجهزة Hologic، وتُستخدم لتقييم أدوات الذكاء الاصطناعي للتحرّي. شملنا فقط السرطانات المكتشفة بالفحص والحالات السلبية.

ملاحظات الاستخدام

فيما يلي ملاحظات حول استخدام المستودع الشامل عند نشر هذا المقال. يُرجى الرجوع إلى موقع المستودع9 لأحدث المعلومات.

الصور

جميع النماذج المُضمَّنة حاليًّا تتوقّع صور PNG بعمق 16-بت كمدخلات. يجب إعادة تحجيم الصور ذات العمق الأقل (مثل 12-بت) إلى نطاق 16-بت. على المستخدمين التأكّد من أنّ الصور مُهيّأة للعرض (Presentation intent)، أي تُعرض بصريًّا على نحو صحيح وقد طُبِّقت جميع التحويلات الرمادية اللازمة، مثل عكس القيم عند استخدام MONOCHROME1. يصف معيار DICOM (القسم C.8.11.1.1.1) الفروق بين الصور المُهيّأة للعرض وتلك المُخصّصة للمعالجة. تُحمَّل الصور داخل حاوية Docker الخاصة بالنموذج، ولذا يُترك اختيار تنسيق الملف للمطوّرين.

البيانات الوصفيّة

يتوقّع المستودع ملفّ بيانات وصفيّة مُسلسَل (pickle) لكل مجموعة بيانات. يتكوّن الملف من قائمة قواميس؛ يمثّل كل قاموس فحصَ مريض، وينبغي أن يحتوي على: التسميات لكل ثدي، وأسماء ملفات الصور لكل عرض، ومعلومة عمّا إذا كانت الصور تحتاج قلبًا أفقيًّا. مثال:

{
    'L-CC': ['0_L_CC'],
    'R-CC': ['0_R_CC'],
    'L-MLO': ['0_L_MLO'],
    'R-MLO': ['0_R_MLO'],
    'cancer_label': {
        'left_malignant': 0, 
        'right_malignant': 0, 
    }, 
    'horizontal_flip': 'NO',
}

هناك أربعة مفاتيح للعروض القياسية: L-CC، R-CC، L-MLO، R-MLO. يحتوي كل مفتاح على قائمة بمسارات الصور المختصرة. وإذا لم تتوافر صورة لعرضٍ ما، تُترك القائمة فارغة.

يحمل cancer_label تسميات الفحص: left_malignant (1 إذا وُجدت آفة خبيثة في الثدي الأيسر، و0 خلاف ذلك)، وright_malignant للثدي الأيمن.

حقل horizontal_flip حقلٌ موروث من مجموعة بيانات NYU ويُستخدم فقط في نماذج NYU. تتوقّع هذه النماذج توجيهًا معيّنًا لصور كلّ ثدي: صور الثدي الأيمن يجب أن تشير نحو اليسار (الصدر يمينًا والحلمة يسارًا)، وصور الثدي الأيسر تشير نحو اليمين. إذا كانت الصور بهذا التوجيه، تُضبط القيمة على NO، وإذا كانت معكوسة فتكون YES.

المخرجات

يحفظ كل نموذج تنبؤاته في ملف CSV يُحدَّد مساره عند التشغيل. إذا أصدر النموذج تنبؤات على مستوى الصورة، فينبغي أن يتضمّن الملف الأعمدة: image_index وmalignant_pred وmalignant_label. مثال:

image_index,malignant_pred,malignant_label
0_L-CC,0.0081,1
0_R-CC,0.3259,0
0_L-MLO,0.0335,1
0_R-MLO,0.1812,0

يحمل image_index المسار المختصر للصورة، ويحمل malignant_pred وmalignant_label تنبؤ النموذج والتسمية الفعلية. وإذا كانت التنبؤات على مستوى الثدي، ينبغي إنتاج احتمالين لكل فحص: left_malignant وright_malignant، كما في المثال:

index,left_malignant,right_malignant
0,0.0091,0.0179
1,0.0012,0.7258
2,0.2325,0.1061

يُفترض أن ترتيب التنبؤات يطابق ترتيب الفحوصات في ملف الـ pickle، وتُستقى التسميات منه عند التقييم.

مَعلمات النماذج الاختيارية

لإعادة إنتاج الأداء كما هو موضّح في الجدول [tab:model_performance]، يُرجى مراعاة ما يلي:

  • لنموذج End2end، تتوافر عدّة نماذج مُدرَّبة مسبقًا. نُبلّغ هنا عن نتائج نموذجين: واحد يعتمد ResNet-50 ومُدرَّب على DDSM، وآخر يعتمد VGG-16 ومُدرَّب على DDSM ومحسَّن على INbreast. تتوافر نماذج أخرى في المستودع لكنها أعطت أداءً أدنى.
  • يجب تحديث مَعلمة متوسّط شدّة البكسل في ملف إعداد End2end بحسب مجموعة البيانات: DDSM — 52.18، وCMMD — 18.01، وNYU — 31.28، وOPTIMAM — 35.15، وCSAW-CC — 23.14. ولغيرها، ينبغي حساب المتوسّط المناسب.
  • لا توجد مَعلمات اختيارية لنموذج Faster R-CNN.
  • يتوقّع DMV-CNN وجود العروض الأربعة في كل فحص. وإن لم تتوافر، يجب استخدام نسخة خاصة (nyu_model_single بدل nyu_model).
  • تتوافر أوزان خمسة مُصنِّفات مُدرَّبة مسبقًا لـ GMIC. البنية نفسها لكن مع بادئات (Seeds) تدريب مختلفة. افتراضيًّا، يُستخدَم المُصنِّف رقم 1 (الأفضل). ويمكن اختيار تجميع النماذج الخمسة. الأداء المذكور في الجدول يُحيل إلى أفضل نموذج منفرد.
  • لـ GLAM نسختان بأوزان مختلفة: model_sep وmodel_joint. افتراضيًّا، يُستخدَم model_joint. لمزيد من التفاصيل، راجع الورقة الأصلية. الأداء المذكور في الجدول يُحيل إلى model_joint عبر جميع المجموعات.

المساهمة بنماذج جديدة

على المؤلفين الراغبين في إضافة نماذجهم إلى المستودع الشامل إنشاء طلب سحب (Pull Request) يتضمّن ملف Docker وسكربت تشغيل (Entrypoint) وملف إعداد نموذجي. تتوافر أمثلة في المستودع. يجب أن يُعيد ملف Docker إنشاء بيئة التنفيذ الأصلية قدر الإمكان. ويُستدعى سكربت التشغيل مع مجموعة معاملات تُحدِّد مسار الصور، والجهاز المستخدم (GPU أو CPU)، ومسار ملف المخرجات. ينبغي أن يُنفِّذ السكربت جميع الخطوات اللازمة لتوليد التنبؤات ومعالجة البيانات. يجب أن يُنتِج النموذج ملف CSV بالمخرجات وفق التنسيق القياسي الموضَّح في ملف README للمستودع.

سياسة الإرسال

سنُقيِّم كل نموذج يُضاف إلى المستودع الشامل حتى ثلاث مرّات على جميع مجموعات البيانات. نُتيح تقييمين إضافيين لتصحيح الأخطاء البسيطة. وسننظر في تقييم النماذج الخاصة غير المُضافة إلى المستودع بحسب كل حالة على حدة.

مواد تكميلية

  • الجدول S1. معرّفات المرضى من مجموعة بيانات DDSM.
  • الجدول S2. أسماء الصور لأمثلة الاختبار من مجموعة INbreast.

الشكر والتقدير:

يتقدّم المؤلفون بالشكر إلى ماريو فيدينا، وعبد الخاجة، ومايكل كوستانتينو لدعمهم بيئة الحوسبة، كما يشكرون ميرندا بيرسلي على تدقيق المخطوطة.

التمويل:

  • منحة المعاهد الوطنية للصحة P41EB017183 (KJG)
  • منحة المعاهد الوطنية للصحة R21CA225175 (KJG, JW, KC)
  • منحة مؤسسة جوردون وبيتي مور رقم 9683 (KJG)
  • منحة الوكالة الوطنية البولندية للتبادل الأكاديمي PPN/IWA/2019/1/00114/U/00001 (JW)
  • منحة المركز الوطني البولندي للعلوم 2021/41/N/ST6/02596 (JC)

مساهمات المؤلفين:

  • تصوّر الفكرة: BS, VR, KC, KG
  • تطوير البرمجيات: BS, VR, JC, JW
  • تحليل البيانات: BS, VR, FS, JW, KG
  • تقييم النتائج: BS, VR, FS, JW, KG
  • إدارة المشروع: JW, KC, KG
  • الإشراف: KC, KG
  • كتابة المسودة الأصلية: BS, JW, JC, FS, KG
  • الكتابة — مراجعة وتحرير: BS, JW, VR, JC, FS, KC, KG

تضارب المصالح:

يُصرِّح المؤلفون بعدم وجود أيّ تضارب في المصالح.

توفر البيانات:

ثلاثٌ من مجموعات البيانات المذكورة (DDSM، وINbreast، وCMMD) تحتوي صورًا مُجهّلة الهوية ومتاحة للعامة. لم تَعُد مجموعة INbreast تُحدَّث من قبل المجموعة الأصلية، لكن يُشجَّع التواصل معهم للحصول على الصور10. تتوفّر DDSM وCBIS-DDSM عبر Cancer Imaging Archive (https://doi.org/10.7937/K9/TCIA.2016.7O02S9CY). كما تتوفّر CMMD عبر TCIA (https://doi.org/10.7937/tcia.eqde-4b16). أمّا OPTIMAM وCSAW-CC فمُقيّدتا الوصول، ويجب مخاطبة القائمين عليهما لطلب الإتاحة. وبالنسبة لمجموعتَي NYU المتبقّيتين فليستا متاحتين للتنزيل العام، غير أنّنا سنُقيِّم النماذج عليهما عند تقديمها إلى المستودع.

توفر الشيفرة المصدريّة:

نُتيح الشيفرة الكاملة للمستودع الشامل عبر https://github.com/nyukat/mammography_metarepository. النماذج المُضمَّنة مفتوحة المصدر ومتاحة للعامة: GMIChttps://github.com/nyukat/GMIC؛ GLAMhttps://github.com/nyukat/GLAM؛ DMV-CNNhttps://github.com/nyukat/breast_cancer_classifier؛ Faster R-CNNhttps://github.com/riblidezso/frcnn_cad؛ End2endhttps://github.com/lishen/end2end-all-conv. استخدمنا في المستودع عدّة مكتبات وأطر مفتوحة المصدر مثل PyTorch (https://pytorch.org).

معلومات تكميلية

معرّفات المرضى من مجموعة بيانات DDSM التي تشكّل مجموعة الاختبار، كما هو موضّح في Shen وآخرين.
أسماء الصور لأمثلة الاختبار من مجموعة INbreast، كما استُخدمت في Shen وآخرين. (^\ast) هذه الصورة لم تكن ضمن مجموعة الاختبار الأصلية؛ أُضيفت لمنع تسرب البيانات لأنّ صورةً أخرى من الفحص/المريض نفسه موجودة في مجموعة التدريب.

  1. متوفّر على موقع المستودع الشامل: https://www.github.com/nyukat/mammography_metarepository↩︎

  2. https://github.com/lishen/end2end-all-conv↩︎

  3. https://github.com/riblidezso/frcnn_cad↩︎

  4. https://github.com/nyukat/breast_cancer_classifier↩︎

  5. https://github.com/nyukat/GMIC↩︎

  6. https://github.com/nyukat/GLAM↩︎

  7. https://github.com/yala/OncoServe_Public↩︎

  8. http://modelhub.ai↩︎

  9. https://github.com/nyukat/mammography_metarepository↩︎

  10. https://github.com/wentaozhu/deep-mil-for-whole-mammogram-classification/issues/12#issuecomment-1002543152↩︎


تمّ تحويل هذه النسخة HTML تلقائيًّا من LaTeX.
تُعرض المعادلات الرياضية باستخدام MathJax.