معرّف ArXiv: 2108.04800v3
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2108.04800v3_extracted/main.tex
تاريخ التحويل: 2025-06-06 13:11:45

المستودع الشامل لمصنّفات تصوير الثدي الشعاعي للكشف المبكر

بنيامين ستادنِك

يان فيتوفسكي

فيشوايش راجيف

ياكوب خلدوسكي

فرح إي. شاموت

كيونغهيون تشو

كريستوف جي. جيراس

المؤلفون:

ملخص في جملة واحدة: نقدم مستودعًا شاملاً لنماذج الذكاء الاصطناعي الخاصة بتصوير الثدي الشعاعي للكشف المبكر، ونقارن بين خمسة نماذج على سبع مجموعات بيانات دولية.

الملخص: يُظهر الذكاء الاصطناعي (AI) وعودًا كبيرة في تحسين التشخيص السريري. في مجال الكشف المبكر عن سرطان الثدي، تشير الدراسات الحديثة إلى أن الذكاء الاصطناعي يمكن أن يُحسّن من تشخيص السرطان في مراحله المبكرة ويقلل من الإجراءات غير الضرورية. ومع تزايد عدد النماذج المقترحة وتعقيدها، أصبح من الصعب إعادة تنفيذها. لتعزيز إمكانية إعادة إنتاج الأبحاث وإجراء المقارنات بين الطرق المختلفة، نُطلق مستودعًا شاملاً يضم نماذج لتصنيف صور تصوير الثدي الشعاعي للكشف المبكر. يوفر هذا المستودع إطار عمل يتيح تقييم نماذج الذكاء الاصطناعي على أي مجموعة بيانات لتصوير الثدي الشعاعي. في نسخته الأولى، يحتوي المستودع على خمسة نماذج متقدمة مع تطبيقات مفتوحة المصدر ومتوافقة مع مختلف الأنظمة. نقارن أداء هذه النماذج على سبع مجموعات بيانات دولية. يتميز إطار العمل بتصميم مرن يمكن تعميمه على مهام تحليل الصور الطبية الأخرى. المستودع متاح عبر الرابط: https://www.github.com/nyukat/mammography_metarepository.

المقدمة

يُعد تصوير الثدي الشعاعي الركيزة الأساسية لبرامج الكشف المبكر عن سرطان الثدي حول العالم. يهدف هذا الفحص إلى تقليل وفيات سرطان الثدي من خلال الكشف المبكر عن الأورام. ومع ذلك، من المعروف أن تصوير الثدي الشعاعي ينتج عددًا كبيرًا من النتائج الإيجابية الكاذبة، مما يؤدي إلى إعادة الفحص أو إجراء خزعات غير ضرورية. بالإضافة إلى ذلك، قد ينتج عن التصوير نتائج سلبية كاذبة، مما يؤدي إلى فقدان فرصة الكشف المبكر، خاصة لدى النساء ذوات الكثافة النسيجية العالية للثدي.

شهدت السنوات الأخيرة تقدمًا ملحوظًا في استخدام الذكاء الاصطناعي للكشف عن السرطان. أطلقت مبادرة DREAM مؤخرًا تحديًا عالميًا مفتوحًا في مجال تصوير الثدي الشعاعي للكشف المبكر، شمل مجموعات بيانات من الولايات المتحدة والسويد، وشارك فيه أكثر من 120 فريقًا من 44 دولة. أظهرت النتائج أن نماذج الذكاء الاصطناعي تقترب من دقة أطباء الأشعة، حيث حقق تجميع أفضل ثمانية نماذج مع توقعات الأطباء أداءً متفوقًا مع مساحة تحت منحنى ROC بلغت 0.942 ونوعية (خصوصية) 92%.

أدى الاهتمام المتزايد في هذا المجال إلى زيادة عدد النماذج والتقنيات المقترحة. ولتقييم التقدم بشكل واقعي واختيار الحل الأنسب للتطبيقات السريرية، يجب أن يكون الباحثون والأطباء قادرين على إجراء مقارنات عادلة بين بنى النماذج. غالبًا ما يتم تدريب نماذج الذكاء الاصطناعي على مجموعات بيانات تختلف عن الفئة المستهدفة، ولا يزال من غير المعروف إلى أي مدى تعمم هذه النماذج على مجموعات اختبار مختلفة، مما يثير قلقًا كبيرًا في مجتمع الذكاء الاصطناعي الطبي. كما أن تعريف التصنيف المستهدف قد يختلف بين مجموعات البيانات بطرق دقيقة يصعب اكتشافها.

حتى في غياب اختلاف واضح في التوزيع بين بيانات التدريب والاختبار، يواجه الباحثون مشكلة ضعف إمكانية إعادة إنتاج النتائج. فقد أظهرت دراسة حديثة حاولت إعادة إنتاج نتائج 255 دراسة أنه تم النجاح في 162 دراسة فقط (63.5%)، ويرجع ذلك غالبًا إلى نقص التفاصيل التقنية أو عدم مشاركة الشيفرة المصدرية. هذا يجعل من الصعب تقييم أداء النماذج بشكل موثوق، وبالتالي تقييم مدى تعميمها على مجموعات سكانية جديدة. هذه المشكلة تشمل أيضًا أبحاث سرطان الثدي، حيث اعتُبرت إحدى الدراسات الحديثة واسعة الانتشار غير قابلة لإعادة الإنتاج.

في مهام الرؤية الحاسوبية الشائعة، من السهل مقارنة النماذج باستخدام مجموعات بيانات قياسية ومفتوحة مثل ImageNet لتصنيف الصور وCOCO لاكتشاف الأجسام. أما في المهام الأقل شيوعًا مثل الكشف عن سرطان الثدي في صور الفحص الشعاعي، فتصبح المقارنات أكثر صعوبة. أشهر مجموعات البيانات العامة مثل DDSM وINbreast قديمة وصغيرة الحجم. كما أن مجموعات البيانات الطبية تحمل تحيزات متأصلة مرتبطة بإجراءات جمع البيانات والأجهزة والسكان. حتى مع توفر مجموعات بيانات جديدة، سيظل إجراء تحليل نهائي للأداء في البيئة السريرية المستهدفة وجميع الفئات الفرعية أمرًا صعبًا. ونظرًا لصعوبة مشاركة البيانات لأسباب قانونية وأخلاقية، نقترح مشاركة النماذج كبديل ممكن. إن جمع النماذج القابلة لإعادة الإنتاج في مستودع شامل يتيح للمهتمين تقييم أداء النماذج بشكل مستقل.

نقدم هنا مستودعًا شاملاً يمكّن الباحثين من تقييم نماذج التعلم العميق الخاصة بهم بسهولة على أي مجموعة بيانات عامة أو خاصة لتصوير الثدي الشعاعي للكشف المبكر. ولحل مشاكل ضعف إمكانية إعادة الإنتاج، قمنا بتوحيد تنفيذ وتقييم مصنّفات تصوير الثدي الشعاعي وضممنا خمسة نماذج مفتوحة المصدر وجاهزة للاستخدام. يمكن للباحثين الذين لديهم بيانات خاصة استخدام النماذج المساهمة لمقارنة أدائها على السكان المستهدفين. يقوم المستودع تلقائيًا بإعداد البيئة، وتقييم النماذج على مجموعة البيانات المختارة، وحساب المقاييس ذات الصلة بتشخيص سرطان الثدي. وأخيرًا، استخدمنا في هذه الدراسة المستودع الشامل لتقييم أداء النماذج الخمسة المتوفرة حاليًا على سبع مجموعات بيانات دولية لقياس مدى تعميمها على مجموعات اختبار مختلفة.

نأمل أن يكون المستودع الشامل مركزًا لأبحاث سرطان الثدي، ونشجع الآخرين على المساهمة بنماذجهم في المستودع. كما أضفنا لوحة نتائج 1 لتتبع أداء النماذج على أشهر مجموعات البيانات العامة واثنتين من مجموعات بيانات NYU الخاصة لقياس التقدم في هذا المجال.

النتائج

مكونات المستودع الشامل

يتكون المستودع الشامل من نماذج مدربة لتصنيف صور تصوير الثدي الشعاعي للكشف المبكر، بالإضافة إلى شيفرات لتحميل ومعالجة مجموعات البيانات، وتوليد التنبؤات، وحساب مقاييس التقييم (انظر الشكل 1). حاليًا، هناك خمسة نماذج مفتوحة المصدر وجاهزة للاستخدام، ومخصصة فقط للاستدلال والتقييم. يمكن لأي شخص المساهمة بنموذجه في المستودع. لتسهيل إعداد النماذج وتمكين استخدام المستودع على أجهزة مختلفة، نستخدم Docker (وحدات برمجية خفيفة تشبه الأجهزة الافتراضية) لتغليف النماذج. لكل نموذج ملف إعداد خاص بـ Docker يحتوي على تعليمات إعداد بيئة التشغيل، بما في ذلك جميع الاعتمادات والأوزان المدربة مسبقًا والشيفرات والمكتبات الخارجية وأدوات مثل CUDA. بالإضافة إلى ذلك، يمكن تحديد معلمات اختيارية لمعالجة البيانات المسبقة لكل نموذج. لتقييم أي نموذج متوفر، يحتاج المستخدم فقط إلى توفير مسار الصور وملف تسميات الحقيقة الأرضية. يرجى الرجوع إلى قسم المواد والمنهجيات لمزيد من التفاصيل حول تنسيق الملفات المطلوب.

تعريف مهمة التنبؤ

يوفر المستودع الشامل نماذج تقوم بتصنيف صور تصوير الثدي الشعاعي للكشف المبكر، أي تحديد ما إذا كان هناك آفة خبيثة في الصورة أم لا. يُعرض على النموذج صورة واحدة أو عدة صور من الفحص. الصورة الواحدة قد تكون إحدى العروض الأربعة القياسية للفحص الروتيني: القحفي-الذيلي الأيسر (L-CC)، المائل الإنسي الجانبي الأيسر (L-MLO)، القحفي-الذيلي الأيمن (R-CC)، والمائل الإنسي الجانبي الأيمن (R-MLO). إذا كان النموذج يتطلب مجموعة كاملة من الصور، فيجب توفير صورة من كل عرض لكل ثدي. بعد ذلك، يصدر النموذج تنبؤًا بناءً على الصورة أو مجموعة الصور (انظر الشكل 2). إذا تم توفير صورة واحدة فقط، يعطي النموذج احتمال وجود آفة خبيثة على مستوى الصورة. أما إذا تم توفير مجموعة كاملة من الصور، فيصدر النموذج احتمالين: أحدهما لاحتمالية الخباثة في الثدي الأيسر والآخر للثدي الأيمن.

المقاييس

يُعد كل من مساحة تحت منحنى ROC (AUC ROC) ومساحة تحت منحنى الدقة-الاسترجاع (AUC PR) من المقاييس القياسية لتقييم مهام التصنيف الثنائي، وتستخدم على نطاق واسع في علم الأشعة. قد تكون منحنيات الدقة-الاسترجاع أكثر إفادة من منحنيات ROC عند تقييم الأداء على مجموعات بيانات ذات نسبة منخفضة من الحالات الإيجابية (أي حالات الخباثة)، كما أن النماذج التي تُحسّن AUC ROC لا تُحسّن بالضرورة AUC PR. على الرغم من أن المستودع الشامل يستهدف مجموعات سكانية ذات نفس دلالة الدراسة (سكان الفحص)، إلا أننا ندرك أن العديد من مجموعات البيانات قد تكون مُثرية بحالات أكثر تحديًا أو بانتشار مرض أعلى من السكان المستهدفين. على سبيل المثال، مجموعة اختبار DDSM تحتوي فقط على دراسات بحالات خبيثة أو حميدة قابلة للتدخل، وCSAW-CC هي أيضًا مجموعة بيانات مُثرية بعدد محدود من المرضى الأصحاء. يقوم المستودع الشامل تلقائيًا بحساب AUC ROC وAUC PR على مستوى الثدي ومستوى الصورة (إن أمكن). نستخدم طريقة غير معلمية لتقدير AUC، حيث لا تفترض توزيعًا معينًا للبيانات، وأصبحت معيارًا في تقييم النماذج التشخيصية المدعومة بالحاسوب. إذا كان النموذج يصدر تنبؤات لكل صورة (عرض) بشكل منفصل، يتم حساب متوسط التنبؤات للحصول على تنبؤ على مستوى الثدي. كما يتم رسم منحنيات ROC وPR وتوفيرها للمستخدم. كذلك، نحسب ونبلغ عن فترات الثقة بنسبة 95% باستخدام 2000 تكرار bootstrap. يمكن إضافة مقاييس أخرى بسهولة ضمن إجراء التقييم لدينا.

تفصيل الدراسات والتسميات في مجموعات البيانات المستخدمة لتقييم أداء النماذج. مجموعة دراسة القراء في NYU هي جزء من مجموعة اختبار NYU، وهي المجموعة الوحيدة التي تتيح مقارنة أداء النماذج مع مجموعة من أطباء الأشعة. أرقام الدراسات لمجموعتي DDSM وINbreast تمثل أمثلة فقط في مجموعة الاختبار، وهي جزء من المجموعات الكاملة. لا تحتوي CMMD على مجموعة اختبار محددة مسبقًا، لذا يشمل الجدول جميع الدراسات في هذه المجموعة. أرقام OPTIMAM تمثل جزءًا من المجموعة الكاملة التي تم منحنا حق الوصول إليها. لا تبلغ CSAW-CC عن الحالات الحميدة، بل فقط ما إذا تم استدعاء الحالة أم لا.

النماذج

حددنا خمسة نماذج جاهزة للاستخدام في المستودع الشامل، وهي: End2end (Shen وآخرون)، Faster R-CNN (Ribli وآخرون)، DMV-CNN (Wu وآخرون)، GMIC (Shen وآخرون)، وGLAM (Liu وآخرون). تم تضمين هذه النماذج لأنها تملك تطبيقات رسمية مفتوحة المصدر ويمكن تقييمها بالكامل. سنضيف المزيد من النماذج عند توفرها.

تختلف النماذج بشكل كبير من حيث البنية وإجراءات التدريب. على سبيل المثال، يعتمد نموذج End2end على تصنيف رقع صغيرة من الصورة ثم تعميم المصنف على الصورة الكاملة. أما Faster R-CNN فهو مبني على بنية شهيرة لاكتشاف الأجسام، حيث يحدد المناطق المشبوهة في الصورة ويرسلها إلى فرع التصنيف الذي يصنفها كحميدة أو خبيثة أو سلبية. DMV-CNN هو النموذج الوحيد الذي يستخدم افتراضيًا جميع العروض الأربعة معًا لإصدار التنبؤات، مع إمكانية العمل على صورة واحدة في حال نقص العروض. GMIC يحدد أولاً مناطق الاهتمام في الصورة الكاملة عبر شبكة عالمية، ثم يعالج المناطق المستخرجة في شبكة محلية، وأخيرًا يدمج المعلومات من كلا الفرعين لإصدار التنبؤ. أما GLAM فله بنية مشابهة لـ GMIC، لكنه صُمم لإنتاج تقسيمات عالية الدقة (لا نقيمها هنا) ويقدم تعديلات على الشبكة العالمية. هذا التنوع في البنى قد يؤدي إلى تعلم النماذج لميزات مختلفة من الصور. تساعد المقارنات المباشرة بين النماذج في فهم تأثير قرارات التصميم على الأداء.

قمنا بتقييم النماذج المتوفرة في المستودع الشامل على سبع مجموعات بيانات تصوير الثدي الشعاعي المذكورة. كانت مهمة التقييم تصنيف الفحوصات على مستوى الثدي إلى وجود أو عدم وجود آفات خبيثة. النتائج مفصلة في القسم التالي.

مجموعات البيانات

لتوضيح مرونة المستودع الشامل، قمنا بتقييم النماذج المذكورة على سبع مجموعات بيانات (انظر الجدول 1). أول مجموعتين من NYU Langone (مجموعة دراسة القراء ومجموعة الاختبار)، وقد استُخدمتا سابقًا في تطوير نماذج DMV-CNN وGMIC وGLAM. المجموعات الخمس الأخرى هي: قاعدة بيانات DDSM، وINbreast، وOPTIMAM، وقاعدة بيانات CMMD الصينية، وCSAW-CC. مجموعتا DDSM وINbreast المستخدمتان هنا هما جزء من المجموعات الكاملة المتاحة للعامة. لمزيد من المعلومات حول مجموعات البيانات، يرجى الرجوع إلى قسم المواد والمنهجيات.

جميع حالات السرطان في المجموعات المذكورة مثبتة مرضيًا (عن طريق خزعة أو جراحة). بالنسبة للحالات الحميدة، معظمها مثبتة مرضيًا أيضًا، باستثناء بعض الحالات في DDSM. كما أن CSAW-CC لا تحتوي على معلومات عن الحالات الحميدة، بل فقط ما إذا تم استدعاء الحالة أم لا.

تأتي مجموعات البيانات من مؤسسات مختلفة حول العالم، ما يتيح تقييم أداء النماذج على صور خارجية وإثبات قدرتها على التعميم. كما يمكن استخدام المستودع مع مجموعات بيانات خاصة لقياس الأداء على السكان المستهدفين. ستكون مجموعات البيانات العامة المستقبلية متوافقة أيضًا مع المستودع.

أداء تصنيف السرطان

تشير النتائج إلى أن النماذج تحقق أداءً أفضل على مجموعات الاختبار المأخوذة من نفس توزيع بيانات التدريب. فعلى مجموعات NYU، كانت أفضل ثلاثة نماذج من تلك التي تم تدريبها على بيانات مماثلة. حققت نماذج GMIC وDMV-CNN وGLAM أداءً تراوح بين 0.779 و0.857 لمساحة تحت منحنى ROC على مجموعة دراسة القراء في NYU. في المقابل، حقق End2end وFaster R-CNN قيمًا بلغت 0.454 (95% CI: 0.377-0.536) و0.714 (0.643-0.784) على التوالي. تم تدريب End2end على مجموعة تدريب DDSM، وحقق أفضل أداء على أمثلة اختبار من هذه المجموعة (AUC ROC = 0.904 [0.864-0.939]). أما النسخة المحسنة من End2end على INbreast فحققت 0.977 (0.931-1.000). من الجدير بالذكر أن فترات الثقة عند التقييم على INbreast وDDSM كانت واسعة، مما يؤكد أهمية المقارنة عبر مجموعات بيانات متعددة.

مجموعات CMMD وOPTIMAM وCSAW-CC لم تُستخدم نسخ منها في تدريب أي من النماذج في المستودع. على CMMD، كان أفضل أداء لنموذج GMIC (0.825 [95% CI: 0.809-0.841] AUC ROC، 0.854 [0.836-0.869] AUC PR)، يليه Faster R-CNN وGLAM. على OPTIMAM، كان GMIC أيضًا الأفضل (0.813 [0.804-0.820] AUC ROC، 0.592 [0.577-0.608] AUC PR)، يليه DMV-CNN وGLAM. كما كان GMIC الأقوى على CSAW-CC (0.933 [0.921-0.944] AUC ROC، 0.422 [0.374-0.469] AUC PR).

يعد GMIC النموذج الوحيد الذي يوفر عدة نسخ يمكن استخدامها في التجميع (ensemble). في تجاربنا، تفوق تجميع أفضل خمسة نماذج من GMIC على أي نسخة منفردة من النموذج عبر جميع المجموعات، كما تفوق على End2end المحسن على INbreast. يمكن مقارنة أداء النماذج على مجموعة دراسة القراء في NYU مباشرة مع أربعة عشر خبيرًا من دراسة سابقة، حيث تراوحت قيم AUC ROC بين 0.705 و0.860 بمتوسط 0.778±0.04. تفوقت نماذج GMIC وGLAM وDMV-CNN على متوسط أداء أطباء الأشعة، بينما كان Faster R-CNN قريبًا من المتوسط. بالنسبة لـ AUC PR، تراوحت نتائج القراء بين 0.244 و0.453 (متوسط 0.364±0.05)، وتفوق فقط تجميع GMIC على متوسط أداء أطباء الأشعة.

المناقشة

من خلال المستودع الشامل المقدم، نهدف إلى تسهيل وتسريع وتوفير إطار معياري للبحث العالمي في الذكاء الاصطناعي لتصوير الثدي الشعاعي للكشف المبكر. يتيح الحل المقترح للباحثين التحقق من صحة نماذجهم المدربة بشكل عادل، كما يمنح مالكي البيانات إمكانية الوصول إلى عدة نماذج متقدمة.

لدعم إمكانية إعادة الإنتاج والوصول في أبحاث تصوير الثدي بالذكاء الاصطناعي، قمنا بتضمين خمسة نماذج متقدمة مفتوحة المصدر وتغليفها باستخدام Docker، ما يضمن توحيد البيئة والتنفيذ لجميع المساهمين، ويتيح مقارنات عادلة بين النماذج. حاويات Docker هي وحدات برمجية خفيفة تتيح للمستخدمين اتباع إعداد محدد، وتثبيت الأطر اللازمة وتشغيل التطبيقات على منصات متعددة.

هناك بعض المشاريع التي حاولت استخدام Docker لتسهيل الوصول إلى النماذج، مثل OncoServe الذي يضم ثلاثة نماذج: أحدها يتنبأ بكثافة الثدي وفق BI-RADS واثنان يتنبآن باحتمالية الإصابة بالسرطان خلال سنة أو خمس سنوات. مثال آخر هو ModelHub، وهو مجموعة من نماذج التعلم العميق لمهام متنوعة، منها تطبيقات الأشعة. بينما يعتمد مستودعنا أيضًا على Docker، إلا أن هدفه مختلف؛ فهو يركز على مهمة واحدة: التنبؤ باحتمالية الإصابة بسرطان الثدي في الفحص الشعاعي، ما يجعل تصميمه ملائمًا للبيانات والمقاييس الخاصة بهذه المهمة. كما أن جميع النماذج لدينا متاحة للجميع، بخلاف OncoServe الذي يتطلب موافقة المطورين. علاوة على ذلك، تم التحقق من نماذج المستودع من قبل عدة باحثين وعلى مجموعات بيانات متعددة، بينما اختبر مطورو OncoServe نماذجهم على بيانات من جهة واحدة فقط. وأخيرًا، لم يتم تحديث OncoServe وModelHub منذ أكثر من عامين، بينما نلتزم نحن بصيانة المستودع وإضافة نماذج جديدة وتحديث لوحة النتائج ودعم المستخدمين وتحسين الوظائف.

يتيح المستودع الشامل مقارنة فعالة بين النماذج المختلفة عبر مجموعات بيانات عامة وخاصة. من منظور المقارنة، نلاحظ أن النتائج تختلف بين النماذج؛ فالنماذج التي تحقق أداءً جيدًا على DDSM أو INbreast قد تواجه صعوبة مع بيانات NYU والعكس صحيح. يمكن عزو هذه الفروقات إلى عدة عوامل، منها بيانات التدريب أو تعريف التصنيف المستهدف. تؤكد هذه الاختلافات أهمية وضرورة المقارنة عبر مجموعات بيانات متعددة، إذ قد يكون الاعتماد على مجموعة واحدة مضللًا. من خلال المستودع الشامل، نسعى لتقليل الجهد المطلوب لتشغيل النماذج، ما يتيح تقييمًا أفضل ومقارنة أدق بين النماذج، حيث يمكن للباحثين بسهولة استخدام النماذج مع بياناتهم الخاصة. نأمل أن تساهم مجموعات أخرى بنماذجها في المستودع، وسنحافظ على لوحة النتائج لمجموعات البيانات المختلفة على صفحة GitHub الخاصة بنا github.com/nyukat/mammography_metarepository.

المواد والمنهجيات

الأخلاقيات

تمت الموافقة على هذه الدراسة ومعالجة مجموعات بيانات NYU من قبل مجلس المراجعة المؤسسية في مركز NYU Langone Health (رقم الموافقة s18-00712)، وتم التنازل عن شرط الموافقة المستنيرة لأن الدراسة لا تنطوي على أكثر من حد أدنى من المخاطر. جميع مجموعات البيانات الخارجية كانت مجهولة الهوية بالكامل قبل إجراء الدراسة، وبالتالي لم تتطلب موافقة إضافية. تم تنفيذ جميع عمليات معالجة البيانات والتجارب وفقًا لإعلان هلسنكي لعام 1964 وتعديلاته اللاحقة.

مجموعات البيانات

مجموعة اختبار NYU هي جزء من مجموعة بيانات NYU للكشف عن سرطان الثدي. استُخدمت في الأصل لتقييم أداء نموذج DMV-CNN. مجموعة دراسة القراء في NYU هي جزء من مجموعة الاختبار نفسها، استُخدمت لمقارنة أداء النماذج مع مجموعة من أطباء الأشعة. تتكون مجموعة الاختبار من 14,148 فحصًا لنساء تتراوح أعمارهن بين 27 و92 عامًا، أُجريت بين مايو وأغسطس 2017 في NYU Langone Health. تحتوي 307 فحوصات على آفات حميدة فقط، و40 على آفات خبيثة فقط، و21 على آفات حميدة وخبيثة معًا. أما البقية (13,780) فهي لمرضى لم يخضعوا لخزعة. في مجموعة دراسة القراء، هناك 720 فحصًا: 300 بحالات حميدة فقط، 40 بخبيثة فقط، 20 بحالات مختلطة، و360 لمرضى لم يخضعوا لخزعة. يتيح تضمين مجموعة دراسة القراء كمجموعة اختبار منفصلة مقارنة أداء النماذج مباشرة مع أداء أطباء الأشعة. طُلب من أربعة عشر طبيبًا (بمستويات خبرة مختلفة) تقديم توقعاتهم لجميع الصور في هذه المجموعة.
مجموعة اختبار DDSM أُطلقت عام 1999 وتضم 2,620 فحصًا و10,480 صورة شعاعية رقمية. تأتي البيانات من عدة مؤسسات أمريكية. أُطلقت نسخة محدثة (CBIS-DDSM) عام 2017 مع تحسينات في التعليقات التوضيحية. استخدمنا مجموعة اختبار معدلة تتبع Shen وآخرون لتمكين المقارنات. لمزيد من التفاصيل حول معرفات المرضى، راجع الجدول التكميلي 2، وتضم 188 فحصًا. بخلاف بيانات NYU، قد تحتوي بعض الفحوصات على صور لبعض العروض فقط أو لثدي واحد فقط. من بين 188 فحصًا، هناك 89 بحالات خبيثة فقط، 96 بحالات حميدة فقط، و3 بحالات مختلطة.
مجموعة INbreast أُكملت عام 2010 وأُطلقت عام 2012، وتضم 115 فحصًا من مستشفى في البرتغال. تحتوي على أنواع مختلفة من الآفات مع تعليقات توضيحية، وجميع الصور رقمية بالكامل. استخدمنا 31 فحصًا من INbreast في مجموعة الاختبار. كما في DDSM، قد لا تتوفر جميع العروض في كل فحص. من بين 31 فحصًا، هناك 4 بحالات خبيثة فقط، 16 بحالات حميدة فقط، و11 بحالات مختلطة. قائمة معرفات المرضى متوفرة في الجدول التكميلي 3.
OPTIMAM هي قاعدة بيانات بريطانية تضم صورًا شعاعية وبيانات سريرية منذ 2011. الوصول إليها مقيد، واستخدمنا جزءًا منها يضم 6,000 مريض و11,633 فحصًا. استخدمنا فقط الصور المخصصة للعرض.
قاعدة بيانات CMMD الصينية أُطلقت عام 2021 وتضم 1,775 فحصًا من عدة مؤسسات صينية، مع تسميات مثبتة بالخزعة. تتوفر بيانات إضافية مثل العمر ونوع الآفة وبعض المؤشرات المناعية.
CSAW-CC هي مجموعة فرعية من مجموعة CSAW السويدية، وتضم جميع حالات السرطان و10,000 حالة سلبية مختارة عشوائيًا. تحتوي فقط على صور من أجهزة Hologic، وتُستخدم لتقييم أدوات الذكاء الاصطناعي للكشف عن سرطان الثدي. شملنا فقط حالات السرطان المكتشفة بالفحص والحالات السلبية.

ملاحظات الاستخدام

فيما يلي ملاحظات حول استخدام المستودع الشامل عند نشر هذا المقال. يرجى الرجوع إلى موقع المستودع 9 لأحدث المعلومات.

الصور

جميع النماذج المطبقة حاليًا في المستودع الشامل تتوقع صور PNG بعمق 16 بت كمدخلات. يجب إعادة تحجيم الصور ذات العمق الأقل (مثل 12 بت) إلى نطاق 16 بت. يجب على المستخدمين التأكد من أن الصور معدة للعرض (presentation intent)، أي أنها تعرض بشكل صحيح بصريًا وتم تطبيق جميع التحويلات الرمادية اللازمة، مثل عكس القيم عند استخدام MONOCHROME1. يصف معيار DICOM القسم C.8.11.1.1.1 الفروقات بين الصور المعدة للعرض والمعالجة. يتم تحميل الصور داخل حاوية Docker الخاصة بالنموذج، لذا يُترك اختيار تنسيق الصورة للمطورين.

البيانات الوصفية

يتوقع المستودع الشامل ملف بيانات وصفية (metadata) مُسلسل (pickle) لكل مجموعة بيانات. يتكون الملف من قائمة قواميس، يمثل كل قاموس فحص مريض ويجب أن يحتوي على: تسميات لكل ثدي، أسماء ملفات الصور لكل عرض، وما إذا كانت الصور بحاجة إلى قلب أفقي. مثال على قاموس:

{
    'L-CC': ['0_L_CC'],
    'R-CC': ['0_R_CC'],
    'L-MLO': ['0_L_MLO'],
    'R-MLO': ['0_R_MLO'],
    'cancer_label': {
        'left_malignant': 0, 
        'right_malignant': 0, 
    }, 
    'horizontal_flip': 'NO',
}

هناك أربعة مفاتيح للعروض القياسية: L-CC، R-CC، L-MLO، R-MLO. كل مفتاح يحتوي على قائمة بمسارات الصور المختصرة. إذا لم تتوفر صورة لعرض معين، تترك القائمة فارغة.

يحتوي cancer_label على تسميات الفحص: left_malignant (1 إذا كان هناك آفة خبيثة في الثدي الأيسر، 0 إذا لم توجد)، وright_malignant للثدي الأيمن.

سمة horizontal_flip هي أثر من مجموعة بيانات NYU، وتستخدم فقط في نماذج NYU. تتوقع النماذج أن تكون صور كل ثدي موجهة بطريقة معينة: صور الثدي الأيمن يجب أن تشير إلى اليسار (الصدر على اليمين والحلمة على اليسار)، وصور الثدي الأيسر تشير إلى اليمين. إذا كانت الصور بهذا الترتيب، تُضبط horizontal_flip على NO، وإذا كانت معكوسة، تُضبط على YES.

المخرجات

يحفظ كل نموذج التنبؤات في ملف CSV يُحدد مساره عند التشغيل. إذا أصدر النموذج تنبؤات على مستوى الصورة، يجب أن يتضمن الملف الأعمدة التالية: image_index، malignant_pred، malignant_label. مثال:

image_index,malignant_pred,malignant_label
0_L-CC,0.0081,1
0_R-CC,0.3259,0
0_L-MLO,0.0335,1
0_R-MLO,0.1812,0

يحتوي image_index على المسار المختصر للصورة، وmalignant_pred وmalignant_label على تنبؤ النموذج والتسمية الفعلية. إذا أصدر النموذج تنبؤات على مستوى الثدي، يجب أن ينتج لكل فحص احتمالين: left_malignant وright_malignant، كما في المثال:

index,left_malignant,right_malignant
0,0.0091,0.0179
1,0.0012,0.7258
2,0.2325,0.1061

يفترض أن ترتيب التنبؤات يطابق ترتيب الفحوصات في ملف pickle، وتُستخرج التسميات منه عند التقييم.

معلمات النماذج الاختيارية

لإعادة إنتاج الأداء كما هو موضح في الجدول [tab:model_performance]، يرجى مراعاة الملاحظات التالية:

  • لنموذج End2end، هناك عدة نماذج مدربة مسبقًا. نبلغ هنا عن نتائج نموذجين: واحد يعتمد على ResNet50 ومدرب على DDSM، وآخر يعتمد على VGG-16 ومدرب على DDSM ومحسن على INbreast. تتوفر نماذج أخرى في المستودع لكنها أعطت أداءً أقل.
  • يجب تحديث معلمة متوسط شدة البكسل في ملف إعداد End2end حسب مجموعة البيانات: DDSM - 52.18، CMMD - 18.01، NYU - 31.28، OPTIMAM - 35.15، CSAW-CC - 23.14. لمجموعات أخرى، يجب حساب المتوسط المناسب.
  • لا توجد معلمات اختيارية لنموذج Faster R-CNN.
  • يتوقع DMV-CNN وجود جميع العروض الأربعة في كل فحص. إذا لم تتوفر، يجب استخدام نسخة خاصة من النموذج (nyu_model_single بدلاً من nyu_model).
  • تتوفر أوزان خمسة مصنفات مدربة مسبقًا لنموذج GMIC. جميعها بنفس البنية لكن مدربة بمعاملات مختلفة. افتراضيًا، يُستخدم المصنف رقم 1 (الأفضل). يمكن أيضًا اختيار تجميع النماذج الخمسة. الأداء في الجدول يُبلغ عن أفضل نموذج فقط.
  • لنموذج GLAM نسختان بأوزان مختلفة: model_sep وmodel_joint. افتراضيًا، يُستخدم model_joint. لمزيد من التفاصيل، راجع الورقة الأصلية. الأداء في الجدول يُبلغ عن model_joint لجميع المجموعات.

المساهمة بنماذج جديدة

على المؤلفين الراغبين في إضافة نماذجهم إلى المستودع الشامل إنشاء طلب سحب (pull request) يتضمن ملف Docker، وسكريبت تشغيل (entrypoint)، وملف إعداد نموذجي. تتوفر أمثلة عبر الإنترنت في المستودع. يجب أن يعيد ملف Docker إنشاء بيئة التنفيذ الأصلية قدر الإمكان. يُستدعى سكريبت التشغيل عند التنفيذ مع مجموعة من المعاملات تحدد مسار الصور، الجهاز المستخدم (GPU أو CPU)، ومسار ملف المخرجات. يجب أن ينفذ السكريبت جميع الخطوات اللازمة لتوليد التنبؤات أو معالجة البيانات. يجب أن ينتج النموذج ملف CSV بالمخرجات وفق التنسيق القياسي الموضح في README للمستودع.

سياسة الإرسال

سنقوم بتقييم كل نموذج يُضاف إلى المستودع الشامل حتى ثلاث مرات على جميع مجموعات البيانات. نتيح تقييمين إضافيين لتصحيح الأخطاء البسيطة. سننظر أيضًا في تقييم النماذج الخاصة غير المضافة إلى المستودع حسب كل حالة.

مواد تكميلية

  • الجدول S1. معرفات المرضى من مجموعة بيانات DDSM.
  • الجدول S2. أسماء الصور لأمثلة الاختبار من مجموعة INbreast.

الشكر والتقدير:

يتقدم المؤلفون بالشكر إلى ماريو فيدينا، عبد الخاجة، ومايكل كوستانتينو لدعمهم بيئة الحوسبة. كما يشكرون ميرندا بيرسلي على تدقيق المخطوطة.

التمويل:

  • منحة المعاهد الوطنية للصحة P41EB017183 (KJG)
  • منحة المعاهد الوطنية للصحة R21CA225175 (KJG, JW, KC)
  • منحة مؤسسة جوردون وبيتي مور رقم 9683 (KJG)
  • منحة الوكالة الوطنية البولندية للتبادل الأكاديمي PPN/IWA/2019/1/00114/U/00001 (JW)
  • منحة المركز الوطني البولندي للعلوم 2021/41/N/ST6/02596 (JC)

مساهمات المؤلفين:

  • تصور الفكرة: BS, VR, KC, KG
  • تطوير البرمجيات: BS, VR, JC, JW
  • تحليل البيانات: BS, VR, FS, JW, KG
  • تقييم النتائج: BS, VR, FS, JW, KG
  • إدارة المشروع: JW, KC, KG
  • الإشراف: KC, KG
  • كتابة المسودة الأصلية: BS, JW, JC, FS, KG
  • الكتابة - مراجعة وتحرير: BS, JW, VR, JC, FS, KC, KG

تضارب المصالح:

يصرح المؤلفون بعدم وجود أي تضارب في المصالح.

توفر البيانات:

ثلاث من مجموعات البيانات المذكورة (DDSM، INbreast، CMMD) تحتوي على صور مجهولة الهوية ومتاحة للعامة. لم تعد مجموعة INbreast تُحدّث من قبل المجموعة الأصلية، لكن يُشجع المؤلفون على التواصل معهم للحصول على الصور 10. DDSM وCBIS-DDSM متاحتان عبر Cancer Imaging Archive (https://doi.org/10.7937/K9/TCIA.2016.7O02S9CY). CMMD متاحة أيضًا عبر TCIA (https://doi.org/10.7937/tcia.eqde-4b16). مجموعتا OPTIMAM وCSAW-CC مقيدتا الوصول، ويجب التواصل مع القائمين عليهما لطلب الوصول. أما مجموعتا NYU المتبقيتان فليستا متاحتين للتحميل، لكننا سنقيّم النماذج عليهما عند تقديمها للمستودع.

توفر الشيفرة المصدرية:

نُتيح الشيفرة الكاملة للمستودع الشامل عبر https://github.com/nyukat/mammography_metarepository. النماذج المضمنة مفتوحة المصدر ومتاحة للعامة: GMIC - https://github.com/nyukat/GMIC؛ GLAM - https://github.com/nyukat/GLAM؛ DMV-CNN - https://github.com/nyukat/breast_cancer_classifier؛ Faster R-CNN - https://github.com/riblidezso/frcnn_cad؛ End2end - https://github.com/lishen/end2end-all-conv. استخدمنا في المستودع عدة مكتبات وأطر مفتوحة المصدر مثل PyTorch (https://pytorch.org).

معلومات تكميلية

معرفات المرضى من مجموعة بيانات DDSM التي تشكل مجموعة الاختبار، كما هو موضح في Shen وآخرون.
أسماء الصور لأمثلة الاختبار من مجموعة INbreast، كما استخدمت في Shen وآخرون. (^\ast) هذه الصورة لم تكن ضمن مجموعة الاختبار الأصلية، أُضيفت لمنع تسرب البيانات لأن صورة أخرى من نفس الفحص/المريض موجودة في مجموعة التدريب.

  1. متوفر على موقع المستودع الشامل: https://www.github.com/nyukat/mammography_metarepository↩︎

  2. https://github.com/lishen/end2end-all-conv↩︎

  3. https://github.com/riblidezso/frcnn_cad↩︎

  4. https://github.com/nyukat/breast_cancer_classifier↩︎

  5. https://github.com/nyukat/GMIC↩︎

  6. https://github.com/nyukat/GLAM↩︎

  7. https://github.com/yala/OncoServe_Public↩︎

  8. http://modelhub.ai↩︎

  9. https://github.com/nyukat/mammography_metarepository↩︎

  10. https://github.com/wentaozhu/deep-mil-for-whole-mammogram-classification/issues/12#issuecomment-1002543152↩︎


تم تحويل هذه النسخة HTML تلقائيًا من LaTeX.
يتم عرض المعادلات الرياضية باستخدام MathJax.