في أي وقت، في أي مكان، لأي شخص: دراسة جدوى نموذج Segment Anything لجمع تعليقات الصور الطبية بالتعهيد الجماعي

Pranav Kulkarni Adway Kanhere Dharmam Savani Andrew Chan
Devina Chatterjee Paul H. Yi Vishwa S. Parekh
مركز التصوير الطبي الذكي بجامعة ميريلاند (UM2ii)
كلية الطب بجامعة ميريلاند، بالتيمور، MD 21201
{pkulkarni,akanhere,dsavani,andrew.chan,devinachatterjee,pyi,vparekh}@som.umaryland.edu

ملخص

جمع التعليقات لتجزئة الصور الطبية مهمة تستغرق وقتًا طويلًا وتتطلب خبرة متخصصة، ما يؤدي إلى اعتماد نماذج تعلم عميق تقليدية ضيقة التركيز وذات قيمة ترجميّة سريرية محدودة. مؤخرًا، أحدثت النماذج الأساسية الكبيرة مثل نموذج Segment Anything Model (SAM) نقلة في التجزئة الدلالية بقدرات تعميم استثنائية من دون ضبط دقيق عبر مجالات مختلفة، بما في ذلك التصوير الطبي، مما يبسّط عملية التعليق على الصور. ومع ذلك، لم يُقيَّم SAM بعد في سياق التعهيد الجماعي لتوليد التعليقات اللازمة لتدريب نماذج التعلم العميق ثلاثية الأبعاد للتجزئة. في هذا العمل، نستكشف إمكانات SAM لجمع تعليقات "متفرقة" من غير الخبراء لإنتاج أقنعة تجزئة "كثيفة" تُستخدم في تدريب نماذج 3D nnU-Net، وهو إطار حديث للتجزئة بالتعلم العميق. تُظهر نتائجنا أن التعليقات المُولدة بواسطة SAM تحقق متوسطات عالية على مقياس Dice مقارنة بالتعليقات الأصلية، لكن نماذج nnU-Net المُدرَّبة على تعليقات SAM تؤدي أداءً أدنى بشكل ملحوظ مقارنة بنماذج nnU-Net المُدرَّبة على التعليقات الأصلية (\(p<0.001\) في جميع المقارنات).

المقدمة

تُعد تجزئة الصور الطبية من أهم المهام في دعم اتخاذ القرارات السريرية المعتمدة على الحاسوب، إذ تشكّل الأساس لعدد كبير من التطبيقات بدءًا من التشخيص مرورًا بالتخطيط العلاجي وصولًا إلى تقييم الاستجابة للعلاج. ومع ذلك، يتطلب تطوير نماذج تجزئة الصور الطبية خبراء متمرّسين (مثل أخصائيي الأشعة) لتوفير تعليقات يدوية على العديد من البنى التشريحية والآفات ضمن مجموعات تدريبية قد تضم مئات المرضى، ما يجعل العملية مُرهِقة ومكلفة زمنيًا (diaz2022monai, sebro2023totalsegmentator, wasserthal2023totalsegmentator). نتيجة لذلك، تُركّز أغلب مجموعات البيانات ونماذج التجزئة المنشورة في الأدبيات السابقة تركيزًا ضيقًا على مهمة بعينها، الأمر الذي يحدّ من قيمتها الترجمية السريرية.

لمواجهة هذا التحدي، طُرحت في السنوات الأخيرة منهجيات تمكّن المستخدمين من تقديم تعليقات "متفرقة" قليلة الكلفة زمنياً، مثل الخربشات ومربعات الإحاطة، لتحفيز نموذج تعلم عميق مُدرَّب مسبقًا لإنتاج تعليقات "كثيفة" على هيئة أقنعة تفصيلية (diaz2022monai, ronneberger2015u, huang2018weakly). ورغم أن هذه المناهج تقلّل زمن التعليق لكل بنية، فإنها ما تزال تتطلب من الخبير إنشاء هذه التعليقات تفاعليًا، فضلًا عن تنقيحها والتحقق من صحتها (diaz2022monai). لذلك تبرز حاجة ملحّة إلى أطر لإعداد مجموعات بيانات تجزئة الصور الطبية تُمكّن غير الخبراء من وسمها بتعليقات متفرقة من دون تدخل خبير مستمر.

حديثًا، أحدثت نماذج الأساس الكبيرة للتعلم العميق المُدرّبة ذاتيًا على مجموعات بيانات واسعة النطاق تتخطى المليار عينة ثورة في الرؤية الحاسوبية، بفضل قابليتها العامة القوية من دون ضبط دقيق خاص بالمهمة (kirillov2023segment, ma2024segment, butoi2023universeg). وهذا يعني أنها لا تحتاج إلى إعادة تدريب متخصص للمهام الطبية ويمكن تشغيلها مباشرة دون إعداد مسبق. نموذج تجزئة أي شيء (SAM) هو أحد هذه النماذج الأساسية مفتوحة المصدر، المبنية على محوّلات الرؤية (ViTs)، ويمتاز بقدرته على التجزئة الدلالية من دون حاجة إلى ضبط دقيق (kirillov2023segment, dosovitskiy2020image). يعمل SAM عبر تهيئة الصورة تفاعليًا بتعليقات متفرقة، مثل النقاط أو مربعات الإحاطة، لإنتاج أقنعة تجزئة "كثيفة".

تشير الأدبيات الحديثة إلى أن SAM واعد جدًا لتعليق مجموعات البيانات الطبية باستخدام تعليقات متفرقة (cheng2023sam, bui2023sam3d, quan2024slide, deng2023sam, mazurowski2023segment, ma2024segment). ومع ذلك، فإن معظم التقييمات الحالية جرت في بيئات محاكاة بدلًا من إعداد واقعي قائم على التعهيد الجماعي، كما لم تُقَيَّم بعد فعالية التعليقات التي ينتجها SAM لتدريب نماذج التجزئة العميقة ثلاثية الأبعاد. هدف هذه الدراسة هو: 1) تقييم SAM لجمع التعليقات على مجموعات بيانات طبية من معلّقين غير خبراء، و2) التحقق من إمكانية استخدام التعليقات التي ينشئها SAM لتدريب نماذج التجزئة ثلاثية الأبعاد.

الطرق

هذه دراسة استعادية اعتمدت على مجموعات بيانات متاحة للعامة، وقد حصلت على موافقة لجنة المراجعة المؤسسية لدينا مع تصنيفها على أنها لا تتضمن أبحاثًا على مشاركين بشريين. الشفرة البرمجية متاحة عبر: https://github.com/UM2ii/SAM_DataAnnotation

نموذج تجزئة أي شيء

نموذج Segment Anything هو نموذج أساس في رؤية الحاسوب للتجزئة الدلالية، يعتمد على محوّلات الرؤية (ViTs) (kirillov2023segment, dosovitskiy2020image). يتألف من مُشفّر صور يستخرج الخصائص من الصورة لتكوين تمثيلات مُضمّنة، ومُشفّر تلميحات يحوّل التعليقات "المتفرقة" (مثل النقاط ومربعات الإحاطة) إلى تمثيلات مكمّلة، ومُفكّك أقنعة يستخدم تلك التمثيلات لإنتاج أقنعة تجزئة "كثيفة" للعناصر المهمة في الصورة. تم تدريب Segment Anything على مجموعة بيانات واسعة تضم أكثر من 11 مليون صورة وأكثر من 1 مليار قناع تجزئة، ما يمنحه قدرات تعميم عالية عبر مهام ومجالات متنوعة، بما في ذلك التصوير الطبي (cheng2023sam, bui2023sam3d, deng2023sam, mazurowski2023segment, ma2024segment).