LaTeX
تُعدّ عملية تجزئة صور صدى القلب مستهلكة للوقت وتتطلب موارد كبيرة، نتيجة التباين في جودة الصور والحاجة لمعالجة فحوص مأخوذة من زوايا عرض قياسية متنوعة. على الرغم من الأداء الواعد للطرُق الآلية الحالية في تجزئة هذه الصور، إلا أنها تُدرّب بشكل منفصل لكل زاوية عرض. وللتغلب على هذه القيود، نقدم في هذه الورقة نهجًا عامًّا مدفوعًا بالموجهات لتجزئة صور صدى القلب بغض النظر عن زاوية العرض. ومع مراعاة فروق المجال بين الزوايا المختلفة، نقترح أولًا آلية مطابقة الموجهات لتعلّم موجهات مخصّصة لكل زاوية عبر مطابقتها مع تضمينات المدخلات باستخدام نموذج رؤية مدرّب مسبقًا. بعد ذلك، نستخدم نموذجًا لغويًا طبيًا مدرّبًا مسبقًا لمحاذاة التمثيلات النصية مع بيانات البكسل، ما يضمن دقة عالية في التجزئة. أظهرت التجارب الواسعة على ثلاث زوايا عرض قياسية تفوق نهجنا على الطرُق العامة الأخرى، مع أداء مماثل أو أفضل من النماذج المخصّصة لكل زاوية.
يُعدّ التصوير بالموجات فوق الصوتية للقلب الأسلوب الأكثر شيوعًا في طب القلب، حيث يساعد في تقييم وظائف القلب عبر فحصه من عدة زوايا عرض قياسية. نظرًا لتعقيد تحليل الصور وعبء العمل على الفنيين، ازداد الاهتمام بتطوير طرُق آلية للتقسيم (kim2022fully, kim2021automatic, leclerc2020lu). وقد أظهرت هذه الطرُق أداءً متفوقًا في تحديد الهياكل التشريحية بدقّة عندما تُدرّب على مجموعات بيانات مخصّصة لكل زاوية عرض. وتشمل هذه العملية خطوةً يدويةً لتحديد الزاوية المطلوبة في فحص المريض قبل التحليل، مما يستلزم اختيار التسجيل المناسب من بيانات المسح (charton2023multi, jeon2023improving). وحتى الآن لم تُستكشف إمكانية تصميم نموذج شامل قادر على أداء مهام التقسيم عبر مختلف الزوايا القياسية بشكل مستقل.
الحل الحالي هو تدريب N نماذج—نموذج لكل زاوية عرض قياسية—ومع ازدياد عدد الزوايا يزداد عدد النماذج المطلوبة. لعل أبسط الحلول لتصميم نموذج عام هو تدريبه على بيانات مأخوذة من زوايا متعددة، إلا أن ذلك قد يؤدي إلى تدهور الأداء بسبب الخصائص البصرية المميّزة لكل زاوية (kim2021automatic, mitchell2019guidelines). ولمعالجة هذه التحديات، ظهرت عدة نماذج عامة (zhang2021dodnet, butoi2023universeg, liu2023clip, ye2023uniseg). يقترح نموذج DoDNet بنية مشفّر-مفكّك مع رأس ديناميكي تتحكّم فيه متجهات ثابتة ثنائية الحالة. ويطوّر النموذج العام المعتمد على CLIP هذه الفكرة عبر استخدام نموذج لغوي مدرّب مسبقًا وإدارة رؤوس التقسيم اعتمادًا على التضمينات الدلالية للفئة. ومع أن هذه الاستراتيجية أظهرت نجاحًا في تقسيم الأعضاء في التصوير المقطعي المحوسب، إلا أنها تواجه تحديات في المجال الطبي بسبب الفجوة بين النصوص الطبيعية والطبية. ويعتمد UniSeg على موجهات قابلة للتعلّم لمعالجة مهام التقسيم في التصوير المقطعي، والرنين المغناطيسي، والإصدار البوزيتروني، لكنه يختبر على ثلاث مجموعات تشريح متقاربة حيث تختلف الصور في النسيج فقط بينما يظل التشريح ثابتًا. بالتالي، قد لا يكون مناسبًا لتحولات الزاوية الشديدة في تصوير القلب بالموجات فوق الصوتية، مما ينعكس على الأداء كما في الجدول [table2].
للتغلب على هذه التحديات، نقترح نموذجًا عامًّا مدفوعًا بالموجهات قادرًا على تحقيق أفضل أداء في تجزئة الهياكل القلبية. ندمج في نموذجنا آلية تعلّم الموجهات القائمة على مجموعة موجهات لتحسين التكيّف مع زوايا المسح المختلفة، وآلية محاذاة كثيفة بين النص والبكسل للاستفادة من المعرفة النحوية والطبية في مهام التجزئة. وفقًا لعلمنا، تُعدّ هذه الدراسة الأولى التي تعالج تجزئة نموذج موحّد في تصوير القلب بالموجات فوق الصوتية. تبسط طريقتنا عملية التحليل القلبي بإلغاء الحاجة لخطوة يدوية لتحديد الزاوية المطلوبة من مسح المريض. تم تقييم نهجنا على ثلاث زوايا عرض قياسية من ثلاث مجموعات بيانات مختلفة وأظهر نتائج واعدة مقارنةً بالطرُق العامة السابقة.
يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عامًّا مدفوعًا بالموجهات يتضمن مجموعة موجهات لمعالجة الزوايا القياسية المختلفة، ويستفيد من محاذاة النص بالبكسل مع المعرفة المكتسبة من نموذج لغوي طبي مدرّب مسبقًا لتجزئة صور صدى القلب بغض النظر عن زاوية العرض.
• نبسط عملية التحليل القلبي من خلال إزالة الحاجة لخطوة تحديد الزاوية يدويًا، مع استرجاع الزاوية المطلوبة تلقائيًا من بيانات الفحص.
• نظهر عبر تجارب واسعة على مجموعات بيانات متنوعة أنّ نموذجنا يحقق أداءً متفوقًا في مهام تجزئة القلب مقارنةً بالنهج العامة السابقة.
يتكوّن نهجنا المقترح، كما هو موضّح، من المسار النصي، مشفّر الفيديو، مجموعة محفّزات قابلة للتدريب (مفاتيح وقيم)، طبقة MLP، ووحدة فك تشفير الفيديو. نستخدم (alsentzer2019publicly) لتعزيز استخراج التمثيلات الطبية من النصوص. يهدف نموذجنا إلى تجزئة الهياكل عبر جميع إطارات الفيديو في الزوايا القياسية المتنوعة. لتحقيق ذلك، نقدم مكوّنَين رئيسيَّين: 1) آلية محاذاة كثيفة بين النص والبكسل لسد الفجوة بين نموذج اللغة المدرّب مسبقًا وتمثيلات البكسل في مهام التنبؤ الكثيف، و2) تقنية مطابقة الموجهات التي تستفيد من مجموعة الموجهات لاختيار الموجه الأمثل لكل مهمة.
بالنظر إلى مجموعة البيانات D = {D₁, …, D_N}، حيث يحتوي كل D_i على أزواج (X_{ij}, Y_{ij}) من فيديوهات وعدد الإطارات F والعلامات الأرضية، وX_{ij} ∈ V_k مع K زاوية مسح. بعض D_i موسومة بالكامل والبعض جزئيًا. الهدف هو تدريب نموذج F(·) باستخدام هذه المجموعات المسمّاة جزئيًا، ليتمكن من إجراء تنبؤات كثيفة لجميع الفئات K عبر الإطارات F.
عند تكييف تضمينات (CLIP) المدربة على الصور والنصوص الطبيعية للتطبيقات الطبية (qin2022medical, liu2023clip)، يضعف ذلك قدرتها على التقاط الدلالات الطبية كما يظهر في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفرة في نموذج لغوي طبي مدرّب مسبقًا، اعتمدنا على (ClinicalBert) (alsentzer2019publicly) في مهام التنبؤ الكثيف. نحوّل الفئات النصية إلى جمل "مخطط صدى القلب لـ [الفئة]" ثم نستخلص منها التضمينات 𝐹(c) ∈ ℝ^{N×D}. نُرمّز فيديو المسح بمشفّر الفيديو لاستخراج تضمينات محلية 𝐺(x) ∈ ℝ^{T_iH_iW_i×D}. بعد ذلك نحسب خريطة النقاط 𝒮 = Ĝ(x)·(F(c))ᵀ مع التطبيع على طول البُعد القنوي. تُستخدم خريطة النقاط هذه كخسارة مساعدة (نص–بكسل) لدمج أولويات النص في التضمينات المحلية قبل فك التشفير.
بالنظر إلى مدخل فيديو x ∈ ℝ^{T×H×W×C} ومشفّر الرؤية 𝔔 (ViT) من kirillov2023segment, نشقّ أول إطار إلى قطع بحجم S² ثم نُنتج تضمينات القطع 𝔔(x) ∈ ℝ^{L×D}. تتألف مجموعة الموجهات من M أزواج قابلة للتعلّم من مفاتيح k_i ∈ ℝ^D وقيم P_i ∈ ℝ^{L×D}. نسعى لتقريب تضمينات الاستعلام ومفتاح الموجه المطابق باستخدام خسارة تشابه جيبي تماثلي ℒₚᵣ. بعد ذلك، نستخدم تجميعًا متوسطًا عالميًا للحصول على تضمين عالمي للفيديو، ثم نستخدم تضمينات النص وقيم الموجه لإنتاج معاملات رؤوس التقسيم θ_N في وحدة فك تشفير الفيديو لتوليد توقعات ثنائية لكل فئة (tian2020conditional).
نظرًا لتوزّع العلامات الجزئي عبر الإطارات في مجموعاتنا (liu2023clip)، صممنا آلية انتشار عكسي مقنع تغطي الإطارات غير الموسومة وتحدّ من الانتشار العكسي للخسارة إليها، مما يسمح باستغلال التسميات النادرة لتحقيق تجزئة دقيقة في الفيديو.
نُعَرّف دالة الخسارة الإجمالية كالتالي:
\[ℒ_{seg} = λ₁ ℒ_{pixel-text} + λ₂ ℒ_{BCE}, \quad ℒ_{pr} = ⟨𝔔(X_{i0}), P_{key}⟩\]\[ℒ_{total} = (1 - λ(t)) ℒ_{seg} - λ(t) ℒ_{pr}\]حيث تجمع ℒ_{seg} بين خسارة التقاطعات المتبادلة مع خريطة الدرجات (pixel-text) وخسارة التقاطعات الثنائية (BCE)، ويتم ضبط λ₁ وλ₂ بالتساوي. تمثل ℒ_{pr} تشابهًا جيبيًا تماثليًا بين تضمين الاستعلام ومفتاح الموجه، وتُجدول λ(t) دالةً غاوسية تعتمد على التكرار لحساب الوزن النسبي لكل مصطلح.
المواد. قيّمنا الطرُق على ثلاث مجموعات بيانات عامة (leclerc2019deep, reddy2023video, ouyang2020video) التي تتضمن بيانات مسح ثنائي الأبعاد لصدى القلب في نهايتي الانبساط (ED) والانقباض (ES)، مع تحديد تجزئة البطين الأيسر البطاني (LVendo) والبطين الأيسر الظِهاري (LVepi) في زوايا العرض ذات الغرفة المزدوجة (A2C)، والأربعة (A4C)، والمحور القصير الجانبي (PSAX). اتبعنا تقسيمًا معدًّا سلفًا كما في الجدول [tab1].
التنفيذ ومقياس التقييم. للحفاظ على مقارنة عادلة، استخدمنا PyTorch ببطولات (batch) حجمها 5 عبر 100 حقبة على بطاقة Nvidia A100، مع شبكة U-Net كعمود فقري ومحسّن MADGRAD (defazio2022adaptivity) بمعدل تعلم 1e-4. قمنا بتحجيم الصور إلى 224×224×16 إطارًا وتطبيعها بمتوسط صفري وتباين وحدة. ولتعزيز المتانة، طبقنا الانقلاب العشوائي، دوران ±30°، والقص. قسّمنا الأداء بمعامل Dice (DSC) عبر وجهات A4C وA2C وPSAX وحالات ED وES.
دراسة المقارنة. قارنّا نهجنا في إعدادين: 1) تدريب واختبار على نفس الزوايا (نهج مخصّص)، و2) تدريب على جميع الزوايا واختبار عليها (نهج شامل). اعتمدنا كنماذج أساس SwinUNETR (hatamizadeh2021swin) وU-transformer (petit2021u) (kim2023medivista)، بالإضافة إلى النماذج العامة DoDNet (reddy2023video), CLIP-driven (liu2023clip), UniSeg (ye2023uniseg), وUniverSeg (butoi2023universeg).
كما يُظهر الجدول [table2]، يحقق نموذجنا نتائج تجزئة متميزة حتى مع إدخال غير محدد بالزاوية. مقارنةً بالنماذج ذات النهج الشامل، يتفوّق نموذجنا غالبًا على النماذج المخصّصة ما عدا LVendo (93.2 مقابل 93.3) وLVepi (88.3 مقابل 88.5) في A2C وA4C على التوالي. ومن خلال مطابقة الموجهات ديناميكيًا، نحقّق أفضل تحديد لمناطق الاهتمام عبر جميع الزوايا. كما يتفوّق أداؤنا المتوسط على نموذج UniverSeg القائم على عدد قليل من الأمثلة (89.64 مقابل 81.7).
دراسة الاستئصال. لتقييم مساهمة كل مكوّن، أزلنا المسار النصي أولًا، ولاحظنا انخفاضًا من 89.6 إلى 85.6 عند إزالة خسارة النص–بكسل، مما يؤكّد أهميّتها. ثم قارنا نماذج اللغة CLIP وClinicalBert، ووجدنا تفوّق الأخير (89.6 مقابل 88.8). كما قيّمنا دقّة تصنيف الموجهات عبر تصويت الأغلبية مع نتيجة تمييز زوايا العرض القياسية بلغت 0.96 بين المحورين الأفقي والعمودي، وأقل بين A2C وA4C (0.54 و0.6) بسبب التداخل الزاوي بينهما. كذلك لاحظنا أن توفير معلومات العرض الصريحة قد يقلّل الأداء قليلًا (89.4 مقابل 89.6) كما في الجدول [table4].
بدون | 89.6 |
---|
في هذه الدراسة، قدمنا نموذجًا مبتكرًا لتجزئة صور صدى القلب مدفوعًا بالموجهات وقادرًا على التعلم من بيانات موسومة جزئيًا عبر مختلف زوايا العرض القياسية. يجمع النموذج بين محاذاة التمثيل النصي والبصري باستخدام نموذج لغوي طبي مدرّب مسبقًا، وتقنية مطابقة الموجهات لتحقيق تجزئة متسقة بغض النظر عن الزاوية. أظهر التقييم على ثلاث زوايا عرض قياسية إمكانيّة توسيع النموذج ليشمل زوايا إضافية عند الضرورة، مع تبسيط العملية عبر إزالة الحاجة لخطوات يدوية لتحديد الزاوية. وأثبتت التجارب الموسعة تفوّق نهجنا وفائدته العالية في تجزئة صدى القلب.