latex
تُعَدّ عمليةُ تجزئةِ صورِ الصدى القلبي من أكثر العمليات استنزافًا للوقت وتتطلّب مواردَ حوسبيّةً كبيرة، وذلك بسبب تفاوت جودة الصور والحاجة إلى معالجة الفحوص من زوايا مسح قياسيّة مختلفة. وعلى الرغم من أن الأساليب الآليّة الحالية تُظهر أداءً واعدًا، فإنّها عادةً ما تُدرَّب على زوايا محددة، ممّا يستلزم نموذجًا منفصلًا لكل زاوية. ومع تزايد عدد الزوايا القياسيّة، يتضاعف عدد النماذج المطلوبة، وهو أمر غير عملي. لمواجهة هذه التحديات، نقدّم في هذه الورقة نهجًا عالميًا موجهًا بالأوامر لتحليل صور الصدى القلبي بغض النظر عن زاوية المسح. ونظرًا لاختلاف التوزيع بين الزوايا القياسيّة، نوفر أولًا آليةً تُسمّى «مطابقة الأوامر»، تهدف إلى تعلّم أوامر مخصّصة لكل زاوية عبر مواءمة الأوامر واستعلام تضمينات الإدخال باستخدام نموذج رؤية مدرَّب مسبقًا. ثم نستخدم نموذج لغة طبيّة مدرَّب مسبقًا لمواءمة المعلومات النصّية مع بيانات البكسل لتحقيق تجزئة دقيقة. أظهرت التجارب الواسعة على ثلاث زوايا قياسيّة تفوّق نهجنا بشكلٍ كبير على الحلول العالمية الحديثة، محققًا أداءً مساوٍ أو أفضل من النماذج المتخصّصة والمدرَّبة على نفس الزوايا.
يُعَدّ التصوير بالموجات فوق الصوتية أكثر الأساليب شيوعًا في تصوير القلب، إذ يتيح تقييم وظيفته عبر فحص مجموعة من الزوايا القياسيّة. ونظرًا لتعقيد تحليل هذه الصور وتزايد عبء العمل على الفنيين، تصاعد الاهتمام بتطوير أساليب آليّة للتقسيم في هذا النوع من التصوير (kim2022fully,kim2021automatic,leclerc2020lu). وقد أظهرت الأساليب الحالية قدرةً جيدة على تحديد الهياكل التشريحيّة بدقة ضمن الزوايا التي تدرّبت عليها. ومع ذلك، تتطلّب معظم هذه الأساليب خطوةً أولى لتحديد زاوية المسح المناسبة لكل مريض قبل بدء التحليل، ممّا يضيف عبئًا إضافيًّا لاختيار البيانات الملائمة (charton2023multi,jeon2023improving). وحتى الآن، لم يُستكشَف بعد تطوير نموذج عام يستطيع تنفيذ مهام التقسيم بشكل مستقل عبر جميع الزوايا القياسيّة.
في النهج التقليدي، يتمُّ تدريب N نماذج منفصلة لكلٍّ من N الزوايا القياسيّة. ومع تزايد عدد الزوايا، يتضاعف عدد النماذج، مما يجعل هذا الأسلوب غير مرن وغير عملي. قد تبدو الفكرة بسيطة عبر تدريب شبكة واحدة على بيانات جميع الزوايا، إلا أن ذلك غالبًا ما يؤدي إلى تدهور الأداء نظرًا لاختلاف الخصائص البصرية لكل زاوية (kim2021automatic,mitchell2019guidelines). ويواجه التصوير بالموجات فوق الصوتية تحديات إضافيّة مثل انحراف مجال الرؤية بين زوايا المسح والتسميات المبعثرة عبر الإطارات. وعلى الرغم من جهود تطوير نماذج عالميّة مماثلة في مجالات أخرى (zhang2021dodnet,butoi2023universeg,liu2023clip,ye2023uniseg)، فإن بعضها يعاني من قيود عند نقله إلى التطبيقات الطبيّة. فعلى سبيل المثال، يعتمد نموذج الشبكة الديناميكيّة (zhang2021dodnet) على بنية مشفر-مفكك مع ضوابط ديناميكيّة، بينما يوسّع نموذج CLIP المعتمد على التغذية النصيّة (liu2023clip) المفهوم باستخدام نموذج نصّ مسبق التدريب لإدارة رؤوس التقسيم دلاليًا. ورغم نجاحهما في تقسيم أعضاء الجسم في التصوير المقطعي المحوسب، إلا أنّ الاختلاف بين اللغات الطبيعية والطبية يحدُّ من فعاليتهما في السياقات الطبيّة. كما يقدّم نموذج UniSeg (ye2023uniseg) إطارًا لتعلّم الأوامر عبر بيانات تشريحيّة متقاربة، إلا أنّه يواجه صعوبة في التعامل مع تحوّلات زاوية المسح كما يتّضح من الأداء في الجدول [table2].
لمعالجة هذه التحديات، نقترح نموذجًا عالميًا موجهًا بالأوامر يتيح تقسيم الهياكل القلبيّة بدقة عالية بغض النظر عن زاوية المسح. يدمج نموذجنا آلية تعلّم الأوامر الإرشاديّة مع المعرفة المسبقة لنموذج لغة مدرّب من خلال مواءمة تمثيلات النص والبكسل. أولًا، نعتمد طريقةً لتعلّم الأوامر من مجموعة أوامر محددة تمكّن النموذج من استيعاب التنوع في بيانات الزوايا القياسيّة والتكيّف معها ديناميكيًا. ثانيًا، تُستخدم خرائط الدرجات لربط المعلومات النصّية بالتمثيلات البكسليّة، مما يتيح الاستفادة الكاملة من دلالات اللغة في مهام التقسيم القلبيّة. وبحسب علمنا، هذا العمل هو الأول من نوعه في تقديم نموذج موحّد يمكنه أداء تقسيم صور الصدى القلبي عبر مختلف الزوايا دون الحاجة إلى خطوة تحديد زاوية مسبقة. وقد أظهرت التجارب على ثلاث زوايا قياسيّة، باستخدام مجموعات بيانات مختلفة، أداءً واعدًا يفوق الحلول العالمية الحالية.
يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عالميًا موجهًا بالأوامر؛ يتضمّن مجموعة أوامر مصمّمة لاستيعاب الزوايا القياسيّة المختلفة، ويستفيد من مواءمة النص–بكسل والمعرفة المسبقة لنموذج لغة مدرّب مسبقًا لإجراء تقسيم دقيق لصور الصدى القلبي دون الاعتماد على زاوية المسح.
• تبسّط الطريقة المقترحة عمليّة التحليل القلبيّة عبر تقليل الحاجة إلى خطوة تحديد الزاوية اليدويّة عند استرجاع لقطات المريض.
• نُثبت من خلال تجارب واسعة على مجموعات بيانات متنوّعة أنّ نموذجنا يحقّق أداءً متقدّمًا لمهام تقسيم صور الصدى القلبي مقارنةً بالنهج العالميّة السابقة.
كما هو موضّح، يتكوّن نهجنا من العناصر الرئيسية التالية: موجه نصّي، مشفّر فيديو، مجموعة تحفيزات قابلة للتدريب تضمّ مفاتيح وقيمًا، طبقة شبكة عصبيّة متعددة الطبقات، ومفكّك فيديو. نعتمد على نموذج ClinicalBERT (alsentzer2019publicly) لتحسين استخراج تمثيلات النصوص الطبيّة. ويهدف نموذجنا إلى تقسيم الهياكل في جميع الإطارات والأحجام المأخوذة من زوايا مسح مختلفة. لتحقيق ذلك، نقدّم مكوّنين أساسيّين: 1) آلية مواءمة كثيفة بين تمثيلات النص والبكسل لسد الفجوة بين نموذج اللغة المسبق التدريب وخصائص البكسل لمهام التنبؤ الكثيف، و2) تقنية تطابق الأوامر التي تستفيد من مجموعة التحفيزات لاختيار التحفيز الأنسب لكل مهمة.
لنفترض أن لدينا N من مجموعات البيانات D = \(\{D_1, D_2, \ldots, D_N\}\)، حيث تصبح كل مجموعة بيانات \(D_i = \{X_{ij}, Y_{ij}\}_{j=1}^{n_i}\)، ويمثّل \(X_{ij}\) الفيديو المكوّن من \(F\) إطارات، بينما تدلّ \(Y_{ij}\) على الحقيقة الأرضيّة المقابلة بعدد \(n_i\) من البكسلات. وينتمي كل فيديو \(X_{ij}\) إلى مجال زاوية معين \(V_k\)، حيث توجد K زوايا في المجموع \(\{V_1, V_2, \ldots, V_K\}\). إذا كانت جميع الإطارات معمّمة في \(Y_{ij}\)، تُعتبر \(D_i\) مجموعة بيانات موسومة بالكامل، أمّا إذا كانت ناقصة، فتُسمّى موسومة جزئيًا. وعليه، نسعى لتدريب نموذج F(·) باستخدام المجموع الكامل من البيانات الموسومة جزئيًا \(D\) بحيث يتمكّن من إجراء تنبؤات كثيفة لجميع K الفئات عبر كل الإطارات.
في مجال الرؤية الحاسوبيّة، ظهرت العديد من الأبحاث حول نماذج تجمع بين الرؤية واللغة. أما في القطاع الطبيّ، فقد تمّ تعديل تضمينات CLIP لتناسب التطبيقات الطبيّة (qin2022medical, liu2023clip). ومع ذلك، فإنّ استخدام CLIP المخصّص للأزواج من الصور والنصوص الطبيعية يضعف الدلالة الطبية لتضمينات الطلبات النصّية، كما هو موضّح في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفَّرة في نماذج اللغة الطبية المسبقة التدريب، اتكأنا على ClinicalBERT (alsentzer2019publicly) في مهام التنبؤ الكثيف. نولّد تضمينات النص عن طريق تحويل \(N\) فئة إلى جمل بصيغة «تخطيط صدى القلب لـ [الفئة]»، مما ينتج مصفوفة تضمينات \(\mathcal{F}(c) \in \mathbb{R}^{N \times D}\). يعمل مشفّر الفيديو الأساسي على ترميز الإطارات إلى تضمين محلي متوسط \(\mathcal{G}(x) \in \mathbb{R}^{T_i H_i W_i \times D}\)، حيث تمثّل \(T_i\), \(H_i\), \(W_i\)، و\(D\) عدد الإطارات والارتفاع والعرض والبُعد. ثم نحسب خريطة الدرجات عبر مواءمة تضمينات النص والبكسل وفق المعادلة \[ \mathcal{S} = \bar{\mathcal{G}(x)}\,\bar{\mathcal{F}(c)}^{T} \]، حيث يرمز التطبيع \(^{-}\) إلى التطبيع على امتداد البُعد القنوي، و\(^{T}\) إلى النقل. تُستخدم هذه الخريطة \( \mathcal{S} \) في خسارة نص–بكسل المساعدة. وأخيرًا، ندمج خريطة النص–بكسل مع التضمينات المحلّية \(f\) لإعادة وزن الأولويّات النصّيّة. ولتقليل التعقيد، استخدمنا فئة الحجرة فقط كموجّه نصّي دون تضمين معلومات إضافيّة عن العرض.
لتوضيح ذلك، لنفترض أن المدخل \(x \in \mathbb{R}^{T \times H \times W \times C}\)، وأن \( \mathfrak{Q} \) هو نموذج محول الرؤية المدرب مسبقًا (ViT) المستخدم في Segment Anything (kirillov2023segment). نجزّئ الإطار الأول من الفيديو إلى شظايا مسطّرة بحجم \(S^2\) لكل قناة، ثم نحولها إلى تضمينات \( \mathfrak{Q}: \mathbb{R}^{L\times (S^2 C)} \to \mathbb{R}^{L \times D} \)، حيث يشير \(L\) إلى عدد الشظايا، و\(D\) إلى بُعد التضمين. يتكوّن مجمع الأوامر من \(M\) أزواج من مفاتيح وأوامر قابلة للتعلّم \( \{(k_i, P_i)\}_{i=1}^M\)، حيث \(k_i \in \mathbb{R}^D\) و\(P_i \in \mathbb{R}^{L \times D}\). في إعدادنا، يساوي \(M\) عدد العروض ضرب حجم الأوامر المخصَّص لكل عرض (ثلاثة أوامر). نسعى إلى سحب التضمينات المستعلم عنها ومفاتيح الأوامر ضمن كل عرض لتعظيم التشابه الجيبي التام \( \mathcal{L}_{pr}\) أثناء التدريب. كما نعتمد طبقة التجميع المتوسط العالمي (GAP) لاستخراج تمثيل عالمي لمقطع الفيديو، ثم نركّب تضمينات النص مع قيم الأوامر والتضمين العالمي لتوليد معاملات رؤوس مفكّك الفيديو \( \theta_N\). تُستخدم هذه المعاملات في مفكِّك الفيديو لإنتاج التنبؤ الثنائي لكل من \(N\) فئة (tian2020conditional)، مما يضمن حياد العرض مع الاحتفاظ بمعلومات الزاوية أثناء الاختبار.
نظرًا لندرة التسميات عبر الإطارات في بياناتنا خلافًا للأعمال السابقة (liu2023clip)، طوّرنا تقنية الانتشار العكسي المقنع للفيديو لمعالجة هذا الخلل. بموجب هذه التقنية، نقوم بإخفاء الإطارات التي تفتقر إلى تسميات فئوية، ونطبق الانتشار العكسي للخسارة فقط على الإطارات الموسّمة. تمكّن هذه الطريقة نموذجنا من استغلال البيانات الموسومة جزئيًا لتحقيق تجزئة دقيقة عبر مقاطع الفيديو.
نهدف إلى تحسين التقسيم عبر تقليل مكونين في دالة الخسارة: خسارة التجزئة وخسارة مطابقة الأوامر، من خلال الدوال التالية:\[\mathcal{L}_{seg} = \lambda_{1}\mathcal{L}_{pixel-text} + \lambda_{2}\mathcal{L}_{BCE}, \quad \mathcal{L}_{pr} = \langle \mathfrak{Q}(X_{i0}), P_{key}\rangle\]\[\mathcal{L}_{total} = (1 - \lambda(t))\,\mathcal{L}_{seg} - \lambda(t)\,\mathcal{L}_{pr}\]حيث \(\mathcal{L}_{seg}\) هي خسارة التجزئة التي تضم خسارة CE مع خرائط النتائج (\(\mathcal{L}_{pixel-text}\)) وخسارة الانتروبيا المتقاطعة الثنائية (\(\mathcal{L}_{BCE}\)). ونضبط \(\lambda_{1}\) و\(\lambda_{2}\) بالتساوي طوال التجريب. أمّا \(\mathcal{L}_{pr}\) فتقيس التشابه الجيبي التمامي بين تضمين المستعلم ومفتاح الأمر المناسب لكل عرض. ويتم جدولة وزن \(\lambda(t)\) عبر دالة غاوسية زمنية \(\lambda(t) = \exp\bigl(-5(1 - t/t_{\max})^2\bigr)\) بحيث يقل الاعتماد على مطابقة الأوامر في المراحل المبكرة أثناء تقارب المفاتيح.
البيانات. قمنا بتقييم الطريقة المقترحة باستخدام ثلاث مجموعات بيانات متاحة للجمهور (leclerc2019deep، reddy2023video، ouyang2020video). تتألف هذه المجموعات من لقطات ثنائية الأبعاد B-mode مصنَّفة لبطينات القلب المختلفة في مرحلتي نهاية الانبساط (ED) ونهاية الانقباض (ES). تشمل الفئات البطين الأيسر الباطني (LV$_{endo}$) والبطين الأيسر الظهاري (LV$_{epi}$) في زاوية ثنائية القمة (A2C)، وأربع حجرات قمية (A4C)، والمحور العرضي القصير (PSAX). اتبعنا تقسيمة البيانات الموضحة في الجدول [tab1].
التنفيذ ومقاييس التقييم. لضمان عدالة المقارنة في جميع التجارب، وقد حدَّدنا إعدادات التدريب والاختبار بشكل موحّد. أُجريت التجارب باستخدام PyTorch بحجم دفعة ثابت مقداره 5 ولمدّة 100 عصر باستخدام وحدة Nvidia A100. اعتمدنا بنية Unet كعمود فقري لدمج مكوناتنا الرئيسية، واستخدمنا محسن MADGRAD (defazio2022adaptivity) بمعدّل تعلّم 1e-4. قمنا بتغيير حجم الصور إلى 224×224 بكسل مع 16 إطارًا وتطبيعها لتحقيق متوسط صفري وتباين وحدة. ولزيادة المتانة، طبقنا تحويلات عشوائية متنوعة تشمل القص التلقائي، والتدوير ضمن [-30°، +30°]، والقص على طول المحورين x و y. اعتمدنا مقياس تشابه دايس (DSC) لتقييم أداء النموذج، مع مقارنة النتائج عبر ثلاث زوايا مسح رئيسية: A4C، A2C، وPSAX، في مرحلتي ED و ES عند توفر التسميات.
دراسة المقارنة. نستعرض أداء طريقتنا في تقسيم صور الصدى القلبي عبر زوايا مسح مختلفة. وإلى حد علمنا، تُعدّ طريقتنا الأولى من نوعها التي تغطي تقسيم صور الصدى القلبي عبر مدخل غير محدّد زاويًا. قمنا بالمقارنة في وضعين: (1) تدريب واختبار النموذج على نفس الزاوية (نهج متخصص)، و(2) تدريب على جميع الزوايا واختبار على جميعها (نهج شامل). للاقتباس، اخترنا نماذج SwinUNETR (hatamizadeh2021swin) وU-transformer (petit2021u) كأساس للمقارنة اعتمادًا على دراسة سابقة (kim2023medivista). بالإضافة إلى ذلك، قارنا طريقتنا مع النماذج العالمية الأخرى مثل DoDNet (reddy2023video)، النموذج العالمي المعتمد على CLIP (liu2023clip)، UniSeg (ye2023uniseg)، وUniverSeg (butoi2023universeg) لمهام تقسيم القلب عبر ثلاث مجموعات بيانات.
كما يوضح الجدول [table2]، تنتج طريقتنا نتائج تفوق النماذج المتخصّصة في معظم الحالات، وفي بعض الظروف تتقارب معها. فعلى سبيل المثال، تتفوّق طريقتنا على U-transformer المتخصصة باستثناء الفئة LV$_{endo}$ (93.2 مقابل 93.3) وLV$_{epi}$ (88.3 مقابل 88.5) في زوايا A2C وA4C على التوالي. وعند دمج الأوامر لتضمين معلومات العرض تكيفيًا، يتفوق نموذجنا على جميع النماذج العالمية في تحديد مناطق الاهتمام (ROI) عبر جميع الزوايا. ويُعزى ذلك لقدرة نموذجنا على التكيّف مع الأوامر المختلفة، مما يؤدي إلى تحسين نتائج التجزئة. كما لاحظنا تحسنًا في المتوسط مقارنةً بطريقة التقسيم القائم على أمثلة قليلة (89.64 مقابل 81.7). تؤكد هذه النتائج التجريبية استفادة منهجنا الفعّالة من الأوامر التكيفية لإنتاج نتائج تقسيم متفوقة.
دراسة الاستئصال. لتقييم إسهام كل مكوّن في نموذجنا، أجرينا دراسة استئصال. أولًا، قارنّا أداء النموذج مع وبدون مسار التشفير النصّي؛ فعند حذف مسار النص الذي يضمّ مواءمة النص–بكسل، انخفض متوسط DSC من 89.6 إلى 85.6، مما يؤكد أهمية هذه المواءمة. كما قارنّا مشفرات نصيّة متعددة، فتبيّن أن CLIP أقل فاعليّة في تمثيل النص الطبي مقارنةً بـClinicalBERT (88.8 مقابل 89.6). ثانيًا، درسنا تأثير اختيار مفتاح الأمر عبر تصويت الأغلبية المحدد بـ \(\arg\max_{G \in \{A,B,C\}} \sum_{i=1}^{3} \mathbb{I}(x_i \in G)\). يوضح تقييم T-SNE (van2008visualizing) في الشكل [figure3] دقة 0.96 في تمييز الزوايا القمية عن الجانبية، بينما كانت الدقة لتفريق A2C وA4C أقل (0.54 و0.6 على التوالي)، نتيجةً للتداخل البشري في تحديد هذه الزوايا. ويُبين الجدول [table4] مدى تأثير تضمين معلومات العرض على الأداء؛ إذ انخفض المعدل من 89.6 إلى 89.4 عند اعتماد معلومات العرض بدلًا عن اختيار الأوامر.
بدون | 89.6 |
---|
[table4]
في هذه الدراسة، قدمنا نموذجًا مبتكرًا لتقسيم صور الصدى القلبي يعمل بالتوجيه النصي، وقادرًا على تعلّم التقسيم عبر زوايا مسح قياسيّة متعدّدة باستخدام بيانات موسومة جزئيًا. يدمج النموذج المعرفة المسبقة من نماذج اللغة عبر مواءمة التمثيلات النصيّة مع بيانات البكسل. كما اقترحنا تقنية «مطابقة الأوامر» باستخدام مجموعة أوامر خاصة لتحقيق تقسيم مستقل عن الزاوية. اختبرنا منهجنا على ثلاث زوايا قياسيّة، وأثبتنا إمكانية تعميمه لتغطية زوايا إضافيّة مستقبليًا، مما يمثّل خطوة نحو نموذج عالمي لتقسيم صور الصدى القلبي. تسهم هذه الطريقة في تبسيط عملية التحليل بإلغاء الحاجة إلى خطوة تحديد الزاوية اليدويّة، ما يقلّل التباين البشري ويعزز موثوقيّة النتائج. وأظهرت التجارب الواسعة على معايير التقسيم في مختلف زوايا المسح أن منهجنا لا يقتصر على تحسين الأداء فحسب، بل يثبت أيضًا فعاليته العالية.