نموذج عالمي مُوَجَّه بالمُوجِّهات لتقسيم صور تخطيط صدى القلب مستقلّ عن المنظر

Sekeun Kim Hui Ren Peng Guo Abder-Rahman Ali Patrick Zhang Kyungsang Kim Quanzheng Li Xiang Li
ملاحظة: تُعرَض المعادلات باستخدام MathJax؛ لقد أُبقيَت صِيَغ LaTeX كما هي مع تصحيح الأخطاء الواضحة فقط عند اللزوم.

مُلَخَّص

تُعَدّ عمليّة تقسيم صور تخطيط صدى القلب (الإيكو) مُستهلِكة للوقت وتتطلّب موارد حوسبيّة كبيرة؛ ويَعود ذلك إلى التبايُن في جودة الصور والحاجة إلى معالجة الفحوص ضمن مَناظِر تصوير قياسيّة متعددة. وعلى الرغم من أنّ الطُرُق الآليّة الحاليّة تُظهِر أداءً واعدًا، فإنّها عادةً ما تُدرَّب على مناظر محدّدة، ما يستلزم نموذجًا منفصلًا لكلّ منظر. ومع ازدياد عدد المَناظِر القياسيّة، يتضاعف عدد النماذج المطلوبة، وهو أمر غير عملي. لمعالجة ذلك، نقدّم طريقةً عالميّة مُوَجَّهة بالمُوجِّهات لتقسيم صور الإيكو بغضّ النظر عن منظر التصوير. ومع أخذ اختلاف التوزيعات بين المَناظِر القياسيّة بالحُسبان، نُقدِّم أوّلًا آليّة تُسمّى مطابقة المُوجِّهات، تتعلّم مُوجِّهاتٍ خاصّة بكلّ منظر عبر مطابقة المُوجِّهات مع استعلامات تضمينات الإدخال باستخدام نموذج رؤية مُدرَّب مُسبقًا. ثم نستخدم نموذج لغة طبّي مُدرَّبًا مُسبقًا لمواءمة المعلومات النصيّة مع بيانات البكسل بهدف تحقيق تقسيمٍ أدقّ. وقد أظهرت تجاربٌ واسعة على ثلاثة مَناظِر قياسيّة تفوّق نهجنا بوضوح على الطُرُق العالميّة الحديثة، وحقّق أداءً مماثلًا أو أفضل من النماذج المتخصّصة المُدرَّبة على المناظر نفسها.

مُقَدِّمَة

يُعَدّ التصوير بالموجات فوق الصوتيّة أكثر أساليب تصوير القلب شيوعًا، إذ يسمح بتقييم وظيفته عبر فحص مجموعة من المَناظِر القياسيّة. ونظرًا لتعقيد تحليل هذه الصور وارتفاع عبء العمل على الفنيّين، تصاعد الاهتمام بتطوير أساليب آليّة للتقسيم في التصوير بالموجات فوق الصوتيّة (kim2022fully,kim2021automatic,leclerc2020lu). وقد أظهرت الطرق الحاليّة قدرةً جيّدة على تحديد البُنى التشريحيّة بدقّة ضمن المَناظِر التي تمّ التدريب عليها. ومع ذلك، يتطلّب معظم هذه الأساليب خطوةً أولى لتحديد منظر التصوير المناسب لكلّ مريض قبل بدء التحليل، مما يُضيف عبئًا إضافيًا في اختيار اللقطات الملائمة (charton2023multi,jeon2023improving). وحتى الآن، لم يُستكشَف بالكامل تطوير نموذجٍ عامّ يَقدر على تنفيذ مهام التقسيم عبر جميع المَناظِر القياسيّة بشكلٍ مستقل.

في المقابل، يعتمد النهج التقليدي على تدريب N نماذج منفصلة لكلٍّ من N المَناظِر القياسيّة. ومع تزايد عدد المَناظِر، يتضاعف عدد النماذج، ما يجعل هذا الأسلوب غير مرِن وصعب التطبيق. قد يبدو تبسيط الفكرة بتدريب شبكة واحدة على بيانات جميع المَناظِر حلًا، غير أنّ ذلك غالبًا ما يؤدّي إلى تدهور الأداء نظرًا لاختلاف الخصائص البصريّة المميِّزة لكلّ منظر (kim2021automatic,mitchell2019guidelines). ويواجه التصوير بالموجات فوق الصوتيّة تحدّيات إضافيّة مثل تغيّر مجال الرؤية بين المَناظِر وتفرُّق الملصقات عبر الإطارات. وعلى الرغم من جهود تطوير نماذج عالميّة مماثلة في مجالات أخرى (zhang2021dodnet,butoi2023universeg,liu2023clip,ye2023uniseg)، فإنّ بعضها يَعترضه قصور عند نقله إلى الأُطر الطبّية. فعلى سبيل المثال، يعتمد نموذج الشبكة الديناميكيّة (zhang2021dodnet) على بنية مُشفِّر–مُفكِّك مع ضوابط ديناميكيّة، بينما يُوسِّع نموذج CLIP المُغذّى بالنصّ (liu2023clip) الفكرة باستخدام نموذجٍ نصّي مُدرَّب مُسبقًا لإدارة رؤوس التقسيم دلاليًّا. ورغم نجاحهما في تقسيم أعضاء الجسم في التصوير المقطعي المحوسب، إلا أنّ الفجوة بين اللغة الطبيعيّة واللغة الطبّية تحدّ من فعاليتهما طبّيًا. كما يُقدِّم نموذج UniSeg (ye2023uniseg) إطارًا لتعلّم المُوجِّهات عبر بيانات تشريحيّة متقاربة، لكنه يواجه صعوبة مع تحوّلات المنظر كما يتّضح من الأداء في الجدول [table2].

لمعالجة هذه التحدّيات، نقترح نموذجًا عالميًّا مُوَجَّهًا بالمُوجِّهات يُتيح تقسيم البُنى القلبيّة بدقّة عالية بغضّ النظر عن منظر التصوير. يَدمج نموذجُنا آليّة تعلّم مُوجِّهات استرشاديّة مع المعرفة المُسبَقة لنموذج لغة مُدرَّب مُسبقًا عبر مواءمة تمثيلات النصّ والبكسل. أولًا، نعتمد طريقةً لتعلّم المُوجِّهات من بنك مُوجِّهات مُحدَّد تمكّن النموذج من استيعاب التنوّع في بيانات المَناظِر القياسيّة والتكيُّف معها ديناميكيًّا. ثانيًا، نستخدم خرائط الدرجات لربط المعلومات النصّيّة بالتمثيلات البكسليّة، مما يُتيح الإفادة الكاملة من دلالات اللغة في مهام التقسيم القلبي. وبحسب علمنا، يُعَدّ هذا العمل الأوّل من نوعه في تقديم نموذج موحَّد يمكنه أداء تقسيم صور الإيكو عبر مختلف المَناظِر دون الحاجة إلى خطوة تحديد منظرٍ مُسبقة. وقد أظهرت التجارب على ثلاثة مَناظِر قياسيّة، عبر مجموعات بيانات مختلفة، أداءً واعدًا يفوق الطُرُق العالميّة الحالية.

يمكن تلخيص مساهماتنا على النحو التالي:
• نُقدِّم نموذجًا عالميًّا مُوَجَّهًا بالمُوجِّهات؛ يَضمّ بنك مُوجِّهات مُصمَّمًا لاستيعاب المَناظِر القياسيّة المختلفة، ويستفيد من مواءمة نص–بكسل ومن المعرفة المُسبَقة لنموذج لغة مُدرَّب مُسبقًا لإجراء تقسيم دقيق لصور الإيكو مستقلّ عن المنظر.
• تُبسِّط الطريقة المُقترحة عمليّة التحليل القلبي بتقليل الحاجة إلى خطوة تحديد المنظر يدويًّا عند استرجاع لقطات المريض.
• نُثبِت عبر تجارب واسعة على مجموعات بيانات متنوِّعة أنّ نموذجنا يحقّق أداءً مُتقدِّمًا في مهام تقسيم صور الإيكو مقارنةً بالنهج العالميّة السابقة.

الطَّرِيقَة

كما هو موضَّح، يتكوّن نهجنا من العناصر الرئيسيّة التالية: مُوجِّه نصّي، مُشفِّر فيديو، بنك مُوجِّهات قابل للتدريب يضمّ مفاتيح وقِيَمًا، طبقة شبكة عصبيّة متعدِّدة الطبقات، ومُفكِّك فيديو. نعتمد على نموذج ClinicalBERT (alsentzer2019publicly) لتحسين استخراج تمثيلات النصوص الطبّية. ويهدف نموذجنا إلى تقسيم البُنى عبر جميع الإطارات والأحجام المأخوذة من مَناظِر تصوير مختلفة. لتحقيق ذلك، نُقدِّم مكوّنين أساسيّين: 1) آليّة مواءمة كثيفة بين تمثيلات النصّ والبكسل لسدّ الفجوة بين نموذج اللغة المُدرَّب مُسبقًا وخصائص البكسل لمهام التنبّؤ الكثيف، و2) تقنية مطابقة المُوجِّه التي تستفيد من بنك المُوجِّهات لاختيار المُوجِّه الأنسب لكلّ مهمّة.

تَعْرِيف المُشْكِلَة

لنفترض أنّ لدينا N من مجموعات البيانات D = \(\{D_1, D_2, \ldots, D_N\}\)، حيث تُكتَب كلّ مجموعة بيانات \(D_i = \{X_{ij}, Y_{ij}\}_{j=1}^{n_i}\)؛ ويمثّل \(X_{ij}\) فيديوً مكوَّنًا من \(F\) إطارات، بينما يدلّ \(Y_{ij}\) على قناع الحقيقة الأرضيّة المقابل لـ \(X_{ij}\)، مع عدد عينات قدره \(n_i\). وينتمي كلّ فيديو \(X_{ij}\) إلى مجالِ منظرٍ معيّن \(V_k\)، حيث توجد K مَناظِر في المجموع \(\{V_1, V_2, \ldots, V_K\}\). وإذا كانت جميع الإطارات مُوسَّمة في \(Y_{ij}\)، تُعدّ \(D_i\) مجموعة بيانات مُوسومة بالكامل، وإلاّ فتُسمّى مُوسومة جزئيًّا. وعليه، نسعى لتدريب نموذج F(·) باستخدام مجموعات البيانات المُوسومة جزئيًّا \(D\) بحيث يتمكّن من إجراء تنبؤات كثيفة لجميع K الفئات عبر كلّ الإطارات.

مُحاذاة كَثِيفَة بَيْن النَّصّ والبكسل

في مجال الرؤية الحاسوبيّة، ظهرت نماذج متعدّدة تجمع بين الرؤية واللغة. أمّا في المجال الطبّي، فقد جرى تكييف تضمينات CLIP لتطبيقاتٍ طبّية (qin2022medical, liu2023clip). ومع ذلك، فإنّ تدريب CLIP على أزواج من الصور والنصوص الطبيعيّة يُضعِف دلالة المُوجِّهات النصّيّة طبّيًّا، كما يظهر في الجدول [table3]. للاستفادة الكاملة من المعرفة المُشفَّرة في نماذج اللغة الطبّية المُدرَّبة مُسبقًا، اعتمدنا ClinicalBERT (alsentzer2019publicly) في مهام التنبّؤ الكثيف. نولِّد تضمينات النصّ بتحويل عدد الفئات \(N\) إلى جُمل مُوجِّهة بصيغة “تخطيط صدى القلب لـ [الفئة]”، مما يُنتِج مصفوفة تضمينات \(\mathcal{F}(c) \in \mathbb{R}^{N \times D}\). ويُحوِّل مُشفِّر الفيديو الإطارات إلى مصفوفة تضمينات محلّيّة \(\mathcal{G}(x) \in \mathbb{R}^{T_i H_i W_i \times D}\)، حيث تمثّل \(T_i\)، \(H_i\)، \(W_i\)، و\(D\) عدد الإطارات، والارتفاع، والعرض، وبُعد التضمين. بعدها نحسب خريطة الدرجات عبر مواءمة تضمينات النصّ والبكسل وفق المعادلة \[ \mathcal{S} = \bar{\mathcal{G}(x)}\,\bar{\mathcal{F}(c)}^{T} \] حيث يدلّ التطبيع \(\bar{\cdot}\) على التطبيع على طول بُعد القناة، و \(^{T}\) على النقل. تُستخدم هذه الخريطة \( \mathcal{S} \) في خسارة نص–بكسل المُساعِدة. وأخيرًا، ندمج خريطة نص–بكسل مع التضمينات المحلّيّة \(f\) لإعادة وزن الأولويّات النصّيّة. ولتقليل التعقيد، استخدمنا فئة الحجرة فقط كمُوجِّه نصّي دون تضمين معلومات إضافيّة عن المنظر.

تَطابُق المُوجِّهات وتوليد المُعامِلات المشروطة بالنَّصّ

لتوضيح الإجراء، لنفترض أنّ المدخل \(x \in \mathbb{R}^{T \times H \times W \times C}\)، وأنّ \( \mathfrak{Q} \) هو مُحوِّل رؤية مُدرَّب مُسبقًا (ViT) كما في Segment Anything (kirillov2023segment). نُجزِّئ الإطار الأوّل من الفيديو إلى رُقَع بحجم \(S^2\) لكلّ قناة، ثم نُحوِّلها إلى تضمينات \( \mathfrak{Q}: \mathbb{R}^{L\times (S^2 C)} \to \mathbb{R}^{L \times D} \)، حيث تشير \(L\) إلى عدد الرُّقَع، و\(D\) إلى بُعد التضمين. يتكوّن بنك المُوجِّهات من \(M\) أزواج من مفاتيح ومُوجِّهات قابلة للتعلّم \( \{(k_i, P_i)\}_{i=1}^M\)، حيث \(k_i \in \mathbb{R}^D\) و\(P_i \in \mathbb{R}^{L \times D}\). في إعدادنا، يُساوي \(M\) عدد المَناظِر مضروبًا في عدد خانات المُوجِّه المخصّصة لكلّ منظر (ثلاثة مُوجِّهات). نسعى إلى تقريب تضمينات الاستعلام ومفاتيح المُوجِّهات ضمن كلّ منظر عبر تعظيم التشابُه الجيبي (\( \mathcal{L}_{pr}\)) أثناء التدريب. كما نعتمد طبقة التجميع المتوسط العالمي (GAP) لاستخراج تمثيلٍ عالمي لمقطع الفيديو، ثم نُركِّب تضمينات النصّ مع قِيَم المُوجِّهات والتضمين العالمي لتوليد معاملات رؤوس فكّ التشفير \( \theta_N\). تُستخدم هذه المعاملات في مُفكِّك الفيديو لإنتاج تنبؤٍ ثنائي لكلٍّ من \(N\) فئات (tian2020conditional)، مما يضمن حياد المنظر مع الاحتفاظ بمعلوماته أثناء الاختبار.

دَالَّة الخَسَارَة

الاِنْتِشَار العَكْسِي المُقَنَّع لِلْفِيدْيُو

نظرًا لندرة التسميات عبر الإطارات في بياناتنا خلافًا لأعمالٍ سابقة (liu2023clip)، طوّرنا تقنية الانتشار العكسي المُقنَّع للفيديو لمعالجة هذا الخلل. نُخفي الإطارات التي تفتقر إلى تسميات فئويّة، ونُطبِّق الانتشار العكسي للخسارة فقط على الإطارات المُوسَّمة. تُمكِّن هذه الطريقة نموذجَنا من استغلال البيانات المُوسومة جزئيًّا لتحقيق تقسيمٍ دقيق عبر مقاطع الفيديو.

الخَسَارَة الكُلِّيَّة

نهدف إلى تحسين التقسيم عبر تقليل مكوّنين في دالّة الخسارة: خسارة التقسيم وخسارة مطابقة المُوجِّه، وفق: \[ \mathcal{L}_{seg} = \lambda_{1}\mathcal{L}_{pixel-text} + \lambda_{2}\mathcal{L}_{BCE}, \quad \mathcal{L}_{pr} = \langle \mathfrak{Q}(X_{i0}), P_{key}\rangle \] \[ \mathcal{L}_{total} = (1 - \lambda(t))\,\mathcal{L}_{seg} - \lambda(t)\,\mathcal{L}_{pr} \] حيث \(\mathcal{L}_{seg}\) هي خسارة التقسيم التي تضمّ خسارة الانتروبيا المتقاطعة على خريطة الدرجات (\(\mathcal{L}_{pixel-text}\)) وخسارة الانتروبيا المتقاطعة الثنائيّة (\(\mathcal{L}_{BCE}\)). ونُثبِّت \(\lambda_{1}\) و\(\lambda_{2}\) على قيَمٍ متساوية طوال التدريب. أمّا \(\mathcal{L}_{pr}\) فتقيس التشابُه الجيبي بين تضمين الاستعلام ومفتاح المُوجِّه المناسب لكلّ منظر. ويتمّ جدولة وزن \(\lambda(t)\) عبر دالّةٍ غاوسيّة زمنيّة \(\lambda(t) = \exp\bigl(-5(1 - t/t_{max})^2\bigr)\) بحيث يقلّ الاعتماد على مطابقة المُوجِّهات في المراحل المبكِّرة ريثما تتقارب المفاتيح.

التَّجارِب وَالنَّتَائِج

البيانات. قيَّمنا الطريقة المُقترحة باستخدام ثلاث مجموعات بيانات متاحة للعموم (leclerc2019deep, reddy2023video, ouyang2020video). تتألّف هذه المجموعات من لقطات ثنائيّة الأبعاد B-mode مُعنونة لبُنى القلب المختلفة في مرحلتَي نهاية الانبساط (ED) ونهاية الانقباض (ES). تشمل الفئات بطانة البطين الأيسر الشِّغافيّة (LV$_{endo}$) وغشاء البطين الأيسر النِّخابي (LV$_{epi}$) في المَناظِر: القِمّي ثنائيّ الحجرات (A2C)، والقِمّي رباعيّ الحجرات (A4C)، والمحور القصِّي القصير (PSAX). اتّبعنا تقسيمة البيانات الموضّحة في الجدول [tab1].
التنفيذ ومقاييس التقييم. لضمان عدالة المقارنة في جميع التجارب، وحَّدنا إعدادات التدريب والاختبار. أُجرِيت التجارب باستخدام PyTorch، بحجم دفعة ثابت مقداره 5 وعلى مدى 100 عصر باستخدام وحدة Nvidia A100. اعتمدنا بنية U-Net كعمود فقري لدمج مكوّناتنا، واستخدمنا المُحسِّن MADGRAD (defazio2022adaptivity) بمعدّل تعلّم 1e-4. حُوِّلت الصور إلى حجم 224×224 بكسل مع 16 إطارًا، ونُظِّمت لتحقيق متوسّط صفري وتباين واحد. ولزيادة المتانة، طُبِّقت تحويلات عشوائيّة تشمل القصّ التلقائي، والتدوير ضمن [-30°, +30°]، والقصّ على طول المحورين x و y. اعتمدنا مقياس تشابُه دايس (DSC) لتقييم الأداء، مع مقارنة النتائج عبر ثلاثة مَناظِر رئيسيّة: A4C وA2C وPSAX، في مرحلتَي ED وES عند توافر التسميات.
دراسة المقارنة. نعرض أداء طريقتنا لتقسيم القلب عبر مَناظِر تصوير مختلفة. وإلى حدّ علمنا، تُعدّ طريقتنا الأولى التي تُغطي تقسيم صور الإيكو عبر مدخلٍ غير محدَّد المنظر. أجرينا المقارنة في وضعين: (1) تدريب واختبار النموذج على المنظر نفسه (نهج مُتخصّص)، و(2) تدريب على جميع المَناظِر واختبار على جميعها (نهج شامل). للاقتباس، اخترنا نماذج SwinUNETR (hatamizadeh2021swin) و U-Transformer (petit2021u) كأساسٍ للمقارنة اعتمادًا على دراسة سابقة (kim2023medivista). بالإضافة إلى ذلك، قارَنّا طريقتنا مع نماذج عالميّة أخرى مثل DoDNet (reddy2023video)، والنموذج العالمي المُوجَّه بـ CLIP (liu2023clip)، وUniSeg (ye2023uniseg)، وUniverSeg (butoi2023universeg) لمهام تقسيم القلب عبر ثلاث مجموعات بيانات.

كما يوضّح الجدول [table2]، تُنتج طريقتنا نتائج تفوق النماذج المُتخصّصة في معظم الحالات، وفي أحايين أخرى تتقارب معها. فعلى سبيل المثال، تتفوّق على U-Transformer المُتخصّص مع استثناءات طفيفة لفئة LV$_{endo}$ (93.2 مقابل 93.3) وLV$_{epi}$ (88.3 مقابل 88.5) في مَنظَرَي A2C وA4C على التوالي. وعند دمج المُوجِّهات لتضمين معلومات المنظر تكيُّفيًّا، يتفوّق نموذجنا على جميع النماذج العالميّة في تحديد مناطق الاهتمام (ROI) عبر المَناظِر كافة. ويُعزى ذلك إلى قدرة نموذجنا على التكيّف مع مُوجِّهات المنظر المختلفة، ما يُحسِّن نتائج التقسيم. كما لاحظنا تحسّنًا في المتوسّط مقارنةً بطريقة التقسيم القائم على أمثلة قليلة (89.64 مقابل 81.7). وتُؤكِّد هذه النتائج استفادة نهجنا الفعّالة من المُوجِّهات التكيُّفيّة لإنتاج تقسيمٍ مُتفوق.

دراسة الاستئصال. لتقييم إسهام كلّ مكوّن في نموذجنا، أجرينا دراسة استئصال. أوّلًا، قارَنّا أداء النموذج مع وبدون مسار ترميز النصّ؛ وعند حذف مسار النصّ الذي يضمّ مواءمة نص–بكسل، انخفض متوسّط DSC من 89.6 إلى 85.6، ما يُؤكِّد أهميّة هذه المواءمة. كما قارَنّا مُشفِّرات نصّ متعددة، فتبيّن أنّ CLIP أقلّ فاعليّة في تمثيل النصّ الطبّي مقارنةً بـ ClinicalBERT (88.8 مقابل 89.6). ثانيًا، درسنا تأثير اختيار مفتاح المُوجِّه عبر تصويت الأغلبيّة المحدّد بـ \[ \arg\max_{G \in \{A,B,C\}} \sum_{i=1}^{3} \mathbb{I}(x_i \in G) \] يُظهر تقييم T-SNE (van2008visualizing) في الشكل [figure3] دقّة 0.96 في تمييز المَناظِر القِمّية عن الجانبية، بينما كانت الدقّة لتفريق A2C وA4C أقلّ (0.54 و0.60 على التوالي) نتيجة تداخل بشري في تحديد هذين المَنظرين. ويبيّن الجدول [table4] أثر توفير معلومات المنظر على الأداء؛ إذ انخفض المعدّل من 89.6 إلى 89.4 عند اعتماد معلومات المنظر بدلًا من اختيار المُوجِّهات ذاتيًّا.

متوسّط DSC (دون معلومات المنظر) 89.6
الجدول [table4]: تأثير تمرير معلومات المنظر صراحةً.

[table4]

الخُلاصَة

قدّمنا نموذجًا مُبتكرًا لتقسيم صور تخطيط صدى القلب مُوجَّهًا بالنصّ، قادرًا على تعلّم التقسيم عبر مَناظِر تصوير قياسيّة متعدّدة باستخدام بيانات مُوسومة جزئيًّا. يَدمج النموذجُ المعرفة المُسبَقة من نماذج اللغة عبر مواءمة تمثيلاتٍ نصّيّة مع بياناتٍ بصريّة على مستوى البكسل. كما اقترحنا تقنية مطابقة المُوجِّهات باستخدام بنك مُوجِّهات خاصّ لتحقيق تقسيمٍ مستقلّ عن المنظر. اختبرنا نهجنا على ثلاثة مَناظِر قياسيّة، وأثبتنا إمكانيّة تعميمه لتغطية مَناظِر إضافيّة مستقبلًا، ما يُمثّل خطوةً نحو نموذجٍ عالمي لتقسيم الإيكو. تُسهم هذه الطريقة في تبسيط عمليّة التحليل بإلغاء الحاجة إلى خطوة تحديد المنظر يدويًّا، ما يُقلِّل التباين البشري ويُعزِّز موثوقيّة النتائج. وأظهرت التجارب على معايير التقسيم في مَناظِر متعددة أنّ نهجنا لا يُحسِّن الأداء فحسب، بل يُثبت أيضًا فاعليّته العالية.