تُعدّ تجزئة صور تصوير صدى القلب لأغراض تحليل القلب عمليةً مُرهِقة مستهلِكة للوقت والموارد، وذلك بسبب التباين في جودة الصور والحاجة إلى معالجة الفحوصات المأخوذة من مقاطع قياسية متنوّعة. وعلى الرغم من الأداء الواعد للطرائق الآلية الحالية في تجزئة هذه الصور، فإنها تُدرَّب عادةً لكل مقطع قياسي على حدة. وللتغلب على هذه القيود، نقدّم في هذه الورقة نهجًا عالميًا مُوجَّهًا بالمُوجِّهات لتحليل تصوير صدى القلب بغضّ النظر عن المقطع. ومع مراعاة اختلافات المجال بين المقاطع القياسية، نقترح أولًا آلية مطابقة المُوجِّهات لتعلّم مُوجِّهات مُخصَّصة لكل مقطع عبر مواءمتها مع تضمينات المدخلات باستخدام نموذج رؤية مُدرَّب مُسبقًا. بعد ذلك، نستخدم نموذجًا لغويًا طبيًا مُدرَّبًا مُسبقًا لمحاذاة التمثيلات النصيّة مع بيانات البكسل، بما يضمن دقّةً عالية في التجزئة. أظهرت التجارب الواسعة على ثلاثة مقاطع قياسية تفوّق نهجنا على الطرائق العالمية الأخرى، مع أداءٍ مُعادِلٍ أو أفضل من النماذج المُخصّصة لكل مقطع.
يُعدّ التصوير بالموجات فوق الصوتية للقلب الأسلوب الأكثر شيوعًا في طب القلب، إذ يُسهم في تقييم وظائف القلب عبر فحصه من خلال مقاطع قياسية عدّة. ونظرًا لتعقيد تحليل الصور وعبء العمل على الفنيين، ازداد الاهتمام بتطوير طرائق آلية للتجزئة (kim2022fully, kim2021automatic, leclerc2020lu). وقد أظهرت هذه الطرائق أداءً متفوّقًا في تحديد البُنى التشريحية بدقّة عندما تُدرَّب على مجموعات بيانات مُخصَّصة لكل مقطع. وتشمل هذه العملية خطوةً يدويةً لتحديد المقاطع المطلوبة في دراسة المريض قبل التحليل، بما يستلزم انتقاء الملفات المناسبة من ملفات الفحص (charton2023multi, jeon2023improving). وحتى الآن لم تُستكشف بصورة كافية إمكانية تصميم نموذج عام قادر على أداء مهام التجزئة على مختلف المقاطع القياسية بشكل مستقل.
الحل العملي المُتَّبع هو تدريب N نموذجًا، نموذج لكل مقطع قياسي، ومع زيادة عدد المقاطع يزداد عدد النماذج المطلوبة. ومن أبسط السبل لبناء نموذج عالمي أن ندرّب الشبكة نفسها على بيانات مأخوذة من مقاطع متعدّدة، إلا أن ذلك قد يُنقِص الأداء بسبب الخصائص البصرية المميِّزة لكل مقطع (kim2021automatic, mitchell2019guidelines). ولمعالجة هذه التحديات، ظهر عدد من النماذج العالمية (zhang2021dodnet, butoi2023universeg, liu2023clip, ye2023uniseg). يقترح نموذج DoDNet بنية مُشفِّر/مُفكِّك ترميز مع رأس ديناميكي تتحكّم فيه متجهات ثابتة ثنائية الحالة. ويطوّر النموذج العالمي المعتمد على CLIP هذه الفكرة عبر استخدام نموذج لغوي مُدرَّب مُسبقًا وتكييف رؤوس التجزئة استنادًا إلى التضمينات الدلالية للفئة. ومع أن هذه الاستراتيجية أثبتت نجاحًا في تجزئة الأعضاء في التصوير المقطعي المحوسب، فإنها تواجه تحدّيات في المجال الطبي بسبب الفجوة بين النصوص العامّة واللغة السريرية. ويرتكز UniSeg على مُوجِّهات قابلة للتعلُّم لمعالجة مهام التجزئة في التصوير المقطعي، والرنين المغناطيسي، والتصوير بالإصدار البوزيتروني، لكنه يُختبر على ثلاث مجموعات تشريحية متقاربة حيث تختلف الصور في القوام فقط بينما يظل التشريح ثابتًا؛ وبالتالي قد لا يكون مناسبًا لاختلافات المقاطع الشديدة في تصوير صدى القلب، وهو ما ينعكس على الأداء كما في الجدول [table2].
للتغلّب على هذه التحدّيات، نقترح نموذجًا عالميًا مُوجَّهًا بالمُوجِّهات قادرًا على تحقيق أفضل أداء في تجزئة البُنى القلبية. ندمج في نموذجنا آلية تعلُّم مُوجِّهات قائمة على مجموعة مُوجِّهات لتحسين التكيّف مع المقاطع المختلفة، ومحاذاةً كثيفةً بين النص والبكسل للاستفادة من المعرفة اللغوية الطبية في مهام التجزئة. وبحسب علمنا، تُعدّ هذه الدراسة الأولى التي تعالج تجزئةً بنموذجٍ موحَّد في تصوير صدى القلب. تُبسِّط طريقتنا عملية التحليل القلبي بإلغاء الحاجة إلى خطوة يدوية لتحديد المقطع المطلوب من فحص المريض. وقد تمّ تقييم نهجنا على ثلاثة مقاطع قياسية من ثلاث مجموعات بيانات مختلفة وأظهر نتائج واعدة مقارنةً بالطرائق العالمية الأخرى.
يتكوّن نهجنا المقترح، كما هو موضَّح، من المسار النصي، ومُشفِّر الفيديو، ومجموعة مُوجِّهات قابلة للتعلُّم (مفاتيح وقِيَم)، وطبقة MLP، ووحدة مُفكِّك ترميز الفيديو. نستخدم (alsentzer2019publicly) لتعزيز استخراج التمثيلات اللغوية السريرية من النصوص. يهدف نموذجنا إلى تجزئة البُنى عبر جميع إطارات الفيديو في المقاطع القياسية المتنوّعة. ولتحقيق ذلك، نُقدّم مُكوّنين رئيسيين: 1) محاذاة كثيفة بين النص والبكسل لردم الفجوة بين نموذج اللغة المُدرَّب مُسبقًا وتمثيلات البكسل في مهام التنبؤ الكثيف، و2) تقنية مطابقة المُوجِّهات التي تستفيد من مجموعة المُوجِّهات لاختيار المُوجِّه الأمثل لكل مهمّة.
بالنظر إلى مجموعة البيانات D = {D₁, …, D_N}، حيث يحتوي كل D_i على أزواج (X_{ij}, Y_{ij}) من فيديوهات بعدد إطارات F وعلاماتٍ أرضية، ويَنتمي X_{ij} إلى المقطع V_k مع وجود K مقاطع مسح قياسية. بعض مجموعات D_i موسوم بالكامل وبعضها موسوم جزئيًا. الهدف هو تدريب نموذج F(·) باستخدام هذه المجموعات ذات التوسيم الجزئي، بحيث يتمكّن من إجراء تنبؤات كثيفة لجميع الفئات عبر الإطارات F وعبر المقاطع K.
عند تكييف تمثيلات (CLIP) المُدرَّبة على الصور والنصوص العامّة للتطبيقات الطبية (qin2022medical, liu2023clip)، تضعُف قدرتها على التقاط الدلالات السريرية كما يظهر في الجدول [table3]. وللاستفادة بالكامل من المعرفة المُشفَّرة في نموذج لغوي طبي مُدرَّب مُسبقًا، اعتمدنا على (ClinicalBERT) (alsentzer2019publicly) في مهام التنبؤ الكثيف. نُحوِّل الفئات النصية إلى صيغ من نمط "مخطّط صدى القلب لـ [الفئة]" ثم نستخلص منها التضمينات 𝐹(c) \in \mathbb{R}^{N\times D}. نُرَمِّز فيديو الفحص بمُشفِّر الفيديو لاستخراج تضمينات محلية 𝐺(x) \in \mathbb{R}^{T_i H_i W_i \times D}. بعد ذلك نحسب خريطة الدرجات \mathcal{S} = \hat{G}(x) \cdot (F(c))^\top مع التطبيع على طول البُعد القَنَوي. ونشتقّ من خريطة الدرجات هذه خسارةً مُساعِدةً (نص–بكسل) لدمج أولويّات النص في التضمينات المحليّة قبل فكّ الترميز.
بالنظر إلى مدخل فيديو x \in \mathbb{R}^{T\times H\times W\times C} ومُشفِّر الرؤية \mathcal{Q} (ViT) من kirillov2023segment، نُجزِّئ الإطار الأوّل إلى رقعات بحجم S² ثم نُنتج تضمينات الرقعات \mathcal{Q}(x) \in \mathbb{R}^{L\times D}. تتألّف مجموعة المُوجِّهات من M أزواج قابلة للتعلُّم من مفاتيح k_i \in \mathbb{R}^D وقِيَم P_i \in \mathbb{R}^{L\times D}. نسعى لتقريب تضمينات الاستعلام ومفتاح المُوجِّه المطابق باستخدام خسارة مُقارنة قائمة على التشابه الجيبي \mathcal{L}_{pr}. بعد ذلك، نستخدم تجميعًا متوسطًا عالميًا للحصول على تضمين عالمي للفيديو، ثم نستخدم تضمينات النص وقِيَم المُوجِّه لإنتاج معاملات رؤوس التجزئة \theta_N في وحدة مُفكِّك ترميز الفيديو لتوليد تنبؤات ثنائية لكل فئة (tian2020conditional).
نظرًا للتوسيم الجزئي عبر الإطارات في مجموعاتنا (liu2023clip)، صمّمنا آلية انتشارٍ عكسي مُقنَّع تحجب الإطارات غير المُوسومة عن مسار الانتشار العكسي للخسارة، ما يسمح باستغلال التسميات النادرة لتحقيق تجزئة دقيقة على مستوى الفيديو.
نُعرِّف دالة الخسارة الإجمالية كالتالي:
\[
\mathcal{L}_{seg} = \lambda_1 \mathcal{L}_{pixel-text} + \lambda_2 \mathcal{L}_{BCE}, \quad \mathcal{L}_{pr} = \langle \mathcal{Q}(X_{i0}), P_{key} \rangle
\]
\[
\mathcal{L}_{total} = (1 - \lambda(t)) \mathcal{L}_{seg} - \lambda(t) \mathcal{L}_{pr}
\]
حيث تجمع \(\mathcal{L}_{seg}\) بين خسارة النص–البكسل وخسارة الانتروبي المُتقاطع الثنائي (BCE)، ويتم ضبط \(\lambda_1\) و\(\lambda_2\) بالتساوي. وتمثّل \(\mathcal{L}_{pr}\) تشابهًا جيبيًّا بين تضمين الاستعلام ومفتاح المُوجِّه، وتُطبَّق \(\lambda(t)\) بجدولةٍ غاوسيّة تعتمد على رقم التكرار لحساب الوزن النسبي لكل مُصطلح.
المواد. قيَّمنا الطرائق على ثلاث مجموعات بيانات عامة (leclerc2019deep, reddy2023video, ouyang2020video) تتضمّن بيانات مسح ثنائي الأبعاد لنهايتي الانبساط (ED) والانقباض (ES)، مع توفير تجزئة الحدّ الشِّغافي للبطين الأيسر (LVendo) والحدّ النِّخابي للبطين الأيسر (LVepi) في مقاطع القِمّة ثنائيّ الحجرات (A2C)، والقِمّة رباعيّ الحجرات (A4C)، والمَحور القصير بجوار القص (PSAX). اتّبعنا تقسيمًا مُعدًّا سلفًا كما في الجدول [tab1].
التنفيذ ومقاييس التقييم. للحفاظ على مقارنة عادلة، استخدمنا PyTorch بدُفعةٍ حجمها 5 عبر 100 عصر على بطاقة Nvidia A100، مع شبكة UNet كهيكلٍ أساسي ومحسّن MADGRAD (defazio2022adaptivity) بمعدّل تعلّم 1e-4. قمنا بتحجيم الصور إلى 224×224×16 إطارًا وتطبيعها بمتوسط صفري وتباينٍ وحيد. ولتعزيز المتانة، طبّقنا الانعكاس العشوائي، ودوران ±30°، والاقتصاص. قَيَّمنا الأداء بمُعامل دايس (DSC) عبر مقاطع A4C وA2C وPSAX وحالتي ED وES.
دراسة المقارنة. قارَنّا نهجنا في إعدادين: 1) تدريبٌ واختبار على المقطع نفسه (نهج مُخصَّص)، و2) تدريبٌ على جميع المقاطع واختبار عليها (نهج مُوحَّد). واعتمدنا كنماذج أساس SwinUNETR (hatamizadeh2021swin) وU-transformer (petit2021u) (kim2023medivista)، بالإضافة إلى النماذج العالمية DoDNet (reddy2023video)، وCLIP-driven (liu2023clip)، وUniSeg (ye2023uniseg)، وUniverSeg (butoi2023universeg).
كما يُظهر الجدول [table2]، يُحقّق نموذجنا نتائج تجزئة متميّزة حتى مع إدخالٍ غير مُحدَّد المقطع. وبالمقارنة مع النماذج تحت النهج المُوحَّد، يتفوّق نموذجنا غالبًا على النماذج المُخصَّصة، باستثناء LVendo (93.2 مقابل 93.3) وLVepi (88.3 مقابل 88.5) في A2C وA4C على التوالي. ومن خلال مطابقة المُوجِّهات ديناميكيًا، نُحسن تحديد مناطق الاهتمام عبر جميع المقاطع. كما يتفوّق متوسّط أدائنا على نموذج UniverSeg القائم على التعلّم بقليلٍ من الأمثلة (89.64 مقابل 81.7).
دراسة الاستئصال. لتقييم مساهمة كل مُكوّن، أزلنا مسار التضمين النصي أولًا، ولاحظنا انخفاضًا من 89.6 إلى 85.6 عند إزالة خسارة النص–البكسل، ما يُؤكّد أهميّتها. ثم قارَنّا بين نماذج اللغة CLIP وClinicalBERT، فوجدنا تفوّق الأخير (89.6 مقابل 88.8). كما قيَّمنا دقّة تصنيف المُوجِّهات عبر تصويت الأغلبيّة مُسجّلين قدرة تمييز عالية بين PSAX والمقاطع القِمّية (0.96)، وأقلّ بين A2C وA4C (0.54 و0.60) بسبب التشابه الكبير بينهما. كذلك لاحظنا أنّ توفير معلومات المقطع بصورةٍ صريحة قد يُقلِّل الأداء قليلًا (89.4 مقابل 89.6) كما في الجدول [table4].
بدون معلومات المقطع | مع معلومات المقطع |
---|---|
89.6 | 89.4 |
قدّمنا في هذه الدراسة نموذجًا مُبتكرًا لتجزئة صور صدى القلب مُوجَّهًا بالمُوجِّهات وقادرًا على التعلّم من بيانات مُوسومة جزئيًا عبر مقاطع قياسية متعدّدة. يجمع النموذج بين محاذاة التمثيل النصّي والبصري باستخدام نموذج لغةٍ طبي مُدرَّب مُسبقًا، وتقنية مطابقة المُوجِّهات لتحقيق تجزئة متّسقة بغضّ النظر عن المقطع. وأظهر التقييم على ثلاثة مقاطع قياسية قابليةَ توسيع النموذج ليشمل مقاطع إضافية عند الضرورة، مع تبسيط سير العمل عبر إزالة الحاجة إلى تحديد المقطع يدويًا. وقد أثبتت التجارب الموسّعة تفوّق نهجنا وفائدته العالية في تجزئة صدى القلب.