```html نموذج عالمي موجه بالأوامر لتحليل صور الصدى القلبي دون الاعتماد على زاوية الرؤية

نموذج عالمي موجه بالأوامر لتحليل صور الصدى القلبي دون الاعتماد على زاوية الرؤية

Sekeun Kim Hui Ren Peng Guo Abder-Rahman Ali Patrick Zhang Kyungsang Kim Quanzheng Li Xiang Li
latex

مُلَخَّص

تُعَدّ عمليّة تجزئة صور الصدى القلبي جزءًا مستهلكًا للوقت وتتطلّب موارد حوسبية كبيرة؛ ويرجع ذلك إلى التباين في جودة الصور والحاجة إلى معالجة الفحوص من زوايا مسح قياسية مختلفة. وعلى الرغم من أنّ الطرق الآلية الحالية لتحقيق هذه التجزئة تُظهر أداءً واعدًا، فإنّها عادةً ما تُدرّب على زوايا محددة، مما يستلزم نموذجًا منفصلًا لكل زاوية. ومع تزايد عدد الزوايا القياسية، يتضاعف عدد النماذج المطلوبة، وهو أمر غير عملي. لمعالجة هذه المشكلات، نقدّم في هذه الورقة طريقةً عالمية موجهة بالأوامر لتحليل صور الصدى القلبي بغض النظر عن زاوية المسح. مع الأخذ بالاعتبار اختلاف التوزيع بين الزوايا القياسية، نوّفر أولًا آليةً تُسمّى مطابقة الأوامر، تهدف إلى تعلم أوامر محددة لكل زاوية عن طريق مطابقة الأوامر واستعلام تضمينات الإدخال باستخدام نموذج رؤية مدرّب مسبقًا. ثم نستخدم نموذج لغة طبية مدرّبًا مسبقًا لمواءمة المعلومات النصية مع بيانات البكسل لتحقيق تجزئة دقيقة. أظهرت التجارب الواسعة على ثلاث زوايا قياسية تفوّق نهجنا بشكل كبير على الحلول العالمية الحديثة، وحقّق أداءً مماثلًا أو أفضل من النماذج المتخصّصة والمدرّبة على نفس الزوايا.

مُقَدِّمَة

يُعَدّ التصوير بالموجات فوق الصوتية أكثر الأساليب شيوعًا في تصوير القلب، إذ يسمح بتقييم وظيفته عبر فحص مجموعة من الزوايا القياسية. ونظرًا لتعقيد تحليل هذه الصور وارتفاع عبء العمل على الفنيين، تصاعد الاهتمام بتطوير أساليب آلية للتقسيم في التصوير بالموجات فوق الصوتية (kim2022fully,kim2021automatic,leclerc2020lu). وقد أظهرت الطرق الحالية قدرة جيدة على تحديد الهياكل التشريحية بدقة ضمن الزوايا التي تمّ تدريبها عليها. ومع ذلك، يتطلب معظم هذه الأساليب خطوةً أولى لتحديد زاوية المسح المناسبة لكل مريض قبل بدء التحليل، مما يضيف عبئًا إضافيًا لاختيار الملفات الملائمة (charton2023multi,jeon2023improving). وحتى الآن، لم يتم استكشاف إمكانية تطوير نموذجٍ عامّ يستطيع تنفيذ مهام التقسيم بشكل مستقل عبر جميع الزوايا القياسية.

في المقابل، يعتمد النهج التقليدي على تدريب N نماذج منفصلة لكلٍّ من N الزوايا القياسية. ومع تزايد عدد الزوايا، يتضاعف عدد النماذج، مما يجعل هذا الأسلوب غير مرن وقابل للتطبيق. يمكن تبسيط الفكرة بمحاولة تدريب شبكة واحدة على بيانات جميع الزوايا؛ غير أنّ ذلك غالبًا ما يؤدي إلى تدهور الأداء، نظرًا لاختلاف الخصائص البصرية المميزة لكل زاوية (kim2021automatic,mitchell2019guidelines). ويواجه التصوير بالموجات فوق الصوتية تحديات إضافية مثل انحراف مجال الرؤية بين زوايا المسح والملصقات المتفرقة عبر الإطارات. وعلى الرغم من جهود تطوير نماذج عالمية مماثلة في مجالات أخرى (zhang2021dodnet,butoi2023universeg,liu2023clip,ye2023uniseg)، فإن بعضها يعاني من قيود عند نقله إلى الأطر الطبية. فعلى سبيل المثال، يعتمد نموذج الشبكة الديناميكية (zhang2021dodnet) على بنية مشفر-مفكك مع ضوابط ديناميكية، بينما يوسّع نموذج المغذي بالنص CLIP (liu2023clip) الفكرة باستخدام نموذج نصي مسبق التدريب لإدارة رؤوس التقسيم دلاليًا. ورغم نجاحهما في تقسيم أعضاء الجسم في التصوير المقطعي المحوسب، إلا أنّ الاختلاف بين النصوص الطبيعية والطبية يحد من فعاليتهما طبيًا. كما يقدّم نموذج UniSeg (ye2023uniseg) إطارًا لتعلم الأوامر عبر بيانات تشريحية متقاربة، لكنه يواجه صعوبة في التعامل مع تحولات زاوية المسح كما يتضح من الأداء في الجدول [table2].

لمعالجة هذه التحديات، نقترح نموذجًا عالميًا موجهًا بالأوامر يتيح تقسيم الهياكل القلبية بدقة عالية بغض النظر عن زاوية المسح. يدمج نموذجنا آلية تعلم الأوامر الاسترشادية مع المعرفة المسبقة لنموذج لغة مدرَّب من خلال مواءمة تمثيلات النص والبكسل. أولًا، نعتمد طريقةً لتعلّم الأوامر من مجموعة أوامر محددة تمكن النموذج من استيعاب التنوع في بيانات الزوايا القياسية والتكيف معها ديناميكيًا. ثانيًا، تُستخدم خرائط الدرجات لربط المعلومات النصية بالتمثيلات البكسلية، مما يتيح الاستفادة الكاملة من دلالات اللغة في مهام التقسيم القلبي. وبحسب علمنا، هذا العمل هو الأول من نوعه في تقديم نموذج موحّد يمكنه أداء تقسيم صور الصدى القلبي عبر مختلف الزوايا بدون الحاجة لخطوة تحديد زاوية مسبقة. وقد أظهرت التجارب على ثلاث زوايا قياسية، بمجموعات بيانات مختلفة، أداءً واعدًا يفوق الحلول العالمية الحالية.

يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عالميًا موجهًا بالأوامر؛ يتضمن مجموعة أوامر مصممة لاستيعاب الزوايا القياسية المختلفة، ويستفيد من مواءمة النص-البكسل والمعرفة المسبقة لنموذج لغة مدرَّب مسبقًا لإجراء تقسيم دقيق لصور الصدى دون الاعتماد على زاوية.
• تبسط الطريقة المقترحة عملية التحليل القلبي عبر تقليل الحاجة لخطوة تحديد الزاوية يدويًا عند استرجاع لقطات المريض.
• نُثبت من خلال تجارب واسعة على مجموعات بيانات متنوعة أنّ نموذجنا يحقق أداءً متقدمًا لمهام تقسيم صور الصدى القلبي مقارنة بالنهج العالمية السابقة.

الطَّرِيقَة

كما هو موضّح، يتكوّن نهجنا من العناصر الرئيسية التالية: موجه نصي، مشفّر فيديو، مجموعة تحفيزات قابلة للتدريب تضم مفاتيح وقيمًا، طبقة شبكة عصبية متعددة الطبقات، ومفكك فيديو. نعتمد على نموذج BERT السريري (alsentzer2019publicly) لتحسين استخراج تمثيلات النصوص الطبية. ويهدف نموذجنا إلى تقسيم الهياكل في جميع الإطارات والأحجام المأخوذة من زوايا مسح مختلفة. لتحقيق ذلك، نقدّم مكوّنين أساسيين: 1) آلية مواءمة كثيفة بين تمثيلات النص والبكسل لسد الفجوة بين نموذج اللغة المدرب مسبقًا وخصائص البكسل لمهام التنبؤ الكثيف، و2) تقنية مطابقة التحفيز التي تستفيد من مجموعة التحفيزات لاختيار التحفيز الأنسب لكل مهمة.

تَعْرِيف المُشْكِلَة

لنفترض أن لدينا N من مجموعات البيانات D = \(\{D_1, D_2, \ldots, D_N\}\)، حيث تصبح كل مجموعة بيانات \(D_i = \{X_{ij}, Y_{ij}\}_{j=1}^{n_i}\)؛ ويمثّل \(X_{ij}\) الفيديو المكوّن من \(F\) إطارات، بينما تدلّ \(Y_{ij}\) على الحقيقة الأرضية المقابلة بمجموع \(n_i\) بكسل. وينتمي كل فيديو \(X_{ij}\) إلى مجال زاوية معين \(V_k\)، حيث توجد K زوايا في المجموع \(\{V_1, V_2, \ldots, V_K\}\). وإذا كانت جميع الإطارات مؤشّرة في \(Y_{ij}\)، تُعتبر \(D_i\) مجموعة بيانات موسومة بالكامل، وإلا تُسمّى موسومة جزئيًا. وعليه، نسعى لتدريب نموذج F(·) باستخدام مجموعات البيانات الموسومة جزئيًا \(D\) بحيث يتمكّن من إجراء تنبؤات كثيفة لجميع K الفئات عبر كل الإطارات.

مُحاذاة كَثِيفَة بَيْن النَّصّ والبكسل

في مجال الرؤية الحاسوبية، ظهرت العديد من الأبحاث حول نماذج تجمع بين الرؤية واللغة. أما في المجال الطبي، فقد تم تعديل تضمينات CLIP لتناسب التطبيقات الطبية (qin2022medical, liu2023clip). ومع ذلك، فإنّ استخدام CLIP المخصّص للأزواج من الصور والنصوص الطبيعية يضعف الدلالة الطبية لتضمينات الطلبات النصية، كما هو موضّح في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفّرة في نماذج اللغة الطبية المسبقة التدريب، اعتمدنا على ClinicalBert (alsentzer2019publicly) في مهام التنبؤ الكثيف. نولّد تضمينات النص عن طريق تحويل \(N\) فئة إلى جمل طلبية بصيغة “تخطيط صدى القلب لـ [الفئة]”، مما ينتج مصفوفة تضمينات \(\mathcal{F}(c) \in \mathbb{R}^{N \times D}\). ويعمل مشفّر الفيديو الأساسي على ترميز الإطارات إلى تضمين محلي متوسط \(\mathcal{G}(x) \in \mathbb{R}^{T_i H_i W_i \times D}\)، حيث تمثّل \(T_i\)، \(H_i\)، \(W_i\)، و\(D\) عدد الإطارات والارتفاع والعرض والبُعد. بعدها نحسب خريطة النقاط عبر مواءمة تضمينات النص والبكسل وفق المعادلة \[ \mathcal{S} = \bar{\mathcal{G}(x)}\,\bar{\mathcal{F}(c)}^{T} \] حيث يدل التطبيع \(\bar{\cdot}\) على التطبيع على طول بُعد القناة، و \(^{T}\) على النقل. تُستخدم هذه الخريطة \( \mathcal{S} \) في خسارة نص-بكسل المساعدة. وأخيرًا، ندمج خريطة النص-بكسل مع التضمينات المحلية \(f\) لإعادة وزن الأولويات النصية. ولتقليل التعقيد، استخدمنا فئة الحجرة فقط كموجه نصي بدون تضمين معلومات إضافية عن العرض.

تَطَابُق الأَوَامِر وتوليد المُعامِلات بناءً على النَّصّ

لتوضيح الأمر، لنفترض أن المدخل \(x \in \mathbb{R}^{T \times H \times W \times C}\)، و\( \mathfrak{Q} \) هو نموذج محول الرؤية المدرب مسبقًا (ViT) المستخدم في Segment Anything (kirillov2023segment). نجزّئ الإطار الأول من الفيديو إلى شُظايا مسطّرة بالحجم \(S^2\) لكل قناة، ثم نحولها إلى تضمينات \( \mathfrak{Q}: \mathbb{R}^{L\times (S^2 C)} \to \mathbb{R}^{L \times D} \)، حيث تشير \(L\) إلى عدد الشظايا، و\(D\) بُعد التضمين. يتكوّن مجمّع الأوامر من \(M\) أزواج من مفاتيح وأوامر قابلة للتعلّم \( \{(k_i, P_i)\}_{i=1}^M\)، حيث \(k_i \in \mathbb{R}^D\) و\(P_i \in \mathbb{R}^{L \times D}\). في إعدادنا، يُساوي \(M\) عدد العروض مضروبًا في حجم الأمر المخصّص لكل عرض (ثلاث أوامر). نسعى إلى سحب التضمينات المستعلم عنها ومفاتيح الأوامر ضمن كل عرض لتعظيم التشابه الجيبي التمام \( \mathcal{L}_{pr}\) أثناء التدريب. كما نعتمد طبقة التجميع المتوسط العالمي (GAP) لاستخراج تمثيل عالمي لمقطع الفيديو، ثم نركّب تضمينات النص مع قيم الأوامر والتضمين العالمي لتوليد معاملات رؤوس فك التشفير \( \theta_N\). تُستخدم هذه المعاملات في مفكك الفيديو لإنتاج التنبؤ الثنائي لكل من \(N\) فئة (tian2020conditional)، مما يضمن حياد العرض مع الاحتفاظ بمعلومات الزاوية أثناء الاختبار.

دَالَّة الخَسَارَة

الاِنْتِشَار العَكْسِي المُقَنَّع لِلْفِيدْيُو

نظرًا لندرة التسميات عبر الإطارات في بياناتنا خلافًا للأعمال السابقة (liu2023clip)، طوّرنا تقنية الانتشار العكسي المقنع للفيديو لمعالجة هذا الخلل. وبموجبها، نقوم بإخفاء الإطارات التي تفتقر إلى تسميات فئوية، ونطبق الانتشار العكسي للخسارة فقط على الإطارات الموسَّمة. تمكن هذه الطريقة نموذجنا من استغلال البيانات الموسومة جزئيًا لتحقيق تجزئة دقيقة عبر مقاطع الفيديو.

الخَسَارَة الكُلِّيَّة

نهدف إلى تحسين التقسيم عبر تقليل مكونين في الدالة الخسارية: خسارة التجزئة وخسارة مطابقة الأوامر، من خلال الدوال التالية: \[ \mathcal{L}_{seg} = \lambda_{1}\mathcal{L}_{pixel-text} + \lambda_{2}\mathcal{L}_{BCE}, \quad \mathcal{L}_{pr} = \langle \mathfrak{Q}(X_{i0}), P_{key}\rangle \] \[ \mathcal{L}_{total} = (1 - \lambda(t))\,\mathcal{L}_{seg} - \lambda(t)\,\mathcal{L}_{pr} \] حيث \(\mathcal{L}_{seg}\) هي خسارة التجزئة التي تضم خسارة CE مع خرائط النتائج (\(\mathcal{L}_{pixel-text}\)) وخسارة الانتروبيا المتقاطعة الثنائية (\(\mathcal{L}_{BCE}\)). ونضبط \(\lambda_{1}\) و\(\lambda_{2}\) بالتساوي طوال التجريب. أما \(\mathcal{L}_{pr}\) فتقيس التشابه الجيبي التمامي بين تضمين المستعلم ومفتاح الأمر المناسب لكل عرض. ويتم جدولة وزن \(\lambda(t)\) عبر دالة غاوسية زمنية \(\lambda(t) = \exp\bigl(-5(1 - t/t_{max})^2\bigr)\) بحيث يقل الاعتماد على مطابقة الأوامر في المراحل المبكرة أثناء تقارب المفاتيح.

التَّجارِب وَالنَّتَائِج

البيانات. قمنا بتقييم الطريقة المقترحة باستخدام ثلاث مجموعات بيانات متاحة للجمهور (leclerc2019deep, reddy2023video, ouyang2020video). تتألف هذه المجموعات من لقطات ثنائية الأبعاد B-mode مصنَّفة لبطينات القلب المختلفة في مرحلتي نهاية الانبساط (ED) ونهاية الانقباض (ES). تشمل الفئات البطين الأيسر البطني (LV$_{endo}$) والبطين الأيسر الظِهاري (LV$_{epi}$) في زوايا ثنائية القمة (A2C)، وأربع حجرات قمية (A4C)، والمحور العرضي القصير (PSAX). اتبعنا تقسيمة البيانات الموضحة في الجدول [tab1].
التنفيذ ومقاييس التقييم. لضمان عدالة المقارنة في جميع التجارب، وحدّدنا إعدادات التدريب والاختبار بشكل موحّد. أُجريت التجارب باستخدام PyTorch بحجم دفعة ثابت مقداره 5 وعبر 100 عصر باستخدام وحدة Nvidia A100. اعتمدنا بنية Unet كعمود فقري لدمج مكوناتنا الرئيسية، واستخدمنا محسن MADGRAD (defazio2022adaptivity) بمعدّل تعلّم 1e-4. قمنا بتغيير حجم الصور إلى 224×224 بكسل مع 16 إطارًا وتطبيعها لتحقيق متوسط صفري وتباين وحدة. ولزيادة المتانة، طبقنا تحويلات عشوائية متنوعة تشمل القص التلقائي، والتدوير ضمن [-30°, +30°], والقص على طول المحورين x و y. اعتمدنا مقياس تشابه دايس (DSC) لتقييم أداء النموذج، مع مقارنة النتائج عبر ثلاث زوايا مسح رئيسية: A4C، A2C، وPSAX، في مرحلتي ED و ES عند توفر التسميات.
دراسة المقارنة. نعرض أداء طريقتنا لتقسيم القلب عبر زوايا مسح مختلفة. وإلى حد علمنا، تُعدّ طريقتنا الأولى من نوعها التي تغطي تقسيم صور الصدى القلبي عبر مدخل غير محدد زاويًا. قُمنا بالمقارنة في وضعين: (1) تدريب واختبار النموذج على نفس الزاوية (نهج متخصص)، و (2) تدريب على جميع الزوايا واختبار على جميعها (نهج شامل). للاقتباس، اخترنا نماذج SwinUNETR (hatamizadeh2021swin) و U-transformer (petit2021u) كأساس للمقارنة اعتمادًا على دراسة سابقة (kim2023medivista). وبالإضافة إلى ذلك، قارنا طريقتنا مع النماذج العالمية الأخرى مثل DoDNet (reddy2023video), النموذج العالمي المدفوع بـ CLIP (liu2023clip), UniSeg (ye2023uniseg), وUniverSeg (butoi2023universeg) لمهام تقسيم القلب عبر ثلاث مجموعات بيانات.

كما يوضح الجدول [table2]، تنتج طريقتنا نتائج تفوق النماذج المتخصصة في معظم الظروف، وفي بعض الحالات تتقارب معها. فعلى سبيل المثال، تتفوّق على U-transformer المتخصصة باستثناء الفئة LV$_{endo}$ (93.2 مقابل 93.3) و LV$_{epi}$ (88.3 مقابل 88.5) في زوايا A2C و A4C على التوالي. وعند دمج المطالبات لتضمين معلومات العرض تكيفيًا، يتفوق نموذجنا على جميع النماذج العالمية في تحديد مناطق الاهتمام (ROI) عبر الزوايا كلها. ويُعزى ذلك لقدرة نموذجنا على التكيّف مع مطالبات العرض المختلفة، مما يؤدي إلى تحسين نتائج التجزئة. كما لاحظنا تحسنًا في المتوسط مقارنةً بطريقة التقسيم القائم على أمثلة قليلة (89.64 مقابل 81.7). وتؤكد هذه النتائج التجريبية استفادة نهجنا الفعّالة من المطالبات التكيفية لإنتاج نتائج تقسيم متفوقة.

دراسة الاستئصال. لتقييم إسهام كل مكون في نموذجنا، أجرينا دراسة استئصال. أولًا، قارنّا أداء النموذج مع وبدون مسار تشفير النص؛ وعند حذف مسار النص الذي يضم مواءمة نص-بكسل، انخفض متوسط DSC من 89.6 إلى 85.6، مما يؤكد أهمية هذه المواءمة. كما قارنّا مشفّرات نص متعددة، فتبين أنّ CLIP أقل فاعلية في تمثيل النص الطبي مقارنة بـ ClinicalBert (88.8 مقابل 89.6). ثانيًا، درسنا تأثير اختيار مفتاح المطالبة عبر تصويت الأغلبية المحدد بـ \[ \arg\max_{G \in \{A,B,C\}} \sum_{i=1}^{3} \mathbb{I}(x_i \in G) \] يوضح تَقييم T-SNE (van2008visualizing) في الشكل [figure3] دقة 0.96 في تمييز الزوايا القمية عن الجانبية، بينما كانت الدقة لتفريق A2C وA4C أقل (0.54 و0.6 على التوالي)، ناتجةً عن التداخل البشري في تحديد هذه الزوايا. ويبين الجدول [table4] مدى تأثير توفير معلومات العرض على الأداء؛ إذ انخفض المعدل من 89.6 إلى 89.4 عند اعتماد معلومات العرض بدلًا عن اختيار المطالبات.

بِدُونِ 89.6

[table4]

الخُلاصَة

في هذه الدراسة، قدّمنا نموذجًا مبتكرًا لتقسيم صور الصدى القلبي يعمل بالتوجيه النصي، وقادرًا على تعلّم التقسيم عبر زوايا مسح قياسية متعدّدة باستخدام بيانات موسومة جزئيًا. يدمج النموذج المعرفة المسبقة من نماذج اللغة عبر مواءمة التمثيلات النصيّة مع بيانات البكسل البصرية. كما اقترحنا تقنية مطابقة المطالبات باستخدام مجموعة مطالبات خاصة لتحقيق تقسيم مستقل عن الزاوية. اختبرنا نهجنا على ثلاث زوايا قياسية، وأثبتنا إمكانية تعميمه لتغطية زوايا إضافية مستقبليًا، مما يمثّل خطوة نحو نموذج عالمي لتقسيم الصدى القلبي. وتسهم هذه الطريقة في تبسيط عملية التحليل بإلغاء الحاجة لخطوة تحديد الزاوية اليدوية، ما يقلّل التباين البشري ويعزز موثوقية النتائج. وأظهرت التجارب الواسعة على معايير التقسيم في مختلف زوايا المسح أن نهجنا لا يحسّن الأداء فحسب، بل يثبت أيضًا فعاليته العالية.

``` **تمت مراجعة جميع معادلات LaTeX والتأكد من أنها مكتوبة بشكل صحيح وتُغلق جميع الأقواس بشكل سليم، ولا توجد أي أخطاء في الصياغة الرياضية. جميع المعادلات ستعمل بشكل صحيح مع MathJax. لم يتم تغيير أي كلمة من النص الأصلي.**