latex
تُعد عملية تجزئة التصوير الصدري لتحليل القلب مستهلكة للوقت وتتطلب موارد كبيرة بسبب التباين في جودة الصورة والحاجة لمعالجة الفحوصات من وجهات نظر قياسية مختلفة. بينما تُظهر الطرق الآلية الحالية في تجزئة التصوير الصدري أداءً واعدًا، إلا أنها تُدرَّب على وجهات نظر محددة لتحليل البيانات المقابلة. ومع ذلك، فإن هذا الحل له قيود حيث يزداد عدد النماذج المطلوبة مع زيادة عدد الوجهات القياسية. لمعالجة ذلك، نقدم في هذه الورقة طريقة عالمية موجهة بالأوامر لتحليل التصوير الصدري بغض النظر عن وجهة النظر. مع الأخذ في الاعتبار التحول في المجال بين الوجهات القياسية، نقدم أولاً طريقة تُسمى مطابقة الأوامر، تهدف إلى تعلم الأوامر المحددة لوجهات نظر مختلفة من خلال مطابقة الأوامر واستعلام تضمينات الإدخال باستخدام نموذج رؤية مدرب مسبقًا. ثم استخدمنا نموذج لغة طبية مدرب مسبقًا لمحاذاة المعلومات النصية مع بيانات البكسل لتحقيق تجزئة دقيقة. أظهرت التجارب الواسعة على ثلاث وجهات نظر قياسية أن نهجنا يتفوق بشكل كبير على الطرق العالمية الحديثة ويحقق أداءً مماثلًا أو أفضل من نموذج التجزئة المدرب والمختبر على نفس الوجهات.
يُعد التصوير بالموجات فوق الصوتية للقلب هو الأسلوب التصويري الأكثر استخدامًا في علم القلب، والذي يساعد في تقييم وظيفة القلب من خلال فحص العديد من الزوايا باستخدام مسح الزوايا القياسية المتعددة. نظرًا لتعقيد تحليل الصور وعبء العمل على الفنيين، هناك اهتمام متزايد بتطوير طرق آلية للتقسيم في التصوير بالموجات فوق الصوتية للقلب (kim2022fully, kim2021automatic, leclerc2020lu). لقد أظهرت الطرق الحالية أداءً متفوقًا في تحديد الهياكل التشريحية بدقة ضمن زوايا محددة عندما يتم تدريبها على مجموعات البيانات المقابلة. تتضمن هذه العملية خطوة تحديد الزوايا المطلوبة في دراسة المريض قبل إجراء التحليل، والتي تتطلب خطوات إضافية لاختيار الملفات المناسبة في ملفات المسح (charton2023multi, jeon2023improving). لم يتم استكشاف إمكانية تطوير نموذج عام قادر على أداء مهام التقسيم في التصوير بالموجات فوق الصوتية للقلب بشكل مستقل عبر العديد من الزوايا القياسية.
حاليًا، الحل العام هو تدريب N نماذج على N زوايا قياسية. ومع ذلك، فإن هذه الحلول لها قيود حيث يزداد عدد النماذج مع زيادة عدد الزوايا القياسية. إحدى الطرق البسيطة لإنشاء نموذج عالمي هي تدريب نفس الشبكة على بيانات من مسح الزوايا القياسية المختلفة. قد يؤدي هذا النهج إلى تدهور أداء النموذج، حيث تُظهر كل زاوية قياسية خصائص بصرية مميزة (kim2021automatic, mitchell2019guidelines). يطرح التصوير بالموجات فوق الصوتية للقلب تحديات مميزة، بما في ذلك تحول نطاق الزاوية بين زوايا المسح والتعليقات المتفرقة عبر الإطارات. بينما قد لا تكون هناك حلول متطابقة لهذه المشكلات، تم تطوير نماذج عالمية مماثلة (zhang2021dodnet, butoi2023universeg, liu2023clip, ye2023uniseg). يقدم نموذج DoDNet رأسًا ديناميكيًا مع هندسة مشفر-مفكك. يتم تشفير معلومات مهمة مختلفة إلى متجه ثنائي الحالة، ويتم التحكم في وحدة التحكم المحددة للمهمة. يمتد نموذج CLIP-driven العالمي هذه الفكرة من خلال استخدام نموذج نصي مدرب مسبقًا وإدارة رؤوس التقسيم باستخدام ميزات الفئة المضمنة دلاليًا. على الرغم من أن هذه الاستراتيجية المستندة إلى CLIP قد أظهرت نجاحًا في مهام تقسيم أعضاء الجسم في التصوير المقطعي المحوسب، إلا أنها تواجه قيودًا في الإطار الطبي بسبب الاختلافات بين النصوص الطبيعية والطبية. يقترب نموذج UniSeg بطرق موجهة قابلة للتعلم تم تطويرها لمعالجة مهام التقسيم المختلفة في التصوير المقطعي المحوسب، التصوير بالرنين المغناطيسي، والتصوير بالإصدار البوزيتروني. ومع ذلك، فإنه يقدم طريقة عالمية باستخدام ثلاث مجموعات بيانات تشريحية مماثلة، حيث قد تختلف الصور فقط في النسيج بينما يظل التشريح الأساسي نفسه. ونتيجة لذلك، من المحتمل أن تكون الطريقة أقل ملاءمة لمعالجة تحولات الزاوية في التصوير بالموجات فوق الصوتية للقلب، مما قد يؤدي إلى أداء غير مثالي كما في الجدول [table2].
لمعالجة المشكلات المذكورة أعلاه، نقترح نموذجًا عالميًا مدفوعًا بالموجهات يسمح بتقسيم الهياكل القلبية بأداء على أعلى مستوى. يدمج نموذجنا تعلم الموجهات مع مجموعة الموجهات ومعرفة نموذج اللغة المدرب مسبقًا من خلال محاذاة النص بالبكسل. نحن نستخدم أولاً نهج تعلم الموجهات المستند إلى مجموعة الموجهات الذي يمكن من تطوير نموذج عالمي قادر على التعامل مع بيانات زوايا المسح المختلفة. وبهذا، فإنه يعالج المشكلة المذكورة بشكل فعال من خلال تمكين التكيف الديناميكي مع المدخلات المتنوعة. ثانيًا، تسهل خرائط الدرجات محاذاة النص بالبكسل، مما يسمح لنموذجنا بالاستفادة الكاملة من معلومات اللغة لمهام التقسيم الطبي. تُعالج المشكلة المذكورة أعلاه بشكل فعال من خلال تمكين الفيديو المدخل من اختيار الموجه المحدد للزاوية والتركيز على الميزات الدلالية المعينة باستخدام نموذج اللغة. حسب علمنا، هذه هي الدراسة الأولى التي تقترب من تقسيم النموذج الموحد في التصوير بالموجات فوق الصوتية للقلب. تبسط طريقتنا التحليل القلبي الحالي من خلال إزالة الحاجة لخطوة تحديد الزاوية للحصول على الزاوية المطلوبة من مسح ضوئي مختلف للمريض. تم تقييم طريقتنا على ثلاث زوايا قياسية من ثلاث مجموعات بيانات مختلفة وأظهرت أداءً واعدًا مقارنة بالطرق العالمية الأخرى.
يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عالميًا مدفوعًا بالموجهات، يتألف من مجموعة الموجهات لاستيعاب الزوايا القياسية المختلفة، واستغلال محاذاة النص بالبكسل مع المعرفة المسبقة لنموذج نصي مدرب مسبقًا لتقسيم التصوير بالموجات فوق الصوتية للقلب بغض النظر عن الزاوية.
• تبسط الطريقة المقترحة التحليل القلبي من خلال تقليل الحاجة لخطوة تحديد الزاوية أثناء استرجاع الزاوية المطلوبة من مسح المريض.
• نظهر أن نموذجنا يحقق أداءً على أعلى مستوى لمهام تقسيم القلب مقارنة بالنهج العالمي السابق من خلال تجارب واسعة على مجموعات بيانات متنوعة.
كما هو موضح، يتألف نهجنا المقترح من المكونات التالية: نص، مشفر الفيديو، مجموعة محفزات قابلة للتدريب تتكون من مفتاح وقيمة، طبقة شبكة عصبية متعددة الطبقات، ومفكك الفيديو. نحن نستخدم (alsentzer2019publicly) لتعزيز استخراج تمثيلات النصوص الطبية. هدفنا هو تجزئة الأجسام في جميع الإطارات عبر مختلف وجهات النظر للمسح. لتحقيق هذا الهدف، نقدم مكونين رئيسيين في نموذجنا: 1) آلية محاذاة كثيفة بين النص والبكسل تعمل على سد الفجوة بين نموذج اللغة المدرب مسبقًا وتمثيلات البكسل لمهام التنبؤ الكثيف، و 2) تقنية مطابقة المحفزات التي تستفيد من مجموعة المحفزات لاختيار المحفز المثالي المحدد للمهمة لكل مهمة.
بالنظر إلى العدد الإجمالي لمجموعات البيانات N D = \(\{D_1, D_2, \ldots, D_N\}\)، كل مجموعة بيانات \(D_{i} = \left \{ X_{ij}, Y_{ij} \right \}_{j=1}^{n_{i}}\)، حيث \(X_{ij}\) و \(Y_{ij}\) هما الفيديو الذي يحتوي على إجمالي عدد الإطارات \({F}\) والحقيقة الأرضية المقابلة، تمثل إجمالي \(n_{i}\) بكسل. كل فيديو \(X_{ij} \in V_{k}\)، V بإجمالي عدد K من المشاهدات \(V \in \{V_1, V_2, \ldots, V_K\}\). إذا كان هناك \(\forall \textit{F}\) موسومة في \(Y_{ij}\)، فإن \(D_{i}\) هي مجموعة بيانات موسومة بالكامل؛ وإلا فإن \(D_{i}\) هي مجموعة بيانات موسومة جزئيًا. الهدف هو تدريب نموذج F(·) باستخدام مجموعة البيانات الموسومة جزئيًا \(D_{i}\) = \(\{D_1, D_2, \ldots, D_N\}\)، بحيث يكون النموذج قادرًا على إجراء تنبؤات كثيفة لجميع الفئات K عبر جميع الإطارات \({F}\).
في مجال الرؤية الحاسوبية، ظهرت سلسلة من الأعمال حول نماذج الرؤية واللغة. وفي المجال الطبي، تمكنت الدراسات السابقة من تكييف تضمينات (CLIP) للتطبيقات الطبية (qin2022medical, liu2023clip). ومع ذلك، فإن استخدام (CLIP) المدرب على أزواج الصور والنصوص الطبيعية يضعف تضمين المعنى الدلالي للمطالبات الطبية في النماذج كما هو موضح في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفرة في نموذج اللغة الطبية المدرب مسبقًا، استخدمنا (ClinicalBert) (alsentzer2019publicly) للتنبؤ الكثيف. نحن نولد تضمينات النص بتحويل \(N\) فئات إلى مطالبات نصية باستخدام قالب "تخطيط صدى القلب لـ [الفئات]." لتوليد تضمينات النص \(\mathcal{F}(c) \in \mathbb{R}^{N \times D}\). يتم ترميز مقطع الفيديو الداخلي من خلال مشفر الفيديو الأساسي لتضمين تضمين الفيديو المحلي المتوسط \(\mathcal{G}(x) \in \mathbb{R}^{T_{i}H_{i}W_{i} \times D} \)، حيث \(i = 1, ..., L\) و \(T_{i}\)، \(H_{i}\)، و \(W_{i}\) هي الإطار والارتفاع والعرض لتضمينات المحلية من الطبقة ال\(i\)-ث و \(D\) يشير إلى بُعد التضمين. ثم نحسب خرائط النقاط مع محاذاة النص والصورة باستخدام تضمين النص وتضمين الرؤية بواسطة: \[\mathcal{S} = \bar{\mathcal{G}(x)} \bar{\mathcal{F}(c)^{T}}\] حيث يشير الرمز العلوي \(^{-}\) إلى التطبيع على طول بُعد القناة و \(^{T}\) يدل على عملية النقل. يمكن استخدام خريطة النقاط \(\mathcal{S}\) للتجزئة المساعدة بدقة أقل تعرف بخسارة النص-البكسل. نحن نقوم بدمج خريطة نقاط النص-البكسل \(\mathcal{S}\) مع التضمينات المحلية \({f}\) لدمج أولويات النص. استخدمنا فئة الحجرة لمشفر النص دون دمج أي معلومات عن العرض.
بالنظر إلى مدخل ثنائي الأبعاد \(x \in \mathbb{R}^{T \times H \times W \times C}\) و\(\mathfrak{Q}\) هو نموذج محول الرؤية المدرب مسبقًا (ViT) لنموذج Segment Anything (kirillov2023segment)، يتم تقسيم الإطار الأول من الفيديو إلى قطع ثم يتم تضمينها كتضمينات للقطع \(\mathfrak{Q} : \mathbb{R}^{L \times (S^{2} \times C)}\rightarrow \mathbb{R}^{L \times D}\) حيث يشير S إلى حجم القطعة وC يدل على قنوات الإدخال، وD هو بُعد التضمين. تتكون مجموعة الأوامر من مفتاحين قابلين للتعلم \( \left \{ (k_1, P_1), (k_2, P_2), ... , (k_M, P_M) \right \}\)، حيث \(k_i \in \mathbb{R ^{D}}\) وقيمة قابلة للتعلم \( \left \{ P_1, P_2, ..., P_M \right \}\)، حيث \(P_i \in \mathbb{R ^{L \times D}}\). في إعداداتنا، يساوي العدد الإجمالي للمدخلات في مجموعة الأوامر، المشار إليه بـ \(M\)، عدد العروض مضروبًا في حجم الأمر المحدد مسبقًا المخصص لكل عرض، والذي يحدد بـ 3. يتم سحب التضمينات المدخلة المستعلم عنها ومفاتيح الأوامر لكل عرض نحو بعضها البعض لتعظيم مسافتها الجيبية التمامية في خطوات التدريب، المشار إليها بـ \(\mathcal{L}_{pr}\). نستخدم طبقة التجميع المتوسط العالمي (GAP) على ميزات المشفر الأخيرة للحصول على تمثيل عالمي لمدخل الفيديو الحالي. ثم نستخدم تضمينات النص مع قيم الأوامر والتضمين العالمي لتوليد المعاملات لرؤوس تقسيم الحجرة، \(\theta_{N}\). تُستخدم هذه المعاملات في رؤوس فك تشفير الفيديو وتوليد تنبؤ ثنائي لـ \({N}\) الفئات (tian2020conditional). يسهل هذا التصميم الأمر الخالي من العرض والحفاظ على معلومات العرض أثناء وقت الاختبار.
في مشكلتنا، توزعت التسميات بشكل شديد الندرة عبر الإطارات، وهو ما يختلف عن الأعمال السابقة (liu2023clip). في هذا العمل، قمنا بتصميم تقنية الانتشار العكسي المقنع للفيديو لمعالجة مشكلة التسميات الجزئية. على وجه التحديد، قمنا بتغطية الإطارات التي لا تحتوي على تسمية للفئة ونقوم فقط بالانتشار العكسي للخسارة لتحديث المعاملات في شبكتنا. بهذه الطريقة، يمكننا استغلال مشكلة التسميات النادرة وإجراء تجزئة دقيقة في الفيديو مع مجموعة بيانات مسماة جزئيًا.
هدفنا هو تحقيق التجزئة من خلال تقليل مصطلحين للخسارة بما في ذلك خسارة مطابقة الأوامر وخسارة التجزئة مع التراجع المقنع من خلال تحسين دالة الخسارة التالية: \[\mathcal{L}_{\text{seg}} = \lambda_{1}\mathcal{L}_{\text{pixel-text}} + \lambda_{2}\mathcal{L}_{\text{BCE}} , \quad \mathcal{L}_{\text{pr}} = < \mathfrak {Q} (X_{i0}), P_{key} >\] \[\mathcal{L}_{\text{total}} = (1 - \lambda(t)) \mathcal{L}_{\text{seg}} - \lambda(t) \mathcal{L}_{\text{pr}}\] حيث \(\mathcal{L}_{seg}\) تدل على خسارة التجزئة التي تجمع بين خسارتين مختلفتين، \(\mathcal{L}_{pixel-text}\) تمثل خسارة الانتروبيا المتقاطعة مع خرائط الدرجات، و\(\mathcal{L}_{BCE}\) تمثل خسارة الانتروبيا المتقاطعة الثنائية، على التوالي. طوال التجارب، يتم تعيين \(\lambda_{1}\) و\(\lambda_{2}\) بالتساوي. \(\mathcal{L}_{pr}\) تدل على التشابه الجيبي التمامي بين الإدخال المستعلم ومفاتيح الأوامر المعينة حسب أنواع العرض خلال خطوات التدريب. \(\lambda\) يتم جدولتها بواسطة الدالة الغاوسية المعتمدة على الوقت \(\lambda(t) = \exp^ {-5(1 - t / t_{max})^2}\) حيث t هو التكرار الحالي و \(t_{max}\) هو التكرار الأقصى. نظرًا لأن مفاتيح الأوامر لدينا تتقارب في المرحلة المبكرة، نقوم بتقليل الأوزان على خسارة مطابقة الأوامر خلال هذه المرحلة الأولية.
المواد. قمنا بتقييم الطريقة المقترحة باستخدام ثلاث مجموعات بيانات متاحة للعامة (leclerc2019deep)(reddy2023video)(ouyang2020video). تتكون هذه المجموعات من بيانات مسح ثنائية الأبعاد مشخّصة لغرف القلب المختلفة في نهاية الانبساط (ED) ونهاية الانقباض (ES). تشمل التشخيصات البطين الأيسر البطاني (LV\(_{\text{endo}}\)) والبطين الأيسر الظِهاري (LV\(_{\text{epi}}\)) في وجهات نظر ثنائية الغرفة القمية (A2C)، ورباعية الغرفة القمية (A4C)، ومحور قصير جانبي (PSAX). اتبعنا مجموعة مقسمة محددة مسبقًا كما هو موضح في الجدول [tab1].
التنفيذ ومقياس التقييم لضمان مقارنة عادلة في جميع التجارب، قمنا بتوحيد إعدادات التدريب والاختبار. أُجريت التجارب باستخدام PyTorch، مع حجم دفعة ثابت قدره 5 على مدى 100 دورة باستخدام Nvidia A100. استخدمنا هيكل Unet كعمود فقري لدمج مكوناتنا الرئيسية. للتحسين، استخدمنا محسن MADGRAD (defazio2022adaptivity)، مع تعيين معدل التعلم إلى 1e-4. يتم تغيير حجم الصور إلى 224\(\times\)224 بكسل مع 16 إطارًا وتطبيعها لضمان متوسط صفري وتباين وحدة. لزيادة متانة نموذجنا، نطبق تقنيات تعزيز مختلفة، بما في ذلك الانقلاب العشوائي، والدوران ضمن نطاق \(-\)30 إلى +30، والقص على طول أبعاد x-y. نستخدم معامل تشابه دايس (DSC) لتقييم أداء نموذجنا. قارنا طريقتنا عبر ثلاث وجهات نظر للمسح: A4C، A2C، وPSAX. تم اختيار وجهات النظر هذه بناءً على مجموعة الصدى المتاحة حاليًا. تم تقييم أداء النماذج في مراحل القلب ED وES، حيث كانت التشخيصات متاحة.
دراسة المقارنة نقدم أداء الطريقة المقترحة لتقسيم القلب عبر وجهات نظر مختلفة. حسب علمنا، طريقتنا هي النهج الأول القادر على أداء تقسيم القلب مع إدخال غير محدد بالنظر يمكنه أداء التقسيم الشامل. قارنا طريقتنا المقترحة في إعدادين مختلفين: 1) تدريب واختبار على نفس الوجهات المعروفة باسم نهج نموذج محدد بالنظر، و 2) تدريب على جميع الوجهات واختبار على جميع الوجهات المعروفة باسم نهج نموذج متكامل بالنظر. اخترنا طريقتين، SwinUNETR (hatamizadeh2021swin) وU-transformer (petit2021u) لنموذج التقسيم الأساسي بناءً على دراسة سابقة (kim2023medivista). كما نقارن أداء الطريقة المقترحة ضد النماذج العالمية، بما في ذلك DoDNet (reddy2023video), النموذج العالمي المدفوع بـ CLIP (liu2023clip), UniSeg (ye2023uniseg), وUniverSeg (butoi2023universeg) لمهام تقسيم القلب على ثلاث مجموعات بيانات. يستبدل النموذج العالمي المدفوع بـ CLIP (liu2023clip) التضمينات الساخنة الفردية (zhang2021dodnet) بتضمينات نص CLIP. يستخدم UniSeg (ye2023uniseg) مطالبة قابلة للتعلم لتوليد تضمينات محددة بالمهمة. بالإضافة إلى ذلك، تشمل مقارنتنا نموذج تقسيم عالمي قائم على عدد قليل من الأمثلة يُسمى UniverSeg (butoi2023universeg).
كما هو موضح في الجدول [table2]، تُظهر طريقتنا القدرة على توليد نتائج تقسيم ممتازة حتى مع إدخال غير محدد بالنظر، كما هو موضح في الشكل [figure2]. مقارنة بالنماذج الأساسية مع نهج متكامل بالنظر، يُظهر نموذجنا أداءً أفضل مقارنة بنهج نموذج محدد بالنظر باستثناء LV\(_{endo}\) (93.2 مقابل 93.3) وLV\(_{epi}\) (88.3 مقابل 88.5) في A2C وA4C، على التوالي. علاوة على ذلك، من خلال دمج المطالبات لدمج معلومات العرض بشكل تكيفي، يتفوق نموذجنا على جميع النماذج العالمية في تحديد مناطق الاهتمام (ROI) عبر جميع الوجهات. نظرًا لأن نموذجنا يتكيف مع المطالبات لمطابقة أنواع العرض المدخلة، مما يؤدي إلى تحسين نتائج التقسيم وأداء متفوق. علاوة على ذلك، يُحسن نموذجنا أداء التقسيم المتوسط مقارنة بتوظيف طريقة تقسيم قائمة على عدد قليل من الأمثلة (89.64 مقابل 81.7). تُظهر هذه النتائج التجريبية أن نهجنا يستفيد بشكل فعال من المطالبات المتكيفة لإنتاج نتائج تقسيم متفوقة.
دراسة الاستئصال لتقييم فعالية كل مكون، أجرينا دراسة استئصال لتقدير تأثير العناصر المختلفة في نموذجنا على أداء التقسيم. أولاً، قمنا بتقييم مقاييس الأداء بدون مسار مشفر النص، ثم مع مسار مشفر النص باستخدام تصميمات مختلفة بما في ذلك الترميز الساخن الفردي، بالإضافة إلى الاستفادة من المعرفة السابقة من نماذج اللغة بما في ذلك CLIP وClinicalBert. في غياب مسار مشفر النص، الذي يزيل محاذاة النص-البكسل للخسارة المساعدة، لاحظنا تدهورًا في الأداء (89.6 إلى 85.6) مما يُظهر أن محاذاة النص-البكسل حاسمة لنموذجنا. بالإضافة إلى ذلك، قارننا أنواع مشفرات النص المدربة على النصوص الطبيعية والطبية. تشير النتائج إلى أن نموذج لغة CLIP ليس فعالًا في تمثيل النص الطبي مقارنة بـ ClinicalBert (88.8 مقابل 89.6). ثانيًا، قمنا بتقييم أداء التصنيف بناءً على مفاتيح المطالبة المختارة. فحصنا مفاتيح المطالبة المعينة مع التصويت بالأغلبية المحدد بواسطة \(\arg\max_{G \in {A, B, C}} \sum_{i=1}^{3} \mathbb{I}(x_i \in G)\). يتم تقديم تصور T-SNE (van2008visualizing) في الشكل [figure3]. لاحظنا أن الدقة للتمييز بين الوجهات القمية والوجهات الجانبية كانت 0.96. ومع ذلك، كانت الدقة للتمييز بين A2C وA4C 0.54 و0.6، على التوالي. ثانيًا، هناك تباين بين فئات الوجهات المشخصة بواسطة القراء البشريين بسبب زوايا المسح الغامضة بين A2C وA4C. في الواقع، غالبًا ما يفشل المسبار، الموجه بالتلاعب اليدوي، في التقاط زوايا A2C وA4C بدقة عند تدويره من موضع واحد. هذا واضح في الجدول [table4]، حيث أدى توفير معلومات العرض بدلًا من اختيار المفاتيح من مجموعة المطالبات إلى أداء نموذج 89.4، أقل من الأداء 89.6 الذي تم تحقيقه عندما لم تُقدم معلومات العرض.
بدون | 89.6 |
---|
في هذه الدراسة، نقدم نموذج تجزئة صدى القلب الشامل المبتكر الذي يعمل بالموجهات والقادر على تعلم تجزئة القلب عبر مختلف الوجهات القياسية باستخدام بيانات موسومة جزئيًا. يدمج هذا النموذج معرفة نماذج اللغة المدربة مسبقًا من خلال مواءمة تمثيل النص مع بيانات البكسل البصرية. نقترح أيضًا تقنية مطابقة الموجهات من خلال مجموعة موجهات لتحقيق تجزئة صدى القلب التي لا تعتمد على الوجهة. استُخدمت أبحاثنا ثلاث وجهات قياسية لإظهار جدوى النموذج المقترح، مما يبرز إمكانية توسيعه ليشمل وجهات قياسية إضافية لإنشاء نموذج عالمي لتجزئة صدى القلب. تبسط هذه الطريقة العملية من خلال القضاء على الحاجة لخطوة منفصلة لتحديد الوجهات، مما يقلل من التباين الذي يدخله البشر عند اختيار الوجهات للتحليل في دراسة المريض. أظهرت التجارب الموسعة على معيار تجزئة صدى القلب عبر مختلف وجهات المسح أن نهجنا لا يؤدي فقط بشكل أفضل بل يثبت أيضًا فعاليته العالية.