latex
تُعَدّ عملية تجزئة التصوير الصوتي للقلب لتحليل القلب مُستهلِكة للوقت وتتطلب موارد كبيرة بسبب التباين في جودة الصورة والحاجة لمعالجة الفحوصات من زوايا قياسية مختلفة. بينما تُظهر الطرق الآلية الحالية في تجزئة التصوير الصوتي للقلب أداءً واعدًا، إلا أنها تُدرَّب على زوايا مسح محددة لتحليل البيانات المقابلة. ومع ذلك، فإن هذا الحل له قيود حيث يزداد عدد النماذج المطلوبة مع زيادة عدد الزوايا القياسية. لمعالجة ذلك، نقدم في هذه الورقة طريقة عالمية موجهة بالأوامر لتحليل التصوير الصوتي للقلب دون الاعتماد على زاوية الرؤية. مع الأخذ في الاعتبار التحول في المجال بين الزوايا القياسية، نقدم أولاً طريقة تُسمى مطابقة الأوامر، تهدف إلى تعلم الأوامر المحددة لزوايا نظر مختلفة من خلال مطابقة الأوامر واستعلام تضمينات الإدخال باستخدام نموذج رؤية مدرَّب مسبقًا. ثم استخدمنا نموذج لغة طبية مدرَّبًا مسبقًا لمواءمة المعلومات النصية مع بيانات البكسل لتحقيق تجزئة دقيقة. أظهرت التجارب الواسعة على ثلاث زوايا قياسية أن نهجنا يتفوق بشكل كبير على الطرق العالمية الحديثة ويحقق أداءً مماثلًا أو أفضل من نموذج التجزئة المدرَّب والمختبر على نفس الزوايا.
يُعَدّ التصوير بالموجات فوق الصوتية الأسلوب التصويري الأكثر استخدامًا في علم القلب، حيث يساعد في تقييم وظيفة القلب من خلال فحص العديد من الزوايا باستخدام مسح الزوايا القياسية المتعددة. نظرًا لتعقيد تحليل الصور وعبء العمل على الفنيين، هناك اهتمام متزايد بتطوير طرق آلية للتقسيم في التصوير بالموجات فوق الصوتية (kim2022fully,kim2021automatic,leclerc2020lu). لقد أظهرت الطرق الحالية أداءً متفوقًا في تحديد الهياكل التشريحية بدقة ضمن زوايا محددة عندما يتم تدريبها على مجموعات البيانات المقابلة. يتضمن هذا العمل خطوة تحديد الزوايا المطلوبة في دراسة المريض قبل إجراء التحليل، مما يتطلب خطوات إضافية لاختيار الملفات المناسبة في ملفات المسح (charton2023multi,jeon2023improving). لم يتم استكشاف إمكانية تطوير نموذج عام قادر على أداء مهام التقسيم في التصوير بالموجات فوق الصوتية بشكل مستقل عبر الزوايا القياسية المتعددة.
حاليًا، الحل العام هو تدريب N نماذج على N زوايا قياسية. ومع ذلك، فإن هذه الحلول لها قيود حيث يزداد عدد النماذج مع زيادة عدد الزوايا القياسية. إحدى الطرق البسيطة لإنشاء نموذج عالمي هي تدريب نفس الشبكة على بيانات من مسح زوايا قياسية مختلفة. قد يؤدي هذا النهج إلى تدهور أداء النموذج، حيث تُظهر كل زاوية قياسية خصائص بصرية مميزة (kim2021automatic,mitchell2019guidelines). يطرح التصوير بالموجات فوق الصوتية تحديات فريدة، بما في ذلك تحول نطاق الزاوية بين زوايا المسح والتعليقات المتفرقة عبر الإطارات. بينما قد لا تكون هناك حلول مطابقة لهذه المشكلات، تم تطوير نماذج عالمية مماثلة (zhang2021dodnet,butoi2023universeg,liu2023clip,ye2023uniseg). يقدم نموذج الشبكة الديناميكية (zhang2021dodnet) رأسًا ديناميكيًا مع هندسة مشفر-مفكك. يتم ترميز معلومات المهمة المختلفة إلى متجه ثنائي الحالة، ويتم التحكم في وحدة التحكم المحددة للمهمة. يمدد نموذج الشبكة العالمية المدفوع بـ CLIP (liu2023clip) هذه الفكرة من خلال استخدام نموذج نصي مدرَّب مسبقًا وإدارة رؤوس التقسيم باستخدام ميزات الفئة المضمَّنة دلاليًا. على الرغم من أن هذه الاستراتيجية المبنية على CLIP قد أظهرت نجاحًا في مهام تقسيم أعضاء الجسم في التصوير المقطعي المحوسب، إلا أنها تعاني من قيود في الإطار الطبي بسبب الاختلافات بين النصوص الطبيعية والطبية. يقترب نموذج UniSeg (ye2023uniseg) بطرق تعلم الأوامر القابلة للتعلم وقد تم تطويره لمعالجة مهام التقسيم المختلفة في التصوير المقطعي المحوسب، التصوير بالرنين المغناطيسي، والتصوير بالإصدار البوزيتروني. ومع ذلك، فإنه يقدم طريقة عالمية باستخدام ثلاث مجموعات بيانات تشريحية مماثلة، حيث قد تختلف الصور فقط في النسيج بينما يظل التشريح الأساسي نفسه. ونتيجة لذلك، من المحتمل أن تكون الطريقة أقل ملاءمة لمعالجة تحولات الزاوية في التصوير بالموجات فوق الصوتية، مما قد يؤدي إلى أداء غير مثالي كما في الجدول [table2].
لمعالجة المشكلات المذكورة أعلاه، نقترح نموذجًا عالميًا مدفوعًا بالأوامر يسمح بتقسيم الهياكل القلبية بأداء على أعلى مستوى. يدمج نموذجنا تعلم الأوامر مع مجموعة الأوامر ومعرفة نموذج اللغة المدرَّب مسبقًا من خلال مواءمة النص-البكسل. نستخدم أولًا نهج تعلم الأوامر المستند إلى مجموعة الأوامر الذي يمكن من تطوير نموذج عالمي قادر على التعامل مع بيانات زوايا المسح المختلفة. وبهذا، فإنه يعالج المشكلة المذكورة بشكل فعال من خلال تمكين التكيف الديناميكي مع المدخلات المتنوعة. ثانيًا، تسهّل خرائط الدرجات مواءمة النص-البكسل، مما يسمح لنموذجنا بالاستفادة الكاملة من معلومات اللغة لمهام التقسيم الطبية. تُعالج المشكلة المذكورة أعلاه بشكل فعال من خلال تمكين الفيديو المدخل من اختيار الأمر المحدد للزاوية والتركيز على الميزات الدلالية المعينة مع نموذج اللغة. حسب علمنا، هذا هو العمل الأول الذي يقترب من تقسيم النموذج الموحد في التصوير بالموجات فوق الصوتية. تُبسّط طريقتنا التحليل القلبي الحالي من خلال إزالة الحاجة لخطوة تحديد الزاوية للحصول على الزاوية المطلوبة من مسح ضوئي مختلف للمريض. تم تقييم طريقتنا على ثلاث زوايا قياسية من ثلاث مجموعات بيانات مختلفة وأظهرت أداءً واعدًا مقارنة بالطرق العالمية الأخرى.
يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عالميًا مدفوعًا بالأوامر، يتألف من مجموعة أوامر لاستيعاب الزوايا القياسية المختلفة، واستغلال مواءمة النص-البكسل مع المعرفة المسبقة لنموذج النص المدرَّب مسبقًا لتقسيم التصوير بالموجات فوق الصوتية بغض النظر عن الزاوية.
• تُبسّط الطريقة المقترحة التحليل القلبي من خلال تقليل الحاجة لخطوة تحديد الزاوية أثناء استرجاع الزاوية المطلوبة من مسح المريض.
• نظهر أن نموذجنا يحقق أداءً على أعلى مستوى لمهام تقسيم القلب مقارنة بالنهج العالمي السابق من خلال تجارب واسعة على مجموعات بيانات مختلفة.
كما هو موضح، يتألف نهجنا المقترح من المكونات التالية: نص، مشفر الفيديو، مجموعة تحفيزات قابلة للتدريب تتكون من مفتاح وقيمة، طبقة شبكة عصبية متعددة الطبقات، ومفكك الفيديو. نستخدم نموذج بيرت السريري (alsentzer2019publicly) لتحسين استخراج تمثيلات النصوص الطبية. هدفنا هو تجزئة الأشياء في جميع الإطارات عبر مختلف زوايا النظر للمسح. لتحقيق هذا الهدف، نقدم مكونين رئيسيين في نموذجنا: 1) آلية مواءمة كثيفة بين النص والبكسل تعمل على سد الفجوة بين نموذج اللغة المدرَّب مسبقًا وتمثيلات البكسل لمهام التنبؤ الكثيف، و2) تقنية مطابقة التحفيز التي تستفيد من مجموعة التحفيزات لاختيار التحفيز المثالي المحدد للمهمة لكل مهمة.
بالنظر إلى العدد الإجمالي N من مجموعات البيانات D = \(\{D_1, D_2, \ldots, D_N\}\)، كل مجموعة بيانات \(D_{i} = \left \{ X_{ij}, Y_{ij} \right \}_{j=1}^{n_{i}}\)، حيث \(X_{ij}\) و \(Y_{ij}\) هما الفيديو بعدد إجمالي من الإطارات \({F}\) والحقيقة الأرضية المقابلة، تمثل إجمالي \(n_{i}\) بكسل. كل فيديو \(X_{ij} \in V_{k}\)، V بعدد إجمالي K من الآراء \(V \in \{V_1, V_2, \ldots, V_K\}\). إذا تم توثيق \(\forall F\) في \(Y_{ij}\)، فإن \(D_{i}\) تعتبر مجموعة بيانات موسومة بالكامل؛ وإلا، تعتبر \(D_{i}\) مجموعة بيانات موسومة جزئيًا. الهدف هو تدريب نموذج F(·) باستخدام مجموعة البيانات الموسومة جزئيًا \(D_{i}\) = \(\{D_1, D_2, \ldots, D_N\}\)، بحيث يكون النموذج قادرًا على إجراء تنبؤات كثيفة لجميع الفئات K عبر جميع الإطارات \({F}\).
في مجال الرؤية الحاسوبية، ظهرت سلسلة من الأعمال حول نماذج الرؤية واللغة. وفي المجال الطبي، تمكنت الدراسات السابقة من تكييف تضمينات CLIP للتطبيقات الطبية (qin2022medical, liu2023clip). ومع ذلك، فإن استخدام CLIP المدرَّب على أزواج الصور والنصوص الطبيعية يُضعف تضمين المعنى الدلالي للمطالبات الطبية في النماذج كما هو موضح في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفرة في نموذج اللغة الطبية المدرَّب مسبقًا، استخدمنا ClinicalBert (alsentzer2019publicly) للتنبؤ الكثيف. نحن نولّد تضمينات النص بتحويل \(N\) فئات إلى مطالبات نصية باستخدام قالب “تخطيط صدى القلب لـ [الفئات].” لتوليد تضمينات النص \(\mathcal{F}(c) \in \mathbb{R}^{N \times D}\). يتم ترميز مقطع الفيديو الداخلي من خلال مشفر الفيديو الأساسي لتضمين تضمين الفيديو المحلي المتوسط \(\mathcal{G}(x) \in \mathbb{R}^{T_{i}H_{i}W_{i} \times D} \)، حيث \(i = 1, ..., L\) و \(T_{i}\)، \(H_{i}\)، و \(W_{i}\) هي الإطار والارتفاع والعرض لتضمينات المحلية من الطبقة ال\(i\)-ث و \(D\) يشير إلى بُعد التضمين. ثم نحسب خرائط النقاط مع مواءمة النص والبكسل باستخدام تضمين النص وتضمين الرؤية بواسطة: \[\mathcal{S} = \bar{\mathcal{G}(x)} \bar{\mathcal{F}(c)^{T}}\] حيث يشير الرمز العلوي \(^{-}\) إلى التطبيع على طول بُعد القناة و \(^{T}\) يدل على عملية النقل. يمكن استخدام خريطة النقاط \(\mathcal{S}\) للتجزئة المساعدة بدقة أقل تعرف بخسارة النص-البكسل. نحن نقوم بدمج خريطة نقاط النص-البكسل \(\mathcal{S}\) مع التضمينات المحلية \({f}\) لدمج أولويات النص. استخدمنا فئة الحجرة لمشفر النص دون دمج أي معلومات عن العرض.
بالنظر إلى مدخل ثنائي الأبعاد \(x \in \mathbb{R}^{T \times H \times W \times C}\) و\(\mathfrak{Q}\) هو نموذج محول الرؤية المدرَّب مسبقًا (ViT) لنموذج تقسيم أي شيء (kirillov2023segment)، يتم تقسيم الإطار الأول من الفيديو إلى قطع ثم يتم تضمينها كتضمينات للقطع \(\mathfrak{Q} : \mathbb{R}^{L \times (S^{2} \times C)}\rightarrow \mathbb{R}^{L \times D}\) حيث S تشير إلى حجم القطعة وC تدل على قنوات الإدخال، وD هو بُعد التضمين. يتكون مجمع الأوامر من مفتاحين قابلين للتعلم \(\left \{ (k_1, P_1), (k_2, P_2), ... , (k_M, P_M) \right \}\)، حيث \(k_i \in \mathbb{R ^{D}}\) وقيمة قابلة للتعلم \(\left \{ P_1, P_2, ..., P_M \right \}\)، حيث \(P_i \in \mathbb{R ^{L \times D}}\). في إعداداتنا، يساوي العدد الإجمالي للمدخلات في مجمع الأوامر، المشار إليه بـ \(M\)، عدد العروض مضروبًا في حجم الأمر المحدد مسبقًا المخصص لكل عرض، والذي يُحدد بـ 3. يتم سحب التضمينات المدخلة المستعلم عنها ومفاتيح الأمر لكل عرض نحو بعضها البعض لتعظيم مسافتها الجيبية التمامية في خطوات التدريب، المشار إليها بـ \(\mathcal{L}_{pr}\). نستخدم طبقة التجميع المتوسط العالمي (GAP) على آخر ميزات المشفر للحصول على تمثيل عالمي لمدخل الفيديو الحالي. ثم نستخدم تضمينات النص مع قيم الأمر والتضمين العالمي لتوليد المعاملات لرؤوس تقسيم الحجرة، \(\theta_{N}\). تُستخدم هذه المعاملات في رؤوس فك تشفير الفيديو وتوليد تنبؤ ثنائي لـ \({N}\) الفئات (tian2020conditional). يسهل هذا التصميم الأمر المحايد للعرض والحفاظ على معلومات العرض أثناء وقت الاختبار.
في مشكلتنا، توزعت التسميات بشكل شديد الندرة عبر الإطارات، وهو ما يختلف عن الأعمال السابقة (liu2023clip). في هذا العمل، قمنا بتصميم تقنية الانتشار العكسي المقنع للفيديو لمعالجة مشكلة التسميات الجزئية. على وجه التحديد، قمنا بتغطية الإطارات التي لا تحتوي على تسمية للفئة ونقوم فقط بالانتشار العكسي للخسارة لتحديث المعاملات في شبكتنا. بهذه الطريقة، يمكننا استغلال مشكلة التسميات النادرة وإجراء تجزئة دقيقة في الفيديو مع مجموعة بيانات مسماة جزئيًا.
هدفنا هو تحقيق التجزئة من خلال تقليل مصطلحي خسارة بما في ذلك خسارة مطابقة الأوامر وخسارة التجزئة مع التراجع المقنع من خلال تحسين الدالة الخسارة التالية: \[\mathcal{L}_{\text{seg}} = \lambda_{1}\mathcal{L}_{\text{pixel-text}} + \lambda_{2}\mathcal{L}_{\text{BCE}} , \quad \mathcal{L}_{\text{pr}} = < \mathfrak {Q} (X_{i0}), P_{key} >\] \[\mathcal{L}_{\text{total}} = (1 - \lambda(t)) \mathcal{L}_{\text{seg}} - \lambda(t) \mathcal{L}_{\text{pr}}\] حيث \(\mathcal{L}_{seg}\) تشير إلى خسارة التجزئة التي تجمع بين خسارتين مختلفتين، \(\mathcal{L}_{pixel-text}\) تمثل خسارة CE مع خرائط النتائج، و\(\mathcal{L}_{BCE}\) تمثل خسارة الانتروبيا المتقاطعة الثنائية، على التوالي. طوال التجارب، يتم تعيين \(\lambda_{1}\) و\(\lambda_{2}\) بالتساوي. \(\mathcal{L}_{pr}\) تشير إلى التشابه الجيبي التمامي بين الإدخال المستعلم ومفاتيح الأوامر المعينة حسب أنواع العرض خلال خطوات التدريب. \(\lambda\) يتم جدولتها بواسطة الدالة الغاوسية المعتمدة على الوقت \(\lambda(t) = \exp^ {-5(1 - t / t_{max})^2}\) حيث t هو التكرار الحالي و \(t_{max}\) هو التكرار الأقصى. نظرًا لأن مفاتيح الأوامر لدينا تتقارب في المرحلة المبكرة، نقوم بتقليل الأوزان على خسارة مطابقة الأوامر خلال هذه المرحلة الأولية.
المَوادّ. قمنا بتقييم الطريقة المقترحة باستخدام ثلاث مجموعات بيانات متاحة للعُموم (leclerc2019deep)(reddy2023video)(ouyang2020video). تتكون هذه المجموعات من بيانات مسح ثنائية الأبعاد B-mode مُشخَّصة لحجرات القلب المختلفة في نهاية الانبساط (ED) ونهاية الانقباض (ES). تشمل التشخيصات البطين الأيسر البطاني (LV\(_{\text{endo}}\)) والبطين الأيسر الظِهاري (LV\(_{\text{epi}}\)) في زوايا نظر ذات الحجرتين القميتين (A2C)، والأربع حجرات القميتين (A4C)، والمحور القصير الجانبي (PSAX). اتبعنا مجموعة مقسمة محددة مسبقًا كما هو موضح في الجدول [tab1].
التنفيذ ومقياس التقييم لضمان مقارنة عادلة في جميع التجارب، قمنا بتوحيد إعدادات التدريب والاختبار. أُجريت التجارب باستخدام PyTorch، مع حجم دفعة ثابت قدره 5 على مدى 100 دورة باستخدام Nvidia A100. استخدمنا هندسة Unet كعمود فقري لدمج مكوناتنا الرئيسية. للتحسين، استخدمنا محسن MADGRAD (defazio2022adaptivity)، مع تعيين معدل التعلم إلى 1e-4. يتم تغيير حجم الصور إلى 224\(\times\)224 بكسل مع 16 إطارًا وتطبيعها لضمان متوسط صفري وتباين وحدة. لزيادة متانة نموذجنا، نطبق تقنيات تعزيز مختلفة، بما في ذلك القلب العشوائي، والدوران ضمن نطاق \(-\)30 إلى +30، والقص على طول أبعاد x-y. نستخدم معامل تشابه دايس (DSC) لتقييم أداء نموذجنا. قارنا طريقتنا عبر ثلاث زوايا نظر مسح: A4C، A2C، وPSAX. تم اختيار زوايا النظر هذه بناءً على مجموعة الصدى المتاحة حاليًا. تم تقييم أداء النماذج في مراحل القلب ED وES، حيث كانت التشخيصات متاحة.
دراسة المقارنة نقدم أداء الطريقة المقترحة لتجزئة القلب عبر زوايا نظر مسح مختلفة. حسب علمنا، طريقتنا هي النهج الأول القادر على أداء تجزئة القلب مع إدخال غير محدد بالنظر يمكنه أداء التجزئة الشاملة. قارنّا طريقتنا المقترحة في إعدادين مختلفين: 1) تدريب واختبار على نفس الزوايا المعروفة بنهج نموذج محدد بالنظر، و 2) تدريب على جميع الزوايا واختبار على جميع الزوايا المعروفة بنهج نموذج متكامل بالنظر. اخترنا طريقتين، SwinUNETR (hatamizadeh2021swin) و U-transformer (petit2021u) لنموذج التجزئة الأساسي بناءً على دراسة سابقة (kim2023medivista). كما نقارن أداء الطريقة المقترحة مقابل النماذج العالمية، بما في ذلك DoDNet (reddy2023video), النموذج العالمي المدفوع بـ CLIP (liu2023clip), UniSeg (ye2023uniseg), و UniverSeg (butoi2023universeg) لمهام تجزئة القلب على ثلاث مجموعات بيانات. يستبدل النموذج العالمي المدفوع بـ CLIP التضمينات الثنائية الحارة (zhang2021dodnet) بتضمينات نص CLIP. يستخدم UniSeg مطالبة قابلة للتعلم لتوليد تضمينات محددة بالمهمة. بالإضافة إلى ذلك، تشمل مقارنتنا نموذج تجزئة عالمي قائم على عدد قليل من الأمثلة يُسمى UniverSeg (butoi2023universeg).
كما هو موضح في الجدول [table2]، تُظهر طريقتنا القدرة على توليد نتائج تجزئة ممتازة حتى مع إدخال غير محدد بالنظر، كما هو موضح في الشكل [figure2]. مقارنة بالنماذج الأساسية مع نهج متكامل بالنظر، يُظهر نموذجنا أداءً أفضل مقارنة بنموذج U-transformer المحدد بالنظر باستثناء LV\(_{endo}\) (93.2 مقابل 93.3) و LV\(_{epi}\) (88.3 مقابل 88.5) في A2C وA4C، على التوالي. علاوة على ذلك، من خلال دمج المطالبات لدمج معلومات العرض بشكل تكيفي، يتفوق نموذجنا على جميع النماذج العالمية في تحديد مناطق الاهتمام (ROI) عبر جميع الزوايا. نظرًا لأن نموذجنا يتكيف مع المطالبات لمطابقة أنواع العرض المدخلة، مما يؤدي إلى تحسين نتائج التجزئة وتحسين الأداء. علاوة على ذلك، يُحسّن نموذجنا أداء التجزئة المتوسط مقارنة بتوظيف طريقة تجزئة قائمة على عدد قليل من الأمثلة (89.64 مقابل 81.7). تُظهر هذه النتائج التجريبية أن نهجنا يستفيد بشكل فعال من المطالبات المتكيفة لإنتاج نتائج تجزئة متفوقة.
دراسة الاستئصال لتقييم فعالية كل مكون، أجرينا دراسة استئصال لتقدير تأثير العناصر المختلفة في نموذجنا على أداء التجزئة. أولًا، قمنا بتقييم مقاييس الأداء بدون مسار مشفر النص، ثم مع مسار مشفر النص باستخدام تصاميم مختلفة بما في ذلك الترميز الثنائي الحار، بالإضافة إلى الاستفادة من المعرفة السابقة من نماذج اللغة بما في ذلك CLIP وClinicalBert. في غياب مسار مشفر النص، الذي يزيل مواءمة النص-البكسل للخسارة المساعدة، لاحظنا تدهورًا في الأداء (89.6 إلى 85.6) مما يُظهر أن مواءمة النص-البكسل حاسمة لنموذجنا. بالإضافة إلى ذلك، قارنّا أنواع مختلفة من مشفرات النص المدرَّبة على النصوص الطبيعية والطبية. تشير النتائج إلى أن نموذج اللغة CLIP ليس فعالًا في تمثيل النص الطبي مقارنة بـ ClinicalBert (88.8 مقابل 89.6). ثانيًا، قمنا بتقييم أداء التصنيف بناءً على مفاتيح المطالبة المختارة. فحصنا مفاتيح المطالبة المعينة مع التصويت بالأغلبية المحدد بواسطة \(\arg\max_{G \in {A, B, C}} \sum_{i=1}^{3} \mathbb{I}(x_i \in G)\). يتم تقديم تصور T-SNE (van2008visualizing) في الشكل [figure3]. لاحظنا أن الدقة للتمييز بين زوايا النظر القمية والجانبية كانت 0.96. ومع ذلك، كانت الدقة للتمييز بين A2C وA4C على التوالي 0.54 و0.6. ثانيًا، هناك تباين بين فئات العرض المشخَّصة بواسطة القراء البشريين بسبب زوايا المسح الغامضة بين A2C وA4C. في الواقع، غالبًا ما يفشل المسبار، الموجه بالتلاعب اليدوي، في التقاط زوايا A2C وA4C بدقة عند تدويرها من موضع واحد. هذا واضح في الجدول [table4]، حيث أدى توفير معلومات العرض بدلًا من اختيار المفاتيح من مجموعة المطالبات إلى أداء نموذج بمعدل 89.4، وهو أقل من الأداء الذي تم تحقيقه بمعدل 89.6 عندما لم تُقدَّم معلومات العرض.
بِدُونِ | 89.6 |
---|
[table4]
في هذه الدراسة، نقدم نموذج تجزئة صدى القلب الشامل المبتكر الذي يعمل بالمطالبات والقادر على تعلم تجزئة القلب عبر مختلف الزوايا القياسية باستخدام بيانات موسومة جزئيًا. يدمج هذا النموذج معرفة نماذج اللغة المدرَّبة مسبقًا من خلال مواءمة تمثيل النص مع بيانات البكسل البصرية. نقترح أيضًا تقنية مطابقة المطالبات من خلال مجموعة مطالبات لتحقيق تجزئة صدى القلب التي لا تعتمد على الزاوية. استُخدمت أبحاثنا ثلاث زوايا قياسية لإظهار إمكانية تطبيق نموذجنا المقترح، مما يبرز إمكانيته للتوسع إلى زوايا قياسية إضافية لإنشاء نموذج عالمي لتجزئة صدى القلب. تُبسّط هذه الطريقة العملية من خلال القضاء على الحاجة لخطوة منفصلة لتحديد الزوايا، مما يقلل من التباين الذي يدخله البشر عند اختيار الزوايا للتحليل في دراسة المريض. أظهرت التجارب الموسعة على معيار تجزئة صدى القلب عبر مختلف زوايا المسح أن نهجنا لا يؤدي بشكل أفضل فحسب، بل يثبت أيضًا أنه فعال للغاية.