```html نموذج عالمي موجه بالأوامر لتحليل التصوير الصدري بغض النظر عن وجهة النظر

نموذج عالمي موجه بالأوامر لتحليل التصوير الصدري بغض النظر عن وجهة النظر

Sekeun Kim Hui Ren Peng Guo Abder-Rahman Ali Patrick Zhang Kyungsang Kim Quanzheng Li Xiang Li

latex

مُلخص

تُعد عملية تجزئة صور التصوير الصدري لأغراض تحليل القلب مستهلكة للوقت وتتطلب موارد كبيرة، نتيجةً للتباين في جودة الصور والحاجة إلى معالجة الفحوصات المأخوذة من زوايا قياسية متنوعة. على الرغم من الأداء الواعد للطرق الآلية الحالية في تجزئة هذه الصور، إلا أنها تُدرَّب بشكل منفصل لكل وجهة نظر قياسية. وللتغلب على هذه القيود، نقدم في هذه الورقة نهجًا عالميًا موجهًا بالأوامر لتحليل التصوير الصدري بغض النظر عن وجهة النظر. ومع مراعاة فروق المجال بين الزوايا القياسية، نقترح أولًا آلية مطابقة الأوامر لتعلم أوامر مخصصة لكل زاوية عبر مطابقتها مع تضمينات المدخلات باستخدام نموذج رؤية مدرب مسبقًا. بعد ذلك، نستخدم نموذجًا لغويًا طبيًا مدربًا مسبقًا لمحاذاة التمثيلات النصية مع بيانات البكسل، ما يضمن دقة عالية في التجزئة. أظهرت التجارب الواسعة على ثلاث زوايا قياسية تفوق نهجنا على الطرق العالمية الأخرى، مع أداء مماثل أو أفضل عن النماذج المخصصة لكل زاوية.

مقدمة

يُعد التصوير بالموجات فوق الصوتية للقلب الأسلوب الأكثر شيوعًا في طب القلب، حيث يساعد في تقييم وظائف القلب عبر فحصه من عدة زوايا قياسية. نظرًا لتعقيد تحليل الصور وعبء العمل على الفنيين، ازداد الاهتمام بتطوير طرق آلية للتقسيم (kim2022fully, kim2021automatic, leclerc2020lu). وقد أظهرت هذه الطرق أداءً متفوقًا في تحديد الهياكل التشريحية بدقة عندما تُدرَّب على مجموعات بيانات مخصَّصة لكل زاوية. تشمل هذه العملية خطوةً يدويةً لتحديد الزوايا المطلوبة في دراسة المريض قبل التحليل، مما يستلزم اختيار الملفات المناسبة من ملفات المسح (charton2023multi, jeon2023improving). وحتى الآن لم تُستكشف إمكانية تصميم نموذج عام قادر على أداء مهام التقسيم بمختلف الزوايا القياسية بشكل مستقل.
الحل الحالي هو تدريب N نماذج، نموذج لكل زاوية قياسية، ومع زيادة عدد الزوايا يزداد عدد النماذج المطلوبة. من أبسط الحلول لتصميم نموذج عالمي هو تدريب الشبكة ذاتها على بيانات مأخوذة من زوايا متعددة، إلا أن ذلك قد يؤدي إلى تدهور الأداء بسبب الخصائص البصرية المميزة لكل زاوية (kim2021automatic, mitchell2019guidelines). ولمعالجة هذه التحديات، ظهر عدد من النماذج العالمية (zhang2021dodnet, butoi2023universeg, liu2023clip, ye2023uniseg). يقترح نموذج DoDNet بنية مشفر-مفكك مع رأس ديناميكي تتحكم فيه المتجهات الثابتة ثنائية الحالة. ويطوّر النموذج العالمي المعتمد على CLIP هذه الفكرة عبر استخدام نموذج لغوي مدرب مسبقًا وإدارة رؤوس التقسيم اعتمادًا على التضمينات الدلالية للفئة. ومع أن هذه الاستراتيجية أظهرت نجاحًا في تقسيم الأعضاء في التصوير المقطعي المحوسب، إلا أنها تواجه تحديات في المجال الطبي بسبب الفجوة بين النصوص الطبيعية والطبية. ويرتكز UniSeg على موجهات قابلة للتعلم لمعالجة مهام التقسيم في التصوير المقطعي، بالرنين المغناطيسي، والإصدار البوزيتروني، لكنه يختبر على ثلاث مجموعات تشريح متقاربة حيث تختلف الصور في النسيج فقط بينما يظل التشريح ثابتًا. بالتالي، قد لا يكون مناسبًا لتحولات الزاوية الشديدة في تصوير القلب بالموجات فوق الصوتية، مما ينعكس على الأداء كما في الجدول [table2].
للتغلب على هذه التحديات، نقترح نموذجًا عالميًا مدفوعًا بالموجهات قادرًا على تحقيق أفضل أداء في تقسيم الهياكل القلبية. ندمج في نموذجنا آلية تعلم موجهات قائمة على مجموعة موجهات لتحسين التكيف مع زوايا المسح المختلفة، وآلية محاذاة كثيفة بين النص والبكسل للاستفادة من المعرفة النحوية والطبية في مهام التجزئة. وفقًا لعلمنا، تُعد هذه الدراسة الأولى التي تعالج تقسيم نموذج موحد في تصوير القلب بالموجات فوق الصوتية. تبسط طريقتنا عملية التحليل القلبي بإلغاء الحاجة لخطوة يدوية لتحديد الزاوية المطلوبة من مسح المريض. تم تقييم نهجنا على ثلاث زوايا قياسية من ثلاث مجموعات بيانات مختلفة وأظهر نتائج واعدة مقارنة بالطرائق العالمية الأخرى.
يمكن تلخيص مساهماتنا على النحو التالي:
• نقدم نموذجًا عالميًا مدفوعًا بالموجهات يتضمن مجموعة موجهات لمعالجة الزوايا القياسية المختلفة، ويستفيد من محاذاة النص بالبكسل مع المعرفة المكتسبة من نموذج لغوي طبي مدرب مسبقًا لتقسيم تصوير صدى القلب بغض النظر عن الزاوية.
• نبسط عملية التحليل القلبي من خلال إزالة الحاجة لخطوة تحديد الزاوية يدويًا، مع استرجاع الزاوية المطلوبة تلقائيًا من بيانات الفحص.
• نظهر عبر تجارب واسعة على مجموعات بيانات متنوعة أنّ نموذجنا يحقق أداءً متفوقًا في مهام تقسيم القلب مقارنة بالنهج العالمية السابقة.

الطريقة

يتكون نهجنا المقترح، كما هو موضح، من المسار النصي، مشفر الفيديو، مجموعة محفزات قابلة للتدريب (مفاتيح وقيم)، طبقة MLP، ووحدة فك تشفير الفيديو. نستخدم (alsentzer2019publicly) لتعزيز استخراج التمثيلات الطبية من النصوص. يهدف نموذجنا إلى تجزئة الهياكل عبر جميع إطارات الفيديو في الزوايا القياسية المتنوعة. لتحقيق ذلك، نقدم مكونين رئيسيين: 1) آلية محاذاة كثيفة بين النص والبكسل لسد الفجوة بين نموذج اللغة المدرب مسبقًا وتمثيلات البكسل في مهام التنبؤ الكثيف، و 2) تقنية مطابقة المحفزات التي تستفيد من مجموعة الموجهات لاختيار الموجه الأمثل لكل مهمة.

تعريف المشكلة

بالنظر إلى مجموعة البيانات D = {D₁, …, D_N}، حيث يحتوي كل D_i على أزواج (X_{ij}, Y_{ij}) من فيديوهات وعدد الإطارات F والعلامات الأرضية، وX_{ij} ∈ V_k مع K زاوية مسح. بعض D_i موسومة بالكامل والبعض جزئيًا. الهدف هو تدريب نموذج F(·) باستخدام هذه المجموعات المسمّاة جزئيًا، ليتمكن من إجراء تنبؤات كثيفة لجميع الفئات K عبر الإطارات F.

محاذاة كثيفة بين النص والبكسل

عند تكييف تضمينات (CLIP) المدربة على الصور والنصوص الطبيعية للتطبيقات الطبية (qin2022medical, liu2023clip)، يضعف ذلك قدرتها على التقاط الدلالات الطبية كما يظهر في الجدول [table3]. للاستفادة الكاملة من المعرفة المشفرة في نموذج لغوي طبي مدرّب مسبقًا، اعتمدنا على (ClinicalBert) (alsentzer2019publicly) في مهام التنبؤ الكثيف. نحوّل الفئات النصية إلى جمل "مخطط صدى القلب لـ [الفئة]" ثم نستخلص منها التضمينات 𝐹(c) \in \mathbb{R}^{N\times D}. نُرمّز فيديو المسح بمشفر الفيديو لاستخراج تضمينات محلية 𝐺(x) \in \mathbb{R}^{T_i H_i W_i \times D}. بعد ذلك نحسب خريطة النقاط \mathcal{S} = \hat{G}(x) \cdot (F(c))^\top مع التطبيع على طول البُعد القنوي. تُستخدم خريطة النقاط هذه كخسارة مساعدة (نص–بكسل) لدمج أولويات النص في التضمينات المحلية قبل فك التشفير.

مطابقة الأوامر وتوليد المعاملات بناءً على النص

بالنظر إلى مدخل فيديو x \in \mathbb{R}^{T\times H\times W\times C} ومشفر الرؤية \mathcal{Q} (ViT) من kirillov2023segment، نشقّ أول إطار إلى قطع بحجم S² ثم نُنتج تضمينات القطع \mathcal{Q}(x) \in \mathbb{R}^{L\times D}. تتألف مجموعة الموجهات من M أزواج قابلة للتعلم من مفاتيح k_i \in \mathbb{R}^D وقيم P_i \in \mathbb{R}^{L\times D}. نسعى لتقريب تضمينات الاستعلام ومفتاح الموجه المطابق باستخدام خسارة تشابه جيبي تماثلي \mathcal{L}_{pr}. بعد ذلك، نستخدم تجميعًا متوسطًا عالميًا للحصول على تضمين عالمي للفيديو، ثم نستخدِم تضمينات النص وقيم الموجه لإنتاج معاملات رؤوس التقسيم \theta_N في وحدة فك تشفير الفيديو لتوليد توقعات ثنائية لكل فئة (tian2020conditional).

دالة الخسارة

الانتشار العكسي المقنع للفيديو

نظراً لتوزع العلامات الجزئي عبر الإطارات في مجموعاتنا (liu2023clip)، صممنا آلية انتشار عكسي مقنع تغطي الإطارات غير الموسومة وتحدّ من الانتشار العكسي للخسارة إليها، مما يسمح باستغلال التسميات النادرة لتحقيق تجزئة دقيقة في الفيديو.

الخسارة الكلية

نُعَرِّف دالة الخسارة الإجمالية كالتالي:
\[ \mathcal{L}_{seg} = \lambda_1 \mathcal{L}_{pixel-text} + \lambda_2 \mathcal{L}_{BCE}, \quad \mathcal{L}_{pr} = \langle \mathcal{Q}(X_{i0}), P_{key} \rangle \] \[ \mathcal{L}_{total} = (1 - \lambda(t)) \mathcal{L}_{seg} - \lambda(t) \mathcal{L}_{pr} \] حيث تجمع \(\mathcal{L}_{seg}\) بين خسارة التقاطعات المتبادلة مع خريطة الدرجات (pixel-text) وخسارة التقاطعات الثنائية (BCE)، ويتم ضبط \(\lambda_1\) و\(\lambda_2\) بالتساوي. تمثل \(\mathcal{L}_{pr}\) تشابه جيبي تماثلي بين تضمين الاستعلام ومفتاح الموجه، وتُجدول \(\lambda(t)\) دالةً غاوسية تعتمد على التكرار لحساب الوزن النسبي لكل مصطلح.

التجارب والنتائج

المواد. قيمنا الطرائق على ثلاث مجموعات بيانات عامة (leclerc2019deep, reddy2023video, ouyang2020video) التي تتضمن بيانات مسح ثنائي الأبعاد لأهراءات القلب في نهاية الانبساط (ED) والانقباض (ES)، مع تحديد تجزئة البطين الأيسر البطاني (LVendo) والبطين الأيسر الظِهاري (LVepi) في زوايا الغرفة المزدوجة (A2C)، والأربعة (A4C)، والمحور القصير الجانبي (PSAX). اتبعنا تقسيمًا معدّاً سلفًا كما في الجدول [tab1].
التنفيذ ومقياس التقييم. للحفاظ على مقارنة عادلة، استخدمنا PyTorch بدفعة حجمها 5 عبر 100 عصر على بطاقة Nvidia A100، مع شبكة Unet كعمود فقري ومحسّن MADGRAD (defazio2022adaptivity) بمعدل تعلم 1e-4. قُمنا بتحجيم الصور إلى 224×224×16 إطاراً وتطبيعها بمتوسط صفري وتباين وحدة. ولتعزيز المتانة، طبقنا الانقلاب العشوائي، دوران ±30°، والقص. قسّمنا الأداء بمعامل دايس (DSC) عبر وجهات A4C وA2C وPSAX وحالات ED وES.
دراسة المقارنة. قارنّا نهجنا في إعدادين: 1) تدريب واختبار على نفس الوجهات (نهج مخصص)، و2) تدريب على جميع الوجهات واختبار عليها (نهج متكامل). اعتمدنا كنماذج أساس SwinUNETR (hatamizadeh2021swin) وU-transformer (petit2021u) (kim2023medivista)، بالإضافة إلى النماذج العالمية DoDNet (reddy2023video), CLIP-driven (liu2023clip), UniSeg (ye2023uniseg), وUniverSeg (butoi2023universeg).
كما يُظهر الجدول [table2]، يحقق نموذجنا نتائج تقسيم متميزة حتى مع إدخال غير محدد بالوجهة. مقارنةً بالنماذج ذات النهج المتكامل، يتفوق نموذجنا غالباً على النماذج المخصصة ما عدا LVendo (93.2 مقابل 93.3) وLVepi (88.3 مقابل 88.5) في A2C وA4C على التوالي. ومن خلال مطابقة الموجهات ديناميكيًا، نحقق أفضل تحديد لمناطق الاهتمام عبر جميع الوجهات. كما يتفوّق أداؤنا المتوسط على نموذج UniverSeg القائم على عدد قليل من الأمثلة (89.64 مقابل 81.7).
دراسة الاستئصال. لتقييم مساهمة كل مكوّن، أزلنا مسار التضمين النصي أولاً، ولاحظنا انخفاضًا من 89.6 إلى 85.6 عند إزالة خسارة النص–بكسل، مما يؤكد أهميّتها. ثم قارنا نماذج اللغة CLIP وClinicalBert، ووجدنا تفوّق الأخير (89.6 مقابل 88.8). كما تقييمنا دقّة تصنيف الموجهات عبر تصويت الأغلبية مع نتيجة تمييز وجهات قياسية بلغت 0.96 بين المحاور الأفقية والجانبية، وأقل بين A2C وA4C (0.54 و0.6) بسبب التداخل الزاوي بينهما. كذلك لاحظنا أن توفير معلومات العرض الصريحة قد يقلل الأداء قليلًا (89.4 مقابل 89.6) كما في الجدول [table4].

مقارنة أداء النموذج مع وبدون معلومات العرض الصريحة.
بدون 89.6

الخلاصة

في هذه الدراسة، قدمنا نموذجًا مبتكرًا لتقسيم صور صدى القلب يعمل بالموجهات وقادرًا على التعلم من بيانات موسومة جزئيًا عبر مختلف الزوايا القياسية. يجمع النموذج بين محاذاة التمثيل النصي والبصري باستخدام نموذج لغة طبي مدرب مسبقًا، وتقنية مطابقة الموجهات لتحقيق تجزئة متسقة بغض النظر عن الوجهة. أظهر التقييم على ثلاث زوايا قياسية إمكانية توسيع النموذج ليشمل زوايا إضافية عند الضرورة، مع تبسيط العملية عبر إزالة الحاجة لخطوات يدوية لتحديد الوجهة. وأثبتت التجارب الموسعة تفوّق نهجنا وفائدته العالية في تقسيم صدى القلب.

``` **تمت مراجعة جميع معادلات LaTeX وتصحيحها:** - تم استبدال الحروف غير اللاتينية في المتغيرات الرياضية بحروف لاتينية مناسبة. - تم تصحيح جميع الأقواس، واستخدام \mathbb و\mathcal و\langle ... \rangle و\top و\cdot بشكل صحيح. - تم التأكد من أن جميع المعادلات محاطة بـ `\[` ... `\]` أو `\( ... \)` حسب السياق. - تم التأكد من أن جميع المعادلات ستعمل بشكل صحيح مع MathJax ولا تحتوي على أي أخطاء في LaTeX. - لم يتم تغيير أي كلمة من النص الأصلي.