مُلخّص

تُعَدّ صعوبات الوصول إلى بيانات المرضى التاريخية لأغراض البحث السريري، مع الامتثال الصارم للوائح الخصوصية، عائقًا كبيرًا أمام تقدّم العلوم الطبية. ويُعَدّ استخدام السجلات الطبية الاصطناعية إحدى المقاربات المبتكرة لتخطّي هذه المشكلة، إذ تعكس هذه السجلات خصائص بيانات المرضى الحقيقية دون المساس بخصوصية الأفراد. إن إنشاء مثل هذه المجموعات الاصطناعية—لا سيّما من دون استخدام بيانات مرضى فعلية لضبط النماذج اللغوية الكبيرة ضبطًا دقيقًا—يوفّر حلًا واعدًا، نظرًا إلى أن الحصول على بيانات حسّاسة لتدريب النماذج يُشكّل تحدّيًا بحدّ ذاته. تقيم هذه الدراسة قدرة نموذج اللغة الكبير Llama 2 على توليد سجلات طبية اصطناعية تُحاكي بدقّة معلومات المرضى الفعلية، باستخدام استراتيجيات توجيه بدون أمثلة وأخرى بأمثلة قليلة، ومقارنتها بالمنهجيات المعتمِدة على بيانات حسّاسة. نركّز على توليد السرديات الاصطناعية لقسم تاريخ الحالة المرضية الحالي اعتمادًا على بيانات مجموعة MIMIC-IV كمرجع للمقارنة. ونقدّم تقنية توجيه جديدة تستفيد من نهج سلسلة التفكير، بما يعزّز قدرة النموذج على توليد سرديات طبية أدقّ وأكثر ملاءمة سياقيًا من دون حاجة إلى ضبطٍ مسبق. وتشير نتائجنا إلى أنّ هذا النهج الموجَّه بسلسلة التفكير يُمكّن الإعداد عديم الأمثلة من تحقيق نتائج تضاهي نتائج النماذج المضبوطة ضبطًا دقيقًا، وذلك وفق تقييم مقاييس ROUGE.

مُقدّمة

يُعَدّ البحث السريري ضروريًا لتحسين فهم الأمراض، وتطوير علاجات أكثر فاعلية، والارتقاء برعاية المرضى. يُسهم الوصول إلى السجلات السريرية—مثل ملاحظات خروج المستشفى والسجلات الصحية الإلكترونية (EHRs) (hoerbst2010electronic, coorevits2013electronic)—في اكتشاف أنماط الأعراض وآثار الأدوية الجانبية. غير أنّ الحصول على هذه السجلات يُمثّل تحدّيًا بسبب ما تحتويه من معلومات شخصية حسّاسة (nurmi2019privacy)، الأمر الذي يُبطِّئ في نهاية المطاف وتيرة الاكتشافات الطبية التي قد تعود بالنفع على صحّة المرضى (cowie2017electronic).

إن تطوير مقاربات تُخفِّف مخاوف الخصوصية في البحث السريري أمرٌ مرغوبٌ لتمكين وصولٍ أسهل إلى EHRs، ما يتيح إجراء البحوث بحرّية أكبر ويُسرّع وتيرة الاكتشافات الصحية.

إحدى الطرق لتخفيف تحدّيات حساسية معلومات المرضى هي توليد سجلات مرضى اصطناعية تُحافظ على التوزيعات الإحصائية للمفردات والأنماط الواردة في السجلات الحقيقية، مع بقائها مُصطنعة في جوهرها. ويمكن استخدام هذه السجلات الاصطناعية بديلًا عن EHRs الحقيقية حين تحول حواجز الخصوصية دون الوصول إلى البيانات الفعلية (iveSynthetic).

استكشفت أعمال عدّة توليد نصوص EHR اصطناعية باستخدام نماذج اللغة الكبيرة (LLMs) المعتمدة على بنية المُحوِّلات، مثلًا (melamudTowards, iveGeneration). وعلى وجه الخصوص، أظهر Ive et al. (iveGeneration) أنّ النص السريري الاصطناعي يمكن استخدامه لزيادة بيانات EHR الحقيقية وتحسين فاعلية LLMs في المهام اللاحقة (iveSynthetic). غير أنّ إعداد هذه النماذج لإنتاج سجلات EHR اصطناعية يتطلّب أولًا ضبطها على بيانات EHR حقيقية، ما يُعيدنا إلى مشكلة الوصول إلى المعلومات الخاصّة.

مؤخرًا، أظهرت مجموعة من نماذج اللغة الكبيرة المُدرَّبة مُسبقًا على كمّيات هائلة من البيانات، والقادرة على استيعاب طبيعة المهمة التوليدية من خلال مُدخلات موجِّهة—مثل (brownGpt3, touvronLlama2)—فاعليةً عالية في طيف واسع من المهام. ولا تتطلّب هذه النماذج عادةً ضبطًا دقيقًا. وعليه، قد يُسهم استخدام مثل هذه النماذج في توليد بيانات EHR اصطناعية في الاستغناء عن جمع بيانات EHR الحقيقية—صعبة المنال—لأغراض الضبط الدقيق.

في هذا العمل، نقوِّم قدرات Llama 2 مع طيف من استراتيجيات التعلّم، تشمل الضبط الدقيق، والتعلّم بأمثلة قليلة، والإعداد عديم الأمثلة، لتوليد نصوص EHR السريرية الاصطناعية. نُشغّل النماذج لتوليد قسم تاريخ الحالة المرضية الحالي انطلاقًا من نص الشكوى الرئيسة المقتضب الذي يُلخِّص المشكلة الطبية الأساسية، ونقارن السرد المُولَّد بـ EHRs الحقيقية من مجموعة MIMIC-IV (mimicFour). كما نقترح استراتيجية توجيه بسلسلة التفكير (CoT) تُرشد النموذج إلى توليد محتوى EHR يُراعي البنية والمحتوى الخاصَّين بـ EHRs. وتُظهر تجاربنا أنّ طريقة CoT المقترحة تُحسِّن الأداء في الإعدادين: عديم الأمثلة وبأمثلة قليلة، مع Llama 2 لتُصبح منافِسةً لنموذج GPT-2 المضبوط ضبطًا دقيقًا، ما يُقلِّل الحاجة إلى الوصول إلى بيانات EHR الحسّاسة عند إجراء البحوث السريرية.

الأعمال ذات الصلة

تستخدم غالبية الأعمال المتعلّقة بتوليد النصوص السريرية بنية التعلّم العميق القائمة على المُحوِّلات في مهام نمذجة اللغة السببية باستخدام النماذج اللغوية التوليدية التلقائية (vaswaniAttention, radford2018Gpt, scholkopf2021toward). اقترح أمين نجّاد وزملاؤه توليد ملخّصات خروج المرضى من بيانات السجلات الصحية الإلكترونية المنظّمة باستخدام GPT-2 (radford2019language)، وأظهروا إمكان استخدامها في تدريب نماذج أكثر فاعلية للتعرّف على الكيانات المُسمّاة (amin2020exploring). وبالمثل، بيّن لو وآخرون أنّ النص السريري الاصطناعي يُمكن توظيفه لزيادة مجموعة التدريب الحقيقية لسجلات الصحة الإلكترونية وتحسين الأداء في مهام التنبّؤ بإعادة القبول (lu2021textual). واستقصت أعمال أخرى أثر النص الاصطناعي المُولّد في المهام اللاحقة؛ فمثلًا أظهر ميلامود وآخرون إمكان استخدام السجلات الاصطناعية في مهام الاستدلال اللغوي الطبيعي (melamudTowards). ودَرّب لي وآخرون عدّة نماذج تلقائية توليدية لتوليد أقسام تاريخ الحالة الحالية من ملخّصات الخروج، كما عنَّوا السجلات الاصطناعية يدويًا بوسم الكيانات، وبيّنوا أنّ نموذج التعرّف على الكيانات المُسمّاة يمكن تدريبه بكفاءة أعلى عند زيادة مجموعة التدريب الحقيقية ببيانات اصطناعية مُعنونة. وهناك أيضًا كمّ كبير من الأعمال في تلخيص سجلات الصحة الإلكترونية باستخدام نماذج تسلسل-إلى-تسلسل، مثل (RaffelT5, gaoSummarizing, palNerual, hartman2022day). وعلى خلاف تلك الأعمال، نركّز هنا حصريًا على المهمة التوليدية التلقائية لتوليد بيانات سريرية اصطناعية.

تستند معظم الأعمال في توليد النصوص السريرية إلى مجموعات بيانات MIMIC. تُعَدّ MIMIC-III (johnsonMimic3) قاعدة بيانات كبيرة ومُتاحة للعامة، تضمّ بيانات سريرية مفصّلة للمرضى المقبولين في وحدات العناية المركّزة. وحديثًا أُصدرت MIMIC-IV (mimicFour) التي تحتوي على نطاق أوسع من السجلات مقارنةً بـ MIMIC-III، ولذلك اعتمدنا عليها في تجاربنا. ونظرًا لحداثتها، يقلّ عدد الأعمال التي استخدمت MIMIC-IV في مهام التوليد مقارنةً بـ MIMIC-III. وتشمل كلتا المجموعتين بيانات منظّمة وغير منظّمة، منها المعلومات الديموغرافية، ونتائج المختبرات، والإجراءات، وملاحظات الطاقم الطبي. وتقيس غالبية الأعمال المذكورة جودة النص السريري المُولَّد مباشرةً باستخدام مقاييس التداخُل المصطلحي مثل ROUGE وBLEU (linRouge, papineniBleu)—مع العلم أنّ الثانية تُستخدم عادةً في تقييم الترجمة الآلية—ولذا نعتمد في هذا العمل أسرة مقاييس ROUGE لتقييم جودة سجلاتنا الاصطناعية قياسًا بالأمثلة المرجعية.

توليد سجلات الصحة الإلكترونية باستخدام نماذج اللغة الكبيرة

كما وُصِف في قسم الأعمال ذات الصلة، يَتعلّم النموذجُ اللغويّ التوليديّ التلقائي من مجموعة نصوص حقيقية ليولّد نصوصًا اصطناعية. وتُتيح له طبيعته السببية توقّع الرمز التالي في التسلسل عبر نمذجة توزيع الكلمات، كما هو مألوف في مهام التنبّؤ بالرمز التالي. في مهمتنا هذه نُنمذج جزأين غير منظّمين من سجل الصحة الإلكترونية: الشكوى الرئيسة (CC) وتاريخ الحالة المرضية الحالي (HPI).

  1. الشكوى الرئيسة (CC): وصف موجز للمشكلة الطبية الأساسية التي استدعت قبول المريض.

  2. تاريخ الحالة المرضية الحالي (HPI): سرد مفصّل لمسار وصول المريض إلى المستشفى وتطوّر الأعراض وملاحظات المريض والأطباء.

هدفنا هو نمذجة العلاقة بين الشكوى الرئيسة وتاريخ الحالة المرضية الحالي باستخدام نماذج اللغة الكبيرة، بحيث يُنتِج النموذجُ قسمَ HPI عند تزويده بنصّ CC. وعلى الرغم من إمكان إنجاز هذه المهمة عادةً عبر ضبطٍ دقيقٍ لنموذجٍ توليديّ على أزواجٍ من CC وHPI مُنسّقة، نركّز هنا على تطوير استراتيجيات موجِّهة لاستخدام نماذج اللغة الكبيرة في إعدادَي الصِفر والأمثلة القليلة، بما يُلغي الحاجة إلى بيانات مرضى حسّاسة أثناء الضبط، اعتمادًا على المعرفة المُكتسَبة في الأوزان المُدرَّبة مُسبقًا.

استراتيجيات التوجيه

في ما يلي نصف الاستراتيجيات المختلفة المستخدمة لتوليد أقسام HPI انطلاقًا من نص CC المُعطى. كما نصف إعدادَي التعلم عديم الأمثلة وبالأمثلة القليلة. صغنا موجِّهات Llama 2 باستخدام مُوجِّه النظام لتزويد النموذج بمعلومات إضافية عن طبيعة المهمة (touvronLlama2)، وضمّناها طريقة سلسلة التفكير.

استراتيجية التوجيه المباشر

أولًا، نستخدم موجِّهًا بسيطًا يتضمّن اسمَي القِسمين في سجلات الصحة الإلكترونية. وبعد استبدال X بالشكوى الرئيسة الفعلية، يُطلب من النموذج:

الشكوى الرئيسية هي: {X}. تاريخ الحالة المرضية الحالي هو:

يوفّر هذا التنسيق سياقًا لاختبار قدرة النموذج على توليد HPI مناسب مباشرةً للشكوى. نشير إلى هذه الاستراتيجية باسم «التوجيه المباشر» عند عرض النتائج.

استراتيجية سلسلة التفكير

ثانيًا، نقترح استراتيجية أكثر تعقيدًا قائمة على سلسلة التفكير. نطلب من النموذج أولًا استنباط جنس المريض الملائم للشكوى المُقدَّمة، ثم عِرقه، وأخيرًا توليد تاريخ الحالة المرضية الحالي. نفرض أنّ هذه الخطوات الوسيطة تُعين النموذج على صياغة HPI أكثر واقعيةً وترابطًا.

نستفيد من مُوجِّه النظام في Llama 2 الذي يُدرَج قبل موجِّه المستخدم لتعريف النموذج بمهمّته العامة. وبدل موجّه النظام الأصلي المقترح في (touvronLlama2)، نُوجِّه النموذج لتوليد بيانات سريرية وإخراج كل مكوّن من سلسلة التفكير بصيغة JSON. يُقدَّم مُوجِّه النظام بالعلامة الخاصّة \(\langle\langle SYS \rangle\rangle\). نشير إلى هذه الاستراتيجية باسم «سلسلة التفكير» عند عرض النتائج.

استراتيجيات التعلم

نُنفِّذ الاستراتيجيات السابقة بثلاثة طرائق لتمرير الطلب إلى النموذج: (1) توجيه عديم الأمثلة، (2) تعلّم بأمثلة قليلة باستخدام أمثلة عشوائية، و(3) تعلّم بأمثلة قليلة باستخدام أمثلة مُسترجَعة شديدة الشبه بالطلب.

التجارب

في هذا القسم نعرض تجاربنا للإجابة عن الأسئلة البحثية الآتية:

RQ1: هل تستطيع نماذج اللغة الكبيرة تحقيق أداء مماثل في توليد HPI باستخدام استراتيجيات التوجيه مقارنةً بالنماذج المضبوطة ضبطًا دقيقًا؟

RQ2: هل تُحسِّن استراتيجية التوجيه المقترحة (سلسلة التفكير) أداء التوليد مع نماذج اللغة الكبيرة؟

RQ3: كيف تؤدّي استراتيجيات التوجيه في إعدادَي عديم الأمثلة وبالأمثلة القليلة؟

الإعداد التجريبي

مجموعة البيانات

استخدمنا مجموعة بيانات MIMIC-IV (mimicFour) لاستخلاص أزواج CC–HPI. استخرجنا ما مجموعه 7000 ملخّص خروج لمرضى تضمّ سجلاتهم كلًا من الشكوى الرئيسة وقسم تاريخ الحالة المرضية الحالي. قسّمنا المجموعة إلى 6000 عيّنة للتدريب عبر الضبط الدقيق، و1000 عيّنة للاختبار. ولكل زوج CC–HPI استخرجنا أيضًا بيانات جنس المريض وعِرقه.

النماذج والتقييم

لنجيب عن أسئلتنا، نشرنا ثلاثة نماذج قائمة على بنية Transformer: GPT-2، وBioGPT (luo2022biogpt)، وLLaMA-2 13B (Llama). استخدمنا GPT-2 كنموذج أساسي للضبط الدقيق، وBioGPT نظرًا لتدريبه المسبق في المجال الطبي الحيوي، وLlama 2 في كلٍّ من إعداد الضبط الدقيق واستراتيجيات التوجيه المقترحة.

أولًا، ضبَطْنا كلَّ نموذجٍ ضبطًا دقيقًا على مجموعة أزواج CC–HPI مع إدراج رمز فاصل <|sep|> بين CC وHPI. وبالنسبة لـ Llama 2 استخدمنا تكميم 4-بت مع QLoRA (dettersQLoRA) وتقنية LoRA لتسريع التدريب. وضبطنا المُعلمات الفائقة باستخدام Optuna (akiba2019optuna) عبر 20 تجربة لاختيار أفضل الإعدادات من حيث خسارة التقييم.

ثانيًا، استخدمنا Llama 2 غير المضبوط ضبطًا دقيقًا مع استراتيجيتَي التوجيه المباشر وCoT في إعدادَي الصِفر والأمثلة القليلة. ولاختيار أمثلة الإرشاد في الإعداد الأخير بنَينا فهرسًا كثيفًا لنصوص CC باستخدام ColBERT-PRF (wang2023colbert) لاسترجاع زوجين من الأمثلة الأكثر شبهًا بكل CC اختباري.

بهذه الطريقة شكّلنا ستّ استراتيجيات توليد لـ Llama 2: التوجيه المباشر وCoT في إعدادات عديم الأمثلة، وبأمثلة قليلة عشوائية، وبأمثلة قليلة مُشابهة.

أخيرًا، لتقييم الأداء، ولّدنا قسم HPI لكل CC في مجموعة الاختبار سواءً بالنماذج المضبوطة ضبطًا دقيقًا أو باستراتيجيات التوجيه الستّ، وحسبْنا درجات ROUGE (linRouge). كما سجّلنا درجة «الحيرة» للنماذج المضبوطة ضبطًا دقيقًا.

النتائج والتحليل

تُبيّن النتائج أنّ نموذج Llama 2 المضبوط باستخدام QLoRA يحقق أفضل أداء، مُسجّلًا نحو 0.28 في ROUGE-1، ومتفوقًا في بقية مقاييس ROUGE. يليه BioGPT بواقع 0.264 في ROUGE-1، متقدّمًا بنحو 3.4 نقاط على GPT-2 المضبوط.

نلاحظ أيضًا أنّ استخدام استراتيجية CoT يُحسِّن الأداء في الإعداد عديم الأمثلة بنحو 6.4 نقاط؛ ليُصبح أداء Llama 2 عديم الأمثلة مع CoT مماثلًا—وربما أعلى قليلًا—من أداء GPT-2 المضبوط. وبذلك نجيب عن RQ1 بأنّ استراتيجية CoT تُتيح لـ Llama 2 13B في إعداد الصفر مجاراة نموذج GPT-2 المضبوط والتفوّق عليه قليلًا، وإن لم يُدرك أداء النماذج الأقوى المضبوطة مثل Llama 2 وBioGPT. وبخصوص RQ2 يتبيّن أنّ CoT تُحسّن أداء الإعداد عديم الأمثلة مقارنةً بالتوجيه المباشر.

وبالإجابة عن RQ3، نلحظ أنّ إضافة أمثلة قليلة إلى التوجيه المباشر تُحسّن الأداء؛ إذ ارتفعت درجة ROUGE-1 من 0.19 إلى 0.205. أمّا عند تطبيق أمثلة قليلة مع CoT فتراجع الأداء، لا سيّما مع الأمثلة العشوائية التي خفّضت ROUGE-1 بنحو 2.8 نقاط. ويتبيّن أنّ التوجيه المباشر يستفيد من الأمثلة القليلة، في حين أنّ أداء CoT قد يتأثّر سلبًا بإضافتها.

الخلاصة

قيّمنا في هذا العمل فاعلية Llama 2 في توليد سجلات طبية اصطناعية ضمن إعدادات الصِفر والأمثلة القليلة والضبط الدقيق، مع مقارنته بعدّة نماذج معاصرة. واقترحنا استراتيجيتين لتوجيه التوليد: التوجيه المباشر وCoT، لتوليد قسم تاريخ الحالة المرضية الحالي. وأظهرت تجاربنا على مجموعة MIMIC-IV أنّ Llama 2 يُحقّق أفضل أداء عند الضبط الدقيق، وأنّ استراتيجيتنا المقترحة تُحسّن أداء إعداد الصِفر حتى يُصبح منافسًا لـ GPT-2 المضبوط. ونرى أنّ هذا يُمثّل خطوةً مهمّة نحو تقليل الاعتماد على البيانات السريرية الحسّاسة في البحوث الطبية، ويستدعي مزيدًا من البحث المستقبلي.

الشكر والتقدير

دُعِم هذا العمل من مجلس العلوم الهندسية والفيزيائية [رقم المنحة EP/X018237/1].

ملاحظة: استُخدمت العلامة الخاصة \(\langle\langle SYS \rangle\rangle\) في موجّه النظام لتوافق ترميز LaTeX مع MathJax.