مُلخّص
تُعد تحديات الوصول إلى بيانات المرضى التاريخية للبحث السريري، مع الالتزام بلوائح الخصوصية، عقبة كبيرة في العلوم الطبية. يتمثل أحد الأساليب المبتكرة للتغلب على هذه المشكلة في استخدام السجلات الطبية الاصطناعية التي تعكس بيانات المرضى الحقيقية دون المساس بخصوصية الأفراد. يوفر إنشاء هذه مجموعات البيانات الاصطناعية، ولا سيما دون استخدام بيانات المرضى الفعلية لتدريب النماذج اللغوية الكبيرة، حلاً جديدًا، نظرًا لأن الحصول على معلومات المرضى الحساسة لتدريب النماذج يُعد تحديًا بذاته. تقيم هذه الدراسة قدرة نموذج اللغة الكبير Llama 2 على إنشاء سجلات طبية اصطناعية تعكس بدقة معلومات المرضى الحقيقيين، باستخدام استراتيجيات التوجيه بدون أمثلة وأخرى بعدد قليل من الأمثلة، وذلك للمقارنة مع المنهجيات المعتمدة على بيانات المرضى الحساسة. نركز على توليد السرديات الاصطناعية لقسم تاريخ الحالة المرضية الحالي باستخدام بيانات من مجموعة MIMIC-IV كمرجع للمقارنة. في هذا العمل، نقدم تقنية توجيه جديدة تستفيد من نهج سلسلة التفكير، مما يعزز قدرة النموذج على توليد سرديات طبية أكثر دقة وملاءمة سياقية دون الحاجة لتدريب مسبق. تشير نتائجنا إلى أن هذا النهج الموجه بسلسلة التفكير يتيح للنموذج بدون أمثلة تحقيق نتائج تضاهي تلك الخاصة بالنماذج المدربة مسبقًا، استنادًا إلى تقييم مقاييس Rouge.
مُقدّمة
Clinical research أمر ضروري لتحسين فهم الأمراض، وتطوير علاجات جديدة وأكثر فعالية، وتحسين رعاية المرضى. الوصول إلى السجلات الطبية السريرية، مثل ملاحظات خروج المستشفى والسجلات الصحية الإلكترونية (EHRs) (hoerbst2010electronic, coorevits2013electronic) يمكن أن يساعد هذا البحث في تحديد أنماط الأعراض وآثار الأدوية الجانبية. الحصول على هذه السجلات يمثل تحديًا، بسبب المعلومات الشخصية الحساسة التي تحتوي عليها (nurmi2019privacy). هذه التحديات تبطئ في نهاية المطاف تقدم الاكتشافات الطبية الجديدة التي (could benefit patient health) (cowie2017electronic).
Developing approaches that can تساهم في تخفيف مخاوف الخصوصية في مجال البحث السريري، وهو أمر مرغوب فيه لتمكين وصول أسهل إلى EHRs، مما يتيح إجراء البحوث بحرية أكبر ويؤدي إلى اكتشافات أسرع في المجالات الصحية.
إحدى الطرق التي يمكنها التخفيف من التحديات المرتبطة بحساسية معلومات المرضى هي توليد سجلات مرضى اصطناعية تتسم بنفس التوزيع الإحصائي للمصطلحات الواردة في السجلات الطبية الحقيقية، لكنها تظل مزيفةً في جوهرها. يمكن بعد ذلك استخدام هذه السجلات الاصطناعية كبديل لـ EHRs الحقيقية عند منع حواجز الخصوصية الوصول إلى البيانات الحقيقية (iveSynthetic).
تم استكشاف عدة أعمال لتوليد نص EHR اصطناعي باستخدام Large Language Models المعتمدة على المحولات (LLMs)، على سبيل المثال (melamudTowards, iveGeneration). على وجه الخصوص، أظهر Ive et al. (iveGeneration) أن النص السريري الاصطناعي يمكن استخدامه لزيادة بيانات EHR الحقيقية وتحسين فعالية LLMs في المهام اللاحقة (iveSynthetic). However, to prepare these models to produce synthetic EHRs, they first need to be trained on real EHR data, which brings us back to the initial issue of accessing private EHR information.
recently, a number of LLMs, that are pre-trained using large volumes of data and that leverage prompt inputs to discern the nature of the generative task, e.g. (brownGpt3, touvronLlama2) قد أظهرت أنها فعالة for a مجموعة واسعة من المهام. هذه النماذج لا تتطلب التعديل الدقيق. يمكن أن يؤدي استخدام مثل هذه LLMs لتوليد بيانات EHR الاصطناعية إلى إزالة الحاجة إلى جمع بيانات EHR الحقيقية التي يصعب الوصول إليها للتعديل الدقيق.
في هذا العمل، نقيم قدرات Llama 2 LLM، مع مجموعة متنوعة من استراتيجيات التعلم، بما في ذلك التعديل الدقيق والتعلم بعدد قليل من الأمثلة وإعدادات التعلم بدون أمثلة، لتوليد نص EHR السريري الاصطناعي. على وجه الخصوص، ننشر النماذج التي تم تقييمها لتوليد سرد تاريخ الحالة المرضية الحالي من نص الشكوى الرئيسية القصير الذي يلخص المشكلة الطبية الأساسية. نقارن السرد المولَّد بـ EHRs الحقيقية من مجموعة بيانات MIMIC-IV (mimicFour). علاوة على ذلك، نقترح استراتيجية توجيه سلسلة التفكير (CoT) التي يمكن استخدامها لتوجيه LLM في توليد محتوى EHR مع مراعاة الهيكل والمحتوى المحدد لـ EHRs. تظهر تجاربنا أن طريقة CoT المقترحة تحسن استراتيجيات التعلم بدون أمثلة وبعدد قليل من الأمثلة مع Llama 2 لتكون تنافسية مع نموذج GPT-2 المحسَّن بدقة، مما يقلل الحاجة للوصول إلى بيانات EHR الحقيقية الحساسة عند إجراء البحوث السريرية.
الأعمال ذات الصلة
تستخدم غالبية الأعمال المتعلقة بتوليد النصوص السريرية هندسة التعلم العميق المبنية على المحولات في مهام نمذجة اللغة السببية مع نماذج اللغة التلقائية العكسية (vaswaniAttention, radford2018Gpt, scholkopf2021toward). اقترح أمين نجاد وزملاؤه توليد ملخصات خروج المرضى من بيانات سجلات الصحة الإلكترونية المنظمة باستخدام GPT-2 (radford2019language) وأظهروا أنه يمكن استخدامها لتدريب نماذج أكثر فعالية للتعرف على الكيانات المسماة (amin2020exploring). بالمثل، أظهر لو وآخرون أن النص السريري الاصطناعي يمكن استخدامه لزيادة مجموعة بيانات التدريب الحقيقية لسجلات الصحة الإلكترونية وتحسين الأداء في مهام التنبؤ بإعادة القبول (lu2021textual). كما استقصت أعمال أخرى استخدام النص الاصطناعي المولَّد في المهام اللاحقة، مثل عمل ميلامود وآخرين الذين أظهروا أن السجلات الاصطناعية يمكن استخدامها في مهام الاستدلال اللغوي الطبيعي (melamudTowards). درب لي وآخرون عدة نماذج تلقائية عكسية لتوليد أقسام تاريخ الحالة الحالية من ملخصات خروج سجلات الصحة الإلكترونية وقاموا بتعليق السجلات الاصطناعية يدويًا لذكر الكيانات. أظهر لي وآخرون أنه يمكن تدريب نموذج تعرف الكيانات المسماة بكفاءة أعلى باستخدام البيانات الاصطناعية المعلقة لزيادة مجموعة البيانات التدريبية الحقيقية. كما توجد كمية كبيرة من الأعمال في ملخص سجلات الصحة الإلكترونية باستخدام نماذج التسلسل إلى التسلسل، على سبيل المثال (RaffelT5, gaoSummarizing, palNerual, hartman2022day). ومع ذلك، على عكس تلك الأعمال، نركز في هذا البحث حصريًا على المهمة التلقائية العكسية لتوليد البيانات السريرية الاصطناعية.
تستخدم معظم الأعمال المتعلقة بتوليد النصوص السريرية مجموعات بيانات السوق الطبي للمعلوماتية في العناية المركزة (MIMIC). MIMIC-III (johnsonMimic3) هي قاعدة بيانات كبيرة ومُتاحة للعامة تحتوي على بيانات سريرية مفصلة للمرضى المقبولين في وحدات العناية المركزة. تم إصدار MIMIC-IV (mimicFour) مؤخرًا. يحتوي MIMIC-IV على مجموعة سجلات أوسع من MIMIC-III، ولذلك نستخدم مجموعة بيانات MIMIC-IV في تجاربنا. ومع ذلك، بسبب حداثته، كان هناك عمل أقل يستخدم MIMIC-IV لمهام توليد النص مقارنةً بـ MIMIC-III. تحتوي كلتا المجموعتين على بيانات منظمة وغير منظمة متنوعة، بما في ذلك المعلومات الديموغرافية للمرضى، ونتائج المختبرات، والإجراءات، وملاحظات الطاقم الطبي المكتوبة. تقيم معظم الأعمال المذكورة أعلاه جودة النص السريري المولَّد مباشرةً باستخدام مقاييس تقيس التداخل المصطلحي مثل درجة ROUGE ودرجة BLEU (linRouge, papineniBleu)، على الرغم من أن الأخيرة تُستخدم عادةً لتقييم أداء نموذج الترجمة الآلية—لذا في هذا العمل نستخدم عائلة مقاييس ROUGE لتقييم جودة سجلاتنا الاصطناعية المولَّدَة مقارنةً بالأمثلة المعيارية.
توليد سجل الصحة الإلكتروني باستخدام نماذج اللغة الكبيرة
كما وُصِف في القسم [sec:background]، يتم تدريب نموذج اللغة التلقائية العكسية على مجموعة بيانات من النصوص الحقيقية لتوليد نص صناعي. تُمكّن الطبيعة السببية لهذه النماذج من توقع الرمز التالي في تسلسل عن طريق نمذجة توزيع الكلمات، كما هو مبين في المعادلة [eqn: nexttokenpred]. في مهمتنا ننمذج جزأين من النص غير المنظم من سجل الصحة الإلكتروني: الشكوى الرئيسية (CC) وتاريخ الحالة المرضية الحالي (HPI).
الشكوى الرئيسية (CC) – وصف قصير للمشكلة الطبية الأساسية التي استدعت قبول المريض.
تاريخ الحالة المرضية الحالي (HPI) – شرح مفصل لكيفية وصول المريض إلى المستشفى وعوامل تطور المرض وملاحظات المريض والأطباء.
الهدف من مهمتنا، إذن، هو نمذجة العلاقة بين الشكوى الرئيسية وتاريخ الحالة المرضية الحالي باستخدام نماذج اللغة الكبيرة، بحيث يُنتج النموذج تاريخ الحالة المرضية الحالي عند تزويده بالشكوى الرئيسية. على الرغم من إمكانية تحقيق هذه المهمة عادةً عبر تحسين نموذج توليدي بدقة على نصوص منسقة تضم أزواجًا من CC وHPI، نركز هنا على تطوير استراتيجيات تحفيزية لاستخدام نماذج اللغة الكبيرة في إعدادات الصفر وقليل الأمثلة لإلغاء الحاجة إلى بيانات المرضى الحساسة أثناء التحسين، معتمدين على المعرفة البرمجية المتمثلة في أوزان النموذج المدرب مسبقًا.
استراتيجيات التحفيز
فيما يأتي من هذا القسم نصف الاستراتيجيات المختلفة المستخدمة لتوليد أقسام HPI انطلاقًا من نص CC المقدم. نصف أيضًا استراتيجيات التعلم المساعدة، سواء التحفيز بدون أمثلة أو بعدد قليل من الأمثلة. نصمم هذه التحفيزات لنموذج Llama 2 باستخدام System Prompt لتزويد النموذج بمعلومات إضافية حول طبيعة المهمة (touvronLlama2) وندمج فيها طريقة سلسلة التفكير.
استراتيجية التوجيه المباشر
أولًا، نقدم نصًّا تحفيزيًا يتضمن أسماء القسمين المعنيين في سجلات الصحة الإلكترونية. يُطلب من النموذج، بعد استبدال X بالشكوى الرئيسية الحقيقية،:
الشكوى الرئيسية هي: {X}. تاريخ الحالة المرضية الحالي هو:
يوفر هذا التنسيق سياقًا لاختبار قدرة النموذج على توليد HPI مناسبة مباشرةً للشكوى. نشير إلى هذه الاستراتيجية باسم "التوجيه المباشر" في القسم [sec:results].
استراتيجية سلسلة التفكير
ثانيًا، نقترح استراتيجية أكثر تعقيدًا تعتمد على نموذج سلسلة التفكير. نطلب من النموذج أولًا توليد جنس المريض المقابل للشكوى الرئيسية المقدمة، ثم عرقه، وأخيرًا توليد تاريخ الحالة المرضية الحالي. نفترض أن إجابات النموذج حول الجنس والعرق تساعده في صياغة HPI أكثر واقعية.
نعتمد في ذلك على موجه النظام في Llama 2 والذي يُدرج قبل موجه المستخدم لإعلام النموذج بمهمته العامة. عوضًا عن الموجه الأصلي المقترح في (touvronLlama2)، نوجه النموذج لتوليد بيانات سريرية ولإخراج كل مكون من سلسلة التفكير بصيغة JSON. يُقدَّم موجه النظام مع العلامة الخاصة \(\langle\langle SYS \rangle\rangle\)، وتُشار هذه الاستراتيجية باسم "سلسلة التفكير" في القسم [sec:results].
استراتيجيات التعلم
ننفيذ جميع استراتيجيات التحفيز السابقة يتم مع ثلاث طرق لتمرير الطلب إلى النموذج. أولًا، التحفيز بدون أمثلة. ثانيًا، التعلم بعدد قليل من الأمثلة، عبر أمثلة عشوائية أو أمثلة مسترجعة تشابه الطلب الرئيسي.
التجارب
في هذا القسم نصف التجارب التي أجريناها للإجابة على الأسئلة البحثية الثلاثة التالية:
RQ1: هل يمكن لنموذج اللغة الكبير تحقيق أداء مماثل في توليد HPI باستخدام استراتيجيات التحفيز مقارنةً بالنماذج المحسّنة بدقة؟
RQ2: هل تحسّن استراتيجية التحفيز المقترحة أداء توليد النصوص مع نماذج اللغة الكبيرة؟
RQ3: كيف تؤدي استراتيجيات التحفيز في إعدادات بدون أمثلة وبأمثلة قليلة؟
الإعداد التجريبي
مجموعة البيانات
استخدمنا مجموعة بيانات MIMIC-IV (mimicFour) لإنشاء بيانات من أزواج CC-HPI. استخرجنا ما مجموعه 7000 ملخص خروج لمرضى تضمنت سجلاتهم كلٌّ من شكوى رئيسية وقسم تاريخ الحالة المرضية الحالي. قسمت المجموعة إلى 6000 عينة للتدريب عبر التحسين الدقيق، و1000 عينة للاختبار. لكل زوج CC-HPI استخرجنا أيضًا بيانات جنس وعرق المريض.
النماذج والتقييم
للاجابة على أسئلتنا، نشرنا ثلاثة نماذج مبنية على transformer: GPT-2، BioGPT (luo2022biogpt)، وLLaMA-2 13B (Llama). استخدمنا GPT-2 كنموذج أساسي للتحسين الدقيق، وBioGPT لما له من تدريب مسبق في المجال الطبي الحيوي، وأخيرًا نموذج Llama 2 في كل من إعداد التحسين الدقيق واستراتيجيات التحفيز الخاصة بنا.
أولًا، دربنا كل نموذج بدقة على مجموعة بيانات CC-HPI مع إضافة رمز الفاصل <|sep|> بين CC وHPI. بالنسبة لـ Llama 2 استخدمنا تقنية الكمّية 4-bit (dettersQLoRA) وLoRA لتسريع التدريب. ضبطنا المعلمات الفائقة باستخدام Optuna (akiba2019optuna) عبر 20 تجريبيًّا لاختيار أفضل الإعدادات من حيث خسارة التقييم.
ثانيًا، استعملنا نموذج Llama 2 غير المدرب بدقة مع استراتيجيات التحفيز المباشر وCoT في إعدادات الصفر وقليل الأمثلة. لاستخلاص الأمثلة في الأخير استخدمنا فهرسًا كثيفًا لـ CC عبر ColBERT-PRF (wang2023colbert) لاسترجاع زوجين من الأمثلة المشابهة لكل CC اختباري.
بهذه الطريقة نشكل ست استراتيجيات توليد لكل نموذج Llama: المباشر وCoT في إعدادات بدون أمثلة وعشوائية ومماثلة.
أخيرًا، لتقييم الأداء، ولّدنا HPI لكل CC في مجموعة الاختبار سواء مع النماذج المحسّنة دقًقًة أو مع استراتيجيات التحفيز الستة، وحسبنا درجات ROUGE (linRouge). سجلنا أيضًا درجة الحيرة للنماذج المحسنة دقًقًة.
النتائج والتحليل
يوضح الجدول [tab:Rouge_table] نتائج كل استراتيجية توليد. يحقق نموذج Llama 2 المحسن بـ QLoRA أفضل أداء، حيث يسجل 0.28 في Rouge-1 ويفوق في جميع مقاييس ROUGE الأخرى. يلي ذلك BioGPT الذي بلغ 0.264 في Rouge-1، بفارق 3.4 نقاط عن GPT-2 المحسن.
نلاحظ أيضًا أن استخدام استراتيجية CoT المقترحة يحسن أداء التوليد في إعداد بدون أمثلة بمقدار 6.4 نقاط، بحيث يصبح أداء Llama 2 بدون أمثلة مع CoT مماثلًا لأداء GPT-2 المحسن ويفوقه قليلًا. بالإجابة عن RQ1 نجد أن استراتيجية CoT تتيح لـ Llama 2 13B في إعداد الصفر التفوق على GPT-2 المحسن، وإن لم يضاهِ النماذج المتطورة مثل Llama 2 وBioGPT. أما عن RQ2 فتبين أن CoT تحسّن أداء النموذج بدون أمثلة مقابل التوجيه المباشر.
للإجابة عن RQ3 لاحظنا أن إضافة أمثلة قليلة للتوجيه المباشر تحسّن الأداء: ارتفعت درجة Rouge-1 من 0.19 إلى 0.205. أما عند تطبيق أمثلة قليلة على CoT فقل الأداء، خصوصًا مع الأمثلة العشوائية التي خفضت Rouge-1 بمقدار 2.8 نقاط. يتضح إذًا أن التوجيه المباشر يستفيد من الأمثلة، في حين أن CoT يتراجع عند إضافة أمثلة.
الخلاصة
في هذا العمل قيّمنا فعالية نموذج Llama 2 في توليد سجلات طبية اصطناعية تحت إعدادات الصفر وقليل الأمثلة والتحسين الدقيق، مقارنة بعدة نماذج معاصرة. اقترحنا استراتيجيتين مخصصتين للتوجيه المباشر وCoT لتوليد قسم تاريخ الحالة المرضية الحالي. وجدت تجاربنا على مجموعة MIMIC-IV أن Llama 2 يحقق أفضل أداء مع التحسين الدقيق، كما أن استراتيجيتنا المقترحة تحسن أداء الصفر حتى يصل إلى تنافسية نموذج GPT-2 المحسن. نرى في هذا العمل خطوة مهمة نحو تقليل الاعتماد على البيانات السريرية الحساسة في البحوث الطبية، مما يستدعي مزيدًا من البحث المستقبلي.
الشكر والتقدير
دعم هذا العمل مجلس العلوم الهندسية والفيزيائية [رقم المنحة EP/X018237/1]