استراتيجيات التوليد بدون أمثلة وبأمثلة قليلة للسجلات الطبية الاصطناعية

Erlend Frayling

Jake Lever

Graham McDonald

مُلخّص

تُعد تحديات الوصول إلى بيانات المرضى التاريخية للبحث السريري، مع الالتزام بلوائح الخصوصية، عقبة كبيرة في العلوم الطبية. يتمثل أحد النهج المبتكرة للتغلب على هذه المشكلة في استخدام السجلات الطبية الاصطناعية التي تعكس بيانات المرضى الحقيقية دون المساس بخصوصية الأفراد. يوفر إنشاء هذه المجموعات البيانية الاصطناعية، وخاصة دون استخدام بيانات المرضى الفعلية لتدريب النماذج اللغوية الكبيرة، حلاً جديدًا نظرًا لأن الحصول على معلومات المرضى الحساسة لتدريب النماذج يُعد تحديًا أيضًا. تقيم هذه الدراسة قدرة نموذج اللغة الكبير Llama 2 على إنشاء سجلات طبية اصطناعية تعكس بدقة معلومات المرضى الحقيقيين، باستخدام استراتيجيات التوجيه بدون أمثلة وبأمثلة قليلة للمقارنة مع منهجيات التدريب المعتمدة على بيانات المرضى الحساسة. نركز على توليد السرديات الاصطناعية لقسم تاريخ الحالة المرضية الحالي، باستخدام بيانات من مجموعة MIMIC-IV للمقارنة. في هذا العمل، نقدم تقنية توجيه جديدة تستفيد من نهج سلسلة الأفكار، مما يعزز قدرة النموذج على توليد سرديات طبية أكثر دقة وملاءمة سياقية دون تدريب مسبق. تشير نتائجنا إلى أن هذا النهج الموجه بسلسلة الأفكار يتيح للنموذج بدون أمثلة تحقيق نتائج تضاهي تلك الخاصة بالنماذج المدربة، استنادًا إلى تقييم مقاييس Rouge.

مُقدّمة

Clinical research أمر ضروري لتحسين فهم الأمراض، وتطوير علاجات جديدة وأكثر فعالية، وتحسين رعاية المرضى. الوصول إلى السجلات الطبية السريرية، مثل ملاحظات خروج المستشفى والسجلات الصحية الإلكترونية (EHRs) (hoerbst2010electronic, coorevits2013electronic) يمكن أن يساعد هذا البحث في تحديد أنماط الأعراض وآثار الأدوية الجانبية. الحصول على هذه السجلات يمثل تحديًا، بسبب المعلومات الشخصية الحساسة التي تحتوي عليها (nurmi2019privacy). هذه التحديات تبطئ في نهاية المطاف تقدم الاكتشافات الطبية الجديدة التي (could benefit patient health) (cowie2017electronic).

Developing approaches that can تخفيف مخاوف الخصوصية في مجال البحث السريري أمر مرغوب فيه لتمكين وصول أسهل إلى EHRs بحيث يمكن إجراء البحوث بحرية أكبر، مما يؤدي إلى اكتشافات أسرع في المجالات الصحية. أحد النهج التي يمكن أن تخفف التحديات الناشئة عن المعلومات الحساسة للمرضى هو توليد سجلات مرضى اصطناعية لها نفس التوزيع الإحصائي للمصطلحات كما في السجلات الطبية الحقيقية ولكنها، في الواقع، مزيفة. يمكن بعد ذلك استخدام هذه السجلات الطبية الاصطناعية كبديل لـ EHRs الحقيقية حيث تمنع حواجز خصوصية المرضى الوصول إلى البيانات الحقيقية (iveSynthetic).

تم استكشاف عدة أعمال لتوليد نص EHR اصطناعي باستخدام Large Language Models المعتمدة على المحولات (LLMs)، على سبيل المثال (melamudTowards,iveGeneration). على وجه الخصوص، أظهرت الأعمال التي قام بها Ive et al. (iveGeneration) أن النص السريري الاصطناعي يمكن استخدامه لزيادة بيانات EHR الحقيقية وتحسين فعالية LLMs في المهام اللاحقة (iveSynthetic). However, to prepare these models to produce synthetic EHRs, they first need to be trained on real EHR data, which brings us back to the initial issue of accessing private EHR information.

أكثر recently, a number of LLMs, that are pre-trained using large volumes of data and that leverage prompt inputs to discern the nature of the generative task, e.g. (brownGpt3, touvronLlama2), قد been أظهرت أنها فعالة for a مجموعة واسعة من المهام. هذه النماذج لا تتطلب التعديل الدقيق. يمكن أن يؤدي استخدام مثل هذه LLMs لتوليد بيانات EHR الاصطناعية إلى إزالة الحاجة إلى جمع بيانات EHR الحقيقية التي يصعب الوصول إليها للتعديل الدقيق.

في هذا العمل، نقيم قدرات Llama 2 LLM، مع مجموعة متنوعة من استراتيجيات التعلم، بما في ذلك التعديل الدقيق، والتعلم بعدد قليل من الأمثلة وإعدادات التعلم بدون أمثلة، لتوليد نص EHR السريري الاصطناعي. على وجه الخصوص، ننشر النماذج التي تم تقييمها لتوليد سرد تاريخ الأمراض الحالي من نص شكوى رئيسية قصير يلخص المشكلة الطبية الرئيسية. نقارن السرد المولّد بـ EHRs الحقيقية من مجموعة بيانات MIMIC-IV (mimicFour). علاوة على ذلك، نقترح استراتيجية توجيه سلسلة الأفكار (CoT) التي يمكن استخدامها لتوجيه LLM في توليد محتوى EHR مع مراعاة الهيكل والمحتوى المحدد لـ EHRs. تظهر تجاربنا أن هذه الطريقة CoT يمكن أن تحسن استراتيجيات التعلم بدون أمثلة وبعدد قليل من الأمثلة مع Llama 2 لتكون تنافسية مع نموذج GPT-2 المعدل بدقة، وبالتالي تقليل الحاجة إلى الوصول إلى بيانات EHR الحقيقية، التي تحتوي على بيانات حساسة للمرضى، عند إجراء البحوث السريرية.

الأعمال ذات الصلة

تستخدم غالبية الأعمال المتعلقة بتوليد النصوص السريرية هندسة التعلم العميق المبنية على المحولات في مهام نمذجة اللغة السببية مع نماذج اللغة التلقائية العكسية (vaswaniAttention, radford2018Gpt, scholkopf2021toward). اقترح أمين نجاد وآخرون توليد ملخصات خروج المرضى من بيانات سجلات الصحة الإلكترونية المنظمة باستخدام GPT-2 (radford2019language) وأظهروا أنه يمكن استخدامها لتدريب نماذج أكثر فعالية للتعرف على الكيانات المسماة (amin2020exploring). بالمثل، أظهر لو وآخرون أن النص السريري الاصطناعي يمكن استخدامه لزيادة مجموعة بيانات التدريب الحقيقية لسجلات الصحة الإلكترونية لتحسين الأداء في مهام التنبؤ بإعادة القبول (lu2021textual). كما استقصت أعمال أخرى استخدام النص الاصطناعي المولّد في المهام اللاحقة، مثل عمل ميلامود وآخرين الذين أظهروا أن السجلات الاصطناعية يمكن استخدامها في مهام الاستدلال اللغوي الطبيعي (melamudTowards). درب لي وآخرون عدة نماذج تلقائية عكسية لتوليد أقسام تاريخ الحالة الحالية من ملخصات خروج سجلات الصحة الإلكترونية وقاموا بتعليق السجلات الاصطناعية يدويًا لذكر الكيانات. أظهر لي وآخرون أنه يمكن تدريب نموذج تعرف الكيانات المسماة أكثر فعالية باستخدام البيانات الاصطناعية المعلقة لزيادة مجموعة البيانات التدريبية الحقيقية. كما توجد كمية كبيرة من الأعمال في ملخص سجلات الصحة الإلكترونية باستخدام نماذج التسلسل إلى التسلسل، على سبيل المثال (RaffelT5, gaoSummarizing, palNerual, hartman2022day). ومع ذلك، على عكس عمل (RaffelT5, gaoSummarizing, palNerual, hartman2022day)، نركز في هذا العمل حصريًا على المهمة التلقائية العكسية لتوليد البيانات السريرية الاصطناعية.

تستخدم معظم الأعمال المتعلقة بتوليد النصوص السريرية مجموعات بيانات السوق الطبية المعلوماتية للعناية المركزة (MIMIC). MIMIC-III (johnsonMimic3) هي قاعدة بيانات كبيرة ومُتاحة للعامة تحتوي على بيانات سريرية مفصلة للمرضى المقبولين في وحدات العناية المركزة. تم إصدار MIMIC-IV (mimicFour) مؤخرًا. يحتوي MIMIC-IV على العديد من السجلات أكثر من MIMIC-III، ولذلك نستخدم مجموعة بيانات MIMIC-IV لتجاربنا. ومع ذلك، بسبب حداثته، كان هناك عمل أقل يستخدم MIMIC-IV لمهام توليد النص مقارنة بـ MIMIC III. تحتوي كلتا المجموعتين على مجموعة متنوعة من البيانات المنظمة وغير المنظمة، بما في ذلك الديموغرافيا السكانية للمرضى، نتائج المختبرات، الإجراءات وملاحظات الطاقم الطبي المكتوبة. تقيم معظم الأعمال المذكورة أعلاه (amin2020exploring, lu2021textual, melamudTowards) جودة النص السريري المولّد مباشرة باستخدام مقاييس تقيس التداخل المصطلحي، مثل درجة ROUGE ودرجة BLEU (linRouge, papineniBleu)، على الرغم من أن الأخيرة تُستخدم عادة لتقييم أداء نموذج الترجمة الآلية - لذلك، في هذا العمل، نستخدم عائلة مقاييس ROUGE لتقييم جودة سجلاتنا الاصطناعية المولدة مقارنة بالأمثلة المعيارية.

توليد سجل الصحة الإلكتروني باستخدام نماذج اللغة الكبيرة

كما وُصف في Section [sec:background]، لتوليد نص صناعي، يتم تدريب نموذج لغوي تلقائي الارتداد على مجموعة بيانات من النصوص الحقيقية. طبيعة النماذج التلقائية الارتداد تجعلها مثالية لمهام نمذجة اللغة السببية حيث يقوم نموذج اللغة بنمذجة توزيع المصطلحات في مجموعة البيانات بحيث يمكنه التنبؤ بالرمز التالي الذي يجب أن يأتي بناءً على تسلسل سابق من الرموز ومجموعة من رموز المفردات. تظهر المعادلة [eqn: nexttokenpred] كيفية حساب احتمال الرمز التالي في تسلسل بناءً على تسلسل أولي من الرموز المنفصلة، حيث \( W_{0}\) هو تسلسل كلمات السياق الأولى، \( W_{t}\) هو الرمز التالي المحتمل، و \( w_{1:0} = \emptyset \) يشير إلى الكلمة الأولى من تسلسل البداية. \[P(w_{1:T} \mid W_{0}) = \prod_{t=1}^{T} P(w_{t} \mid w_{1:t-1}, W_{0}) \text{ with } w_{1:0} = \emptyset \label{eqn: nexttokenpred}\] في مهمتنا، ننمذج جزأين من النص غير المنظم من سجل الصحة الإلكتروني في مهمة نمذجة اللغة السببية. هذه هي:

  1. الشكوى الرئيسية (CC) - وصف قصير وأساسي للمشكلة الطبية الرئيسية للمريض المقبول.

  2. تاريخ الحالة المرضية الحالي (HPI) - شرح أطول حول كيفية وصول المريض إلى المستشفى لعلاج مرضه، بما في ذلك أسباب الأمراض، وملاحظات المريض، وملاحظات أخرى من طاقم المستشفى.

الهدف من مهمتنا، إذن، هو نمذجة العلاقة بين الشكوى الرئيسية وتاريخ الحالة المرضية الحالي باستخدام نماذج اللغة الكبيرة، بحيث يمكن لنموذج اللغة الكبير أن ينتج تاريخ الحالة المرضية الحالي عند تقديم شكوى رئيسية. بهذه الطريقة، يمكن تحفيز النموذج لتوليد تواريخ الحالات المرضية الحالية التي قد تهم الباحثين، أو للاستخدام في المهام اللاحقة كما استُخدم في الأعمال السابقة (melamudTowards, amin2020exploring, lu2021textual). بينما يمكن تحقيق هذه المهمة عادة بتحسين نموذج توليدي على مقاطع نصية منسقة تحتوي على شكاوى رئيسية وتواريخ الحالات المرضية الحالية، نحن نركز على تطوير استراتيجيات التحفيز لاستخدام نماذج اللغة الكبيرة بدون تحسين في إعداد الصفر والقليل من الأمثلة، لإزالة الحاجة إلى الوصول إلى بيانات المرضى الحساسة للتحسين، معتمدين بدلًا من ذلك على المعرفة البارامترية للنموذج المدرب مسبقًا لتوليد تواريخ الحالات المرضية الحالية الصناعية.

استراتيجيات التحفيز

فيما تبقى من هذا القسم، نصف الاستراتيجيات المختلفة التي نستخدمها لتوليد أقسام المؤشر الصحي الشخصي من نص القسم المقدم للشكوى الرئيسية. نصف أيضًا الاستراتيجيات التعليمية المختلفة التي نستخدمها لتحفيز نماذج اللغة الكبيرة، بما في ذلك التحفيز بدون أمثلة والتحفيز بعدد قليل من الأمثلة. نقوم بتصميم التحفيزات لهندسة نموذج اللغة الكبيرة لاما ٢، والتي تستخدم مكون System Prompt لتزويد النموذج بمعلومات سياقية إضافية حول طبيعة المهمة التوليدية للنموذج (touvronLlama2). نستخدم هذا التحفيز النظامي لاقتراح استراتيجية تحفيز سلسلة الأفكار المصممة خصيصًا لتوليد نصوص طبية اصطناعية.

استراتيجية التوجيه المباشر

أولًا، نقترح نص توجيه يتضمن أسماء كلا القسمين من سجلات الصحة الإلكترونية التي نهتم بها. يُقدم النص إلى النموذج كجملة مدخلة واحدة (حيث يُستبدل X بشكوى رئيسية حقيقية):

الشكوى الرئيسية هي: {X}. تاريخ الحالة المرضية الحالي هو:

يوفر هذا النمط سياقًا حول نوع المعلومات المقدمة، وهي الشكوى الرئيسية، ويحث النموذج على بدء توليد تاريخ حالة مرضية حالية مناسبة للشكوى الرئيسية المقدمة. تستند طبيعة هذا التنسيق المختصر إلى حقيقة أن بيانات السجلات السريرية مقيدة وقد لا يكون من الممكن تزويد النموذج بمعلومات إضافية حول سجلات الصحة الإلكترونية في بيئة مغلقة وحساسة. يُشار إلى هذه الاستراتيجية بالتوجيه المباشر في القسم [sec:results].

طريقة سلسلة التفكير

ثانيًا، نقترح استراتيجية توجيه أكثر تعقيدًا تعتمد على نموذج سلسلة التفكير. يمكن لنموذج سلسلة التفكير أن يوجه نموذج اللغة الكبير بشكل صريح من خلال عدة خطوات من التفكير أثناء أداء مهمة (wei2022chain). نقترح تعليم النموذج لتوليد أجزاء أخرى من سجلات الصحة الإلكترونية لرمز الشكوى الرئيسية المعطى، قبل تعليم النموذج لتوليد تاريخ المرض الحالي. على وجه التحديد، نعلم النموذج أولًا لتوليد جنس المريض لرمز الشكوى الرئيسية المقدمة، يليه عرق المريض، وأخيرًا تاريخ المرض الحالي. من خلال ذلك، نفترض أن النموذج يجب أن يستخدم إجاباته الإضافية حول هذه المفاهيم البسيطة لتوليد تاريخ مرض حالي أكثر واقعية.

نستخدم هذه العملية في سلسلة التفكير مع مكون موجه النظام لنموذج اللغة الكبير لاما ٢ (النموذج المختار للتوجيه). تم تدريب نموذج لاما ٢ لاستخدام موجه النظام الذي يتم إدراجه قبل موجه المستخدم. يستخدم موجه النظام لإعلام النموذج بمهمته العامة ووظيفته. في هذه الحالة، نعدل موجه النظام الأصلي المقترح في (touvronLlama2) وبدلًا من ذلك نعلم النموذج لتوليد بيانات سريرية ولإخراج كل مكون من تعليمات سلسلة التفكير كـ JSON. يوضح الشكل [fig:cotStruct] كيفية تنظيم موجه سلسلة التفكير وكيف يشير إلى هيكل سجل الصحة الإلكتروني، باستخدام موجه النظام قبل النظر في رمز الشكوى الرئيسية المحدد لتوليد تاريخ المرض الحالي. يتم تقديم موجه النظام للنموذج مع رمز خاص \(<<SYS>> \)، ويشار إلى هذه الاستراتيجية التوجيهية باسم [سلسلة التفكير] في القسم [sec:results].

استراتيجيات التعلم

نحن ننفذ كل استراتيجيات التحفيز لدينا مع ثلاث استراتيجيات تعلم مساعدة، أي كيفية تمرير الأمر إلى النموذج. أولًا، نستخدم التحفيز بدون أمثلة، حيث يتم تمرير الأمر دون أي معلومات سياقية أخرى. ثانيًا، نمرر أمثلة عن ما يُتوقع أن يكون عليه الإخراج، أي التعلم بأمثلة قليلة، والذي أظهر تحسين أداء نماذج التعلم في السياق (brownGpt3). نقترح استخدام التعلم بأمثلة قليلة بطريقتين، أولًا بأخذ عينات عشوائية من الأمثلة لاستخدامها مع أمر معين، وثانيًا بتزويد النموذج بأمثلة مشابهة للأمر الرئيسي.

التجارب

في هذا القسم نصف التجارب التي نقوم بها للإجابة على الأسئلة البحثية الثلاثة التالية:

RQ1: هل يمكن لنموذج اللغة الكبير تحقيق نفس الأداء في توليد المؤشرات الصحية الشخصية باستخدام استراتيجيات التلميح مقارنة بنماذج اللغة الكبيرة المعدلة؟

RQ2: هل استراتيجية التلميح المقترحة من قبلنا تحسن أداء توليد النصوص بناءً على التلميحات مع نماذج اللغة الكبيرة؟

RQ3: كيف تؤدي استراتيجيات التلميح لدينا في الإعدادات بدون أمثلة وبأمثلة قليلة؟

الإعداد التجريبي

مجموعة البيانات

استخدمنا مجموعة بيانات MIMIC-IV (mimicFour) لإنشاء مجموعة بيانات من الشكاوى الرئيسية مع سجلات تاريخ الحالة الحالية المقابلة، حيث قمنا باستخراج 7000 ملخص خروج للمرضى الذين تضمنت سجلاتهم كلاً من شكوى رئيسية وأيضًا قسم تاريخ الحالة الحالية. تم تقسيم مجموعة البيانات لدينا إلى مجموعة تدريب ومجموعة اختبار تتكون من 6000 عينة تدريبية، تُستخدم لتدريب النماذج الأساسية التي يُستخدم فيها التحسين الدقيق، و 1000 عينة اختبار لتقييم الـ HPIs المنتجة. لكل عينة، قمنا أيضًا باستخراج جنس وعرق المرضى المقابلين لكل زوج CC-HPI.

النماذج والتقييم

للإجابة على أسئلتنا البحثية، نقوم بنشر ثلاثة نماذج معمارية قائمة على transformer، وهي GPT-2، BioGPT (luo2022biogpt) و LLaMA-2 13B (Llama). يوفر الجدول [tab: modelInfo] نظرة عامة على استراتيجيات التعلم والنماذج التي نستخدمها. بشكل ملحوظ، نستخدم GPT-2 كنموذج أساسي بسبب استخدامه الواسع كنموذج للتحسين الدقيق في العديد من مهام التوليد المختلفة. نختار BioGPT بسبب تدريبه المسبق في المجال الطبي الحيوي، والذي قد يحسن الأداء في المجال السريري، نتيجة لتشابه البيانات السريرية مع البيانات الطبية الحيوية. أخيرًا، نستخدم نموذج Llama LLM في كل من إعداد التدريب الدقيق وللاستراتيجيات التوجيهية الخاصة بنا مع كل استراتيجية تعلم مساعدة.

أولًا، نقوم بتدريب كل نموذج بدقة على مجموعة بيانات CC-HPI الموصوفة في القسم [sec: dataset]، مع دمج نصوص CC و HPI التدريبية مع إضافة رمز خاص، <|sep|>. بالنسبة لنموذج Llama، نقوم بتحميل النموذج مع تقنية الكَمّية 4-bit (dettersQLoRA) ونستخدم Low Rank Adaptation (HuLoRA) لتدريب النموذج بكفاءة على مهمة التوليد بسبب حجمه الكبير. لكل نموذج، نقوم بـ 20 تشغيلًا لضبط المعلمات الفائقة باستخدام Optuna (akiba2019optuna)، بحثًا عن معدل التعلم، تآكل الوزن، وعدد العصور. نحسن من أجل خسارة التقييم ونستخدم أفضل تكوين للمعلمات الفائقة لتدريب نموذج نهائي يُستخدم في التقييم.

ثانيًا، نستخدم نموذج Llama 2 مع استراتيجيات التوجيه الخاصة بنا الموصوفة في القسم [sec: inContext]. في هذه الحالات، نستخدم النموذج المكمم بـ 4-bit، بدون أي تدريب دقيق. للتعلم بعدد قليل من الأمثلة، نستخدم أمثلة مستخرجة من مجموعة البيانات التدريبية القوية المكونة من 6000 عينة كما هو موصوف في القسم [sec: inContext]: أولًا عشوائيًا، وثانيًا باستخدام مسترجع ColBERT-PRF للعثور على أمثلة مماثلة (wang2023colbert). نقوم بإنشاء فهرس كثيف لـ CCs في مجموعة البيانات التدريبية، ولكل CC في مجموعة البيانات الاختبارية نسترجع أعلى اثنين من CCs ذات الصلة من مجموعة البيانات التدريبية مع HPIs المرتبطة بها لاستخدامها كأمثلة مماثلة. لمطالبنا المباشرة ومطالب CoT، نقوم بعد ذلك ببناء مجموعات بيانات بدون أمثلة، بعدد قليل من الأمثلة (عشوائي)، وبعدد قليل من الأمثلة (مماثل)، مع مجموعة الاختبار المكونة من 1000 عينة. لمطالب CoT، ندمج أيضًا القيم المقابلة للجنس والعرق لـ CCs و HPIs.

بشكل إجمالي، نقترح ست استراتيجيات مختلفة لتوليد النصوص بناءً على المطالب لنموذج Llama. هذه هي: المطالبة المباشرة، باستخدام استراتيجيات التعلم بدون أمثلة، بعدد قليل من الأمثلة العشوائية، وبعدد قليل من الأمثلة المماثلة؛ ومطالب CoT، باستخدام استراتيجيات التعلم بدون أمثلة، بعدد قليل من الأمثلة العشوائية، وبعدد قليل من الأمثلة المماثلة.

أخيرًا، لتقييم كل إعداد، نولّد HPIs لكل CC في مجموعة الاختبار - لكل من نماذجنا الثلاثة المدربة بدقة حيث نمرر CC ورمز الفاصل الخاص <|sep|> فقط في وقت الاستدلال، ولكل من استراتيجياتنا الستة المبنية على المطالب. نقارن مجموعات HPIs المولدة مع HPIs الحقيقية لكل CC ونحسب درجات ROUGE (linRouge). نعرض أيضًا درجة الحيرة لكل نموذج بعد عملية التدريب الدقيق حيث يُستخدم التدريب الدقيق.

النتائج والتحليل

يُظهر الجدول [tab:Rouge_table] نتائج كل استراتيجية توليد باستخدام التحسين والتلميح. بشكل مباشر، يحقق نموذج لاما 2 المحسن بـ QLoRA (لاما2 + QLoRA) أفضل أداء، حيث يسجل 0.28 في Rouge-1 ويتفوق أيضًا في جميع مقاييس ROUGE الأخرى. BioGPT هو النموذج التالي الأفضل أداءً بنتيجة 0.264 في Rouge-1، بتحسن قدره 3.4 نقاط عن نموذج GPT-2 المحسن الأساسي. هذا يدل على أنه، كما هو متوقع، النماذج المحسنة، التي تتدرب على العديد من أمثلة أزواج CC-HPI يمكن أن تحقق أفضل أداء حيث تتوفر بيانات EHR لاستخدامها في التحسين. تعكس درجات الحيرة للنماذج المحسنة نتائجها في مقاييس ROUGE، حيث يحقق لاما 2 أدنى درجة حيرة.

بعد ذلك، نرى أن استخدام طريقتنا المقترحة CoT يوفر تحسنًا عن تلميحنا المباشر في إعداد بدون أمثلة. عند مقارنة النهجين نرى أن استخدام تلميح CoT يحسن أداء التوليد بـ 6.4 نقاط، بحيث أن أداء نموذج لاما 2 بدون أمثلة مع تلميح CoT مماثل لأداء نموذج GPT-2 المحسن، ويفضله قليلاً. فيما يتعلق بأسئلة بحثنا (RQs) نجيب الآن على RQ1 وRQ2. أولًا، فيما يتعلق بـ RQ1، نجد أن استخدام استراتيجية تلميح CoT لدينا، يمكن لنموذج لاما 2 13b بدون أمثلة محمل بتقنية التكميم 4-bit أن يتفوق على نموذج GPT-2 المحسن على بيانات EHR في نفس مهمة التوليد، ولكنه لا يحقق أداء النماذج المحسنة المتطورة مثل لاما2 وBioGPT. ثانيًا، وفيما يتعلق بـ RQ2، فإن طريقة تلميح CoT لدينا تحسن أداء النموذج بدون أمثلة مقارنة بطريقة لا تستخدم CoT.

للإجابة على RQ3، نحلل نتائج استراتيجيتي التلميح لدينا في إعدادات التعلم بدون أمثلة وبأمثلة قليلة. بالنسبة للتلميح المباشر، يحسن التعلم بأمثلة قليلة أداء التوليد - درجة Rouge-1، باستخدام أمثلة عشوائية في التعلم بأمثلة قليلة، يحسن الأداء بـ 0.19، ويحسن التعلم بأمثلة قليلة أيضًا الأداء عن النموذج بدون أمثلة في Rouge-1 إلى 0.205، بزيادة قدرها 0.033. ومع ذلك، بالنسبة لتلميح CoT، يعيق التعلم بأمثلة قليلة الأداء عند استخدام أمثلة عشوائية وعند استخدام أمثلة مماثلة. يقلل التعلم بأمثلة قليلة عشوائية الأداء بأكبر قدر، بانخفاض 2.8 نقاط في Rouge-1. فيما يتعلق بـ RQ3 يمكننا القول إن تلميحنا المباشر يحسن الأداء في مهمة التوليد لدينا. ومع ذلك، فإن محاولة إضافة أمثلة إلى طريقة تلميح CoT تقلل من أداء النموذج.

الخلاصة

في هذا العمل، قمنا بتقييم فعالية نموذج Llama 2 لتوليد السجلات الطبية الاصطناعية التمثيلية، في ظروف الصفر، والقليل من الأمثلة، والإعدادات المعدلة، مقارنة بعدة نماذج معدلة حديثة. علاوة على ذلك، اقترحنا استراتيجيتين مخصصتين للتلميح لتوليد أقسام تاريخ الحالة الحاضرة من السجلات الصحية الإلكترونية. وجدت تجاربنا على مجموعة بيانات MIMIC-IV أن نموذج Llama 2 الحديث قدم أفضل أداء مع التعديل الدقيق. ومع ذلك، أظهرنا أيضًا أن استراتيجية التلميح المخصصة لدينا، والتي توفر معلومات حول محتوى السجلات الصحية الإلكترونية وأي أقسام منها يجب توليدها، يمكن أن تعزز أداء نموذج LLM في ظروف الصفر بحيث يصبح تنافسيًا مع نموذج GPT-2 المعدل. نرى هذا كخطوة نحو تقليل الحاجة للوصول إلى البيانات السريرية الحساسة من أجل إجراء البحوث في المجال السريري وتستحق البحث المستقبلي.

الشكر والتقدير

تم دعم هذا العمل من قبل مجلس العلوم الهندسية والفيزيائية [رقم المنحة EP/X018237/1]