تُعَدّ مراقبة العمليات التنبؤية مهمة تحليلية تهدف إلى التنبؤ بمعلومات حول سير العملية الجارية، مثل النشاط التالي الأنسب للتنفيذ. في المجالات الطبية، يمكن أن توفّر مراقبة العمليات التنبؤية دعماً قيّماً لاتّخاذ القرار في الحالات غير النمطية والمعقّدة. ولا يمكن التقليل من أهمية دعم القرار وتقييم الجودة السريرية في الطب المعتمد على المعرفة التخصصية، على أن يستند إلى جميع المعلومات المتاحة (لا البيانات فحسب) وأن يكون مقبولاً فعلاً لدى المستخدمين النهائيين.
في هذه الدراسة نقترح نهجاً لمراقبة العمليات التنبؤية يعتمد على استخدام المُحوِّل، وهي بنية تعلّم عميق قائمة على آلية الانتباه. تتمثّل مساهمتنا الرئيسة في دمج المعرفة التخصصية الأنطولوجية عبر تقنية ترميز المواضع البنيوي. وتعرض الورقة وتناقش نتائج تجريبية مشجّعة جمعناها في مجال إدارة السكتة الدماغية.
إن انتشار نظم المعلومات الطبية المتقدّمة يتيح تدريجياً جمع آثار الحالات تلقائياً، أي سلاسل الأنشطة التي تُنفَّذ على المرضى خلال إجراءات الرعاية المطبّقة في المؤسسات الطبية (Reichert:2012). وتُعَدّ آثار الحالات مصدراً قيّماً للمعلومات لعدة تحليلات وتحقيقات في مجال تعدين العمليات (aalst:book:16). ومن بين التقنيات المتاحة في تعدين العمليات، تُعَدّ مراقبة العمليات التنبؤية (Maggi:2014, Teinemaa:2019) ذات أهمية خاصة؛ إذ تهدف إلى التنبؤ بمعلومات ذات صلة حول عمليةٍ جارية، وذلك باستغلال الآثار المسجّلة فعلياً لتقديم تنبؤات عن اكتمال العملية، مثل اقتراح النشاط التالي، أو تقدير الوقت/الكلفة/الموارد المتبقية.
في المجال الطبي، تساعد مراقبة العمليات التنبؤية على تخصيص الوقت والموارد بصورة أفضل؛ والأهم أنها قد تعزّز اتّخاذ القرار في الحالات المعقّدة. فعلى الرغم من توافر الإرشادات السريرية، ينبغي ملاحظة أنها تمثّل عمليات مثالية، صُمِّمت لمرضى نموذجيين، ومقصود بها أن تُطبَّق في بيئة مثالية تتوافر فيها الموارد اللازمة دائماً (Xu:2020). في الواقع، كثيراً ما لا يتوافر ذلك؛ فقد تمنع القيود المحلية على الموارد تنفيذ أنشطة الإرشادات في الوقت المناسب. إضافةً إلى ذلك، قد يكون المرضى الحقيقيون غير نمطيين، مثلاً بسبب وجود أمراض مصاحبة أو اختلافات نادرة. وأخيراً، قد يفتقر بعض الأطباء للخبرة اللازمة لتفسير الإرشادات وتطبيقها في الحالات المعقّدة. ومن خلال اقتراح النشاط التالي، يمكن لمراقبة العمليات التنبؤية أن تقدّم إرشاداً عملياً قيّماً في مثل هذه الحالات.
بناءً على ذلك، نقترح نهجاً لمراقبة العمليات التنبؤية لآثار العمليات الطبية؛ ووفقاً لأحدث التطوّرات في الأدبيات، نعتمد بنية التعلّم العميق المعروفة باسم Transformer، القائمة على آلية الانتباه الذاتي (vaswani2017attention)، والتي أثبتت جدواها في مهام مماثلة (processtransformer). وتكمن مساهمتنا الرئيسية في دمج المعرفة التخصصية باستخدام أنطولوجيا عبر تقنية ترميز المواضع البنيوي، بما يعزّز دقّة نموذجنا.
وعلى الرغم من عمومية النهج، فقد ركّزنا تجاربنا على مجال إدارة السكتة الدماغية، حيث يمكن لمراقبة العمليات التنبؤية أن تقدّم دعماً مهماً لاتّخاذ القرار الطبي. فعلى سبيل المثال، تُساعِد في اختيار الدواء المناسب لإذابة الخثرة من خلال موازنة المؤشرات وموانع الاستعمال استناداً إلى آثار سابقة (Xu:2020)، أو تُساعِد في تقرير ما إذا كان ينبغي تأكيد وجود نزف تحت العنكبوتية عبر تقييم إيجابيات وسلبيات البزل القطني (eswa16)، مع أخذ الأحداث المكتملة فعلياً في الاعتبار. وقد أظهرت تجاربنا الأولى، المفصّلة أدناه، نتائج مشجّعة.
تنظَّم هذه الدراسة كما يلي: يعرض قسم الأعمال ذات الصلة بعض الأعمال السابقة؛ ويشرح قسم المنهجية البنية المعتمدة؛ ويستعرض قسم التجارب إعداداتنا ونتائجنا؛ أمّا قسم الاستنتاجات فيُخْتَم بالخلاصات.
دعمت تقنيات تعلّم آلي مختلفة مراقبة العمليات التنبؤية، مثل أنظمة الانتقال (Le2012)، ونماذج ماركوف المخفية (Lakshmanan2015)، وآلات الدعم المتجهية (Cabanillas:2014). ومع ذلك، تميل النهج الأحدث إلى توظيف هياكل التعلّم العميق التي تمثّل الحالة الفنية الراهنة في هذا المجال.
اقتُرحت هياكل تعلّم عميق متعددة لمهمة التنبؤ بالنشاط التالي. فمثلاً، استُخدمت المُشَفِّرات التلقائية (Hinton) في (Mehdiyev) لتقليل بُعد سمات الأنشطة المدخلة بفاعلية، لكنها تفتقر إلى معالجة الاعتماديات الزمنية الطويلة ضمن الأثر. وفي عمل آخر، طُبِّقت الشبكات العصبية الالتفافية (CNNs) على البيانات التسلسلية لآثار العمليات باعتبارها شبكة أحادية البعد (Alom, Appice).
ونظراً للطبيعة التسلسلية للآثار، تبدو الشبكات العصبية المتكرّرة (RNNs) (Pascanu) حلاً طبيعيّاً، إذ يمكنها التقاط الاعتماديات الطويلة الأمد بين أنشطة الأثر؛ في المقابل تعتمد الشبكات الالتفافية على نافذة ثابتة من آخر k نشاطاً حيث يحدّد k حجم المرشح. وضمن الشبكات المتكرّرة، تبرز شبكات الذاكرة طويلة وقصيرة الأمد (LSTM) (Hochreiter) كنهج فعّال لقدرتها على تعلّم ديناميكيات زمنية معقّدة وإدارة الاعتماديات طويلة المدى.
وبشكل مماثل، تستخدم الشبكات المتكرّرة الموصدة (GRUs) (cho2014learning) بوّابات تسمح بتدفّق التدرّجات عبر تسلسلات أعمق مقارنةً بالـRNN الأساسية، وبعدد أقل من المعلمات مقارنةً بالـLSTM. وقد استُخدمت GRUs، مثلاً، في (Hinkka) لمراقبة العمليات التنبؤية.
بديل آخر هو الشبكات العصبية المعزّزة بالذاكرة (MANN) المقترحة في (khan:2019)، والتي تتيح معالجة آثار طويلة جداً أو تكرار الأنشطة دون نسيان المعلومات المبكّرة، وإن كان ذلك بكلفة تدريب أعلى.
أقرب نهجٍ إلى عملنا هو (Philipp:20, processtransformer)، الذي يستخدم المُحوِّل دون اعتماد على التكرار، مع آلية الانتباه متعدد الرؤوس (vaswani2017attention) في جزء المُفكِّك فقط. أمّا إدخال المعرفة الخارجية على هيئة رسوم بيانية فقد استُخدم في أعمال مثل (graphiT, gnn-benchmark-pe, di2017eye) لإثراء الأمثلة التسلسلية بمعلومات هيكلية. كما وظّفت نماذج المُحوِّل المدرَّبة مسبقاً مثل (BERT) المعرفة الأنطولوجية وفق منهجيات مثل (kbert, pretrain). وبحسب علمنا، لا توجد أعمال سابقة أدرجت ترميز المواضع البنيوي للمعرفة التخصصية في سياق مراقبة العمليات التنبؤية.
في المقاطع التالية، نقدّم البنية الأساسية لنموذج المُحوِّل المستخدم، ثم نصف كيف نستفيد من أنطولوجيا الأنشطة عبر ترميز الموضع البنيوي المستند إلى متجهات القيم الذاتية للابلاسيان (gnn-benchmark-pe).
تعتمد بنية نموذجنا على المُفكِّك في المُحوِّل (Philipp:20, processtransformer). يتكوّن دخل النموذج من تسلسل \(S = \{a_1, \ldots, a_i, \ldots, a_n\}\) (يمثّل أثراً)، حيث ينتمي كل عنصر إلى مجموعة \(A\) من الأنشطة الممكنة. فيما يلي نوضح مكوّنات النموذج وكيفية معالجة الدخل.
طبقة التضمين: تأخذ \(S\) كدخل وتنتج متجهاً في \(\mathbb{R}^d\) لكل عنصر \(a_i\) من التسلسل، ليصبح الدخل عند هذه المرحلة \(X \in \mathbb{R}^{n \times d}\).
الترميز الموضعي: تضيف هذه الطبقة معلومات عن موضع كل نشاط في التسلسل إلى تضمينه. اختبرنا نسختين: الأولى (PE) الموصوفة في (vaswani2017attention) التي تستخدم الجيب وجيب التمام لتمثيل الترتيب؛ والثانية هي الترميز الموضعي البنيوي (SPE) الذي يدمج معرفة مأخوذة من رسم بياني \(G\) (الأنطولوجيا، مُفصّلة في قسم ترميز الموضع البنيوي). يُضاف الترميز الموضعي لكل عنصر إلى تضمينه الأصلي كما يلي: \[ X = \begin{cases} X + PE(X) & \text{لطريقة PE} \\ X + SPE(X,G) & \text{لطريقة SPE} \end{cases} \]
طبقة الانتباه متعدد الرؤوس: تُمكّن هذه الطبقة النموذج من التركيز على أجزاء مختلفة من التسلسل والتقاط الاعتماديات طويلة المدى. تُنشئ طبقة الانتباه الذاتي (vaswani2017attention) ثلاث تمثيلات \(Q, K, V\) لكل عنصر في التسلسل \(S\)، ثم تطبّق الانتباه بضرب النقاط المُقاس: \[ H = \mathrm{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d}}\right) V \] تُنفّذ هذه العملية عبر عدّة رؤوس بالتوازي لالتقاط أنماط اعتماد مختلفة، ثم تُدمج المخرجات لإنتاج التمثيل النهائي. نطبّق قناعاً سببياً يمنع العنصر من الانتباه إلى الأنشطة اللاحقة، حفاظاً على طابع التنبؤ بالرمز التالي. ويُضاف المخرج إلى \(X\) عبر وصلة تخطٍّ.
تطبيع الطبقة: تُستخدَم هذه الطبقة لتخفيف ظاهرة تلاشي/انفجار التدرّجات أثناء التدريب عبر إعادة تمركز التنشيطات وتوحيد تباينها، بما يعزّز استقرار التحسين (layernorm). اعتمدنا نمط Pre-LN حيث يُطبَّق تطبيع الطبقة داخل الكتل المتبقية لتحسين سرعة التقارب (preln).
أخيراً، نمرّر \(X\) عبر طبقتين متصلتين بالكامل، مع طبقة إسقاط نهائية تُعيد التمثيل إلى بعد يساوي عدد الأنشطة الممكنة.
يعتمد الترميز البنيوي على رسمٍ بيانيّ يعبّر عن أنطولوجيا تُشفِّر العلاقات بين الأنشطة. تتيح هذه الأنطولوجيا إدخال المعرفة التخصصية في النموذج لتحسين قدراته التنبؤية، عبر تجميع الأنشطة المرتبطة بأهداف تشخيصية أو علاجية متماثلة في مسارات قصيرة ضمن الرسم البياني.
لتحقيق ذلك، مثّلنا الأنطولوجيا كرسم بياني واعتمدنا تقنية متجهات القيم الذاتية للابلاسيان (laplacian-eigenmaps) لحساب تضمين لكل عقدة، بحيث يحصل كل فعل (عقدة) على متجه يعكس موقعه في الرسم البياني. يضمن هذا أن العقد المتقاربة بنيوياً تمتلك تضمينات متشابهة. وأثناء التدريب، نضيف هذه التضمينات إلى تضمين الرمز قبل طبقة الانتباه متعدد الرؤوس (مرحلة الترميز)، بما يُثري المُحوِّل بالمعلومات العلاقية للأنطولوجيا ويُمكّنه من تعلّم علاقات إضافية بين الأنشطة. فيما يلي وصف رسمي موجز:
ليكن \(G=(V,E)\) الرسم البياني المُمثِّل للأنطولوجيا، حيث \(V\) مجموعة العقد: عقدة لكل نشاط من \(A\) (عُقد النشاط)، إلى جانب عُقد تُمثّل «نوع النشاط» (عُقد نوع النشاط). أمّا \(E\) فهي مجموعة الحواف التي تربط عُقد النشاط بعُقد نوع النشاط، كما تُربط عُقد نوع النشاط فيما بينها بحيث يكون الرسم البياني متصلاً إجمالاً. يُعرَّف لابلاسيان الرسم البياني الطبيعي المُناظَر ثم يُحلَّل طيفياً كالتالي: \[ \Delta = I - D^{-\frac{1}{2}} A D^{-\frac{1}{2}} = U\,\Lambda\,U^{\top} \] حيث \(I\) مصفوفة الهوية، و\(A \in \mathbb{R}^{n \times n}\) (مع \(n = |V|\)) هي مصفوفة المجاورة بحيث \(A_{ij} = 1\) إذا وُجدت حافة بين العقدة \(i\) والعقدة \(j\)، و\(D \in \mathbb{R}^{n \times n}\) مصفوفة قطرية تُعبّر عن درجات الرؤوس حيث \(D_{ii} = \sum_{j=1}^n A_{ij}\). أمّا \(\Lambda\) و\(U\) فهما مصفوفة القيم الذاتية (قطرية) ومصفوفة المتجهات الذاتية على الترتيب. ويُبنَى تضمين العقدة \(i\) على هيئة متجه \(\lambda_i \in \mathbb{R}^k\) مأخوذ من الصف \(i\) من \(U\) باختيار الأعمدة الموافقة لأصغر \(k\) قيم ذاتية غير تافهة (generalization-transformers). ولدمج تضمين العقدة \(\lambda_i \in \mathbb{R}^k\) مع تضمين النشاط المقابل \(X_i \in \mathbb{R}^d\)، نستخدم طبقة متصلة بالكامل \(\Theta \in \mathbb{R}^{k\times d}\) لإسقاطه إلى البعد \(d\) وضمان التوافق البُعدي.
طبقنا النموذج على مجموعة بيانات خاصة بإدارة السكتة الدماغية. تضمّنت المجموعة 5342 أثراً بمتوسط 15 نشاطاً من أصل 82 نشاطاً ممكناً (انظر الجدول [tab:traces_stats] لبعض الإحصاءات). ونظراً لاختلاف أطوال الحالات، استخدمنا الحشو لتوحيد أطوال التسلسلات، وأضاف النموذج رمزين خاصين يمثّلان «بداية التسلسل» و«نهاية التسلسل» في مطلع كل حالة ونهايتها. أمّا الأنطولوجيا، فبلغت 110 عقد و111 حافة بعد تمثيلها بيانياً.
دُرِّب المُحوِّل على مهمة النمذجة اللغوية ذاتية الانحدار (autoregressive language modeling) للتنبؤ بـ«النشاط التالي» استناداً إلى الأنشطة السابقة في التسلسل. استندت دالة الخسارة إلى الإنتروبيا المتقاطعة بين التوزيع الاحتمالي المُتنبَّأ به على جميع الأنشطة والرمز الحقيقي في بيانات التدريب. استبعدنا أثناء الحساب الأمثلة التي تحتوي على رموز الحشو أو رموز «بداية التسلسل»، ضماناً لعدم تأثيرها في التدرّجات، بينما أبقينا رمز «نهاية التسلسل» ليتعلّم النموذج توقيت الانتهاء.
قسّمنا البيانات بنسبة 80/10/10 (تدريب/تحقق/اختبار)، وقمنا بضبط المعاملات الفائقة باستخدام Optuna (optuna). يوضّح الجدول [tab:grid-search] مساحة البحث والإعدادات المثلى التي توصّلنا إليها.
في تجاربنا (انظر الجدول [tab:results])، قارنّا أداء النموذج باستخدام طريقتي الترميز الموضعي (PE وSPE) مع أحجام تضمين مختلفة، كما أضفنا نموذجاً مرجعياً يتخطّى طبقة PE. ولكل تكوين نفّذنا عشر تشغيلات ببذور عشوائية مختلفة لاختبار استقرار الدقّة. تُظهر النتائج استفادة واضحة من SPE، إذ حسّن الأداء بشكل ملحوظ عبر جميع الأحجام. كما بدت المقاييس مستقرة وبلغت حالة تشبّع عند حجم تضمين 64، مع تحسّن طفيف عند 128، دون دلائل على إفراط في التعلّم.
ومن النتائج اللافتة أيضاً أنّ الترميز الموضعي الكلاسيكي (PE) لم يحقّق فائدة ملموسة، ربّما لأن سلوك العملية يعتمد أكثر على الأنشطة المُنفَّذة فعلياً منه على ترتيبها المجرّد فحسب. وهذا يفسّر استفادة النموذج من SPE، إذ إن الأنشطة ذات الطبيعة المتشابهة تكون متقاربة بنيوياً في الأنطولوجيا، فتغدو Informationen الموقع البنيوي للنشاط داخل الرسم البياني أكثر نفعاً من موقعه التسلسلي الفردي.
قدّمنا نهجاً لمراقبة العمليات التنبؤية مع تطبيقٍ خاص في إدارة السكتة الدماغية. وباستغلال قوة نماذج المُحوِّل، أبرزنا إمكانيتها في التنبؤ الدقيق بالمعلومات الحرجة ضمن سجلات العمليات الجارية. وتمثّل الابتكار الرئيس في دمج المعرفة التخصصية عبر ترميز المواضع البنيوي، ما أسهم في رفع دقّة التنبؤات.
النتائج التجريبية الأولية مشجّعة وتؤكد فاعلية النهج المقترح. وتشير إلى أنّ مراقبة العمليات التنبؤية باستخدام مُحوِّلات مدعّمة بالمعرفة الأنطولوجية تحمل إمكانية كبيرة لدعم القرار الطبي في السيناريوهات المعقّدة.
في المستقبل، سنسعى للتحقّق من صحة النهج وتعزيزه عبر دراسات وتجارب إضافية، بما في ذلك اختبار تقنيات بديلة لتضمين عُقد الرسم البياني، واستكشاف تطبيق المنهجية على مجموعات بيانات مختلفة، ودراسة الأبعاد الزمنية بعمق أكبر.
نعبّر عن امتناننا لـ(chameleon) على توفير الموارد الحاسوبية التي دعمت تنفيذنا وتدريب نموذجنا. كريستوفر إروين وماركو دوسينا طالبان دكتوراه مُسجَّلان في البرنامج الوطني للدكتوراه في الذكاء الاصطناعي، الدورة الثامنة والثلاثون (علوم الصحة والحياة) بجامعة كامبوس بيو-ميديكو دي روما.
الكود المصدري لنموذج المُحوِّل وتنفيذ وحدة (SPE) متاح على: github.com/christopher-irw/proformer_ce. يحتوي المستودع على الكود اللازم لتدريب نموذج المُحوِّل على تحدي (BPI 2012). بالإضافة إلى ذلك، نوفر مثالاً بسيطاً لأنطولوجيا الأفعال في مجموعة البيانات لتطبيق تقنية (SPE).