تطوير نماذج الآلات والتحقق من صحتها باستخدام معالجة اللغات الطبيعية لتصنيف المواد المشاركة في وفيات الجرعة الزائدة
تجريدي
أهمية الجرعة الزائدة هي واحدة من الأسباب الرئيسية للوفاة في الولايات المتحدة. ومع ذلك، فإن بيانات الترصد متخلفة إلى حد كبير من تحديد الفاحص الطبي للوفاة إلى الإبلاغ عنها في تقارير الترصد الوطنية.
الهدف أتمتة تصنيف الوفيات المتعلقة بالمواد في بيانات الفاحص الطبي باستخدام معالجة اللغة الطبيعية (NLP) والتعلم الآلي (ML).
التصميم والإعداد والمشاركين دراسة تشخيصية تقارن بين مختلف خوارزميات معالجة اللغات الطبيعية والتعلم الآلي لتحديد المواد المتعلقة بالجرعة الزائدة في 10 ولايات قضائية صحية في الولايات المتحدة من 1 يناير 2020 إلى 31 ديسمبر 2020. تم فحص نص غير منظم من 35433 سجلات وفاة الطبيب الشرعي والأطباء الشرعيين.
تم تصنيف نص من كل حالة يدويا إلى مادة مرتبطة بالوفاة. تم استخدام ثلاث طرق لتمثيل المعالم ومقارنتها: تردد المستند العكسي لتردد النص (TF-IDF) ، والمتجهات العالمية لتمثيلات الكلمات (GloVe) ، وتضمين المعرف الفريد للمفهوم (CUI). تم تدريب العديد من خوارزميات ML وتم اختيار أفضل النماذج بناء على درجات F. تم اختبار أفضل النماذج على مجموعة اختبار معلقة وتم الإبلاغ عن النتائج بنسبة 95٪ CIs.
النتائج والتدابير الرئيسية صنفت البيانات النصية من شهادات الوفاة على أنها أي مواد أفيونية وفنتانيل وكحول وكوكايين وميثامفيتامين وهيروين وأفيون بوصفة طبية ومجموعة من المواد الأخرى. تم حساب المقاييس التشخيصية و 95٪ CIs لكل مجموعة من طريقة استخراج الميزات ومصنف التعلم الآلي.
نتائج 35433 سجل وفاة تم تحليلها (متوسط عمر المتوفى، 58 سنة [IQR، 41-72 سنة]؛ 24449 [69٪] من الذكور)، وشملت المواد الأكثر شيوعا المتعلقة بالوفيات أي مادة أفيونية (5739 [16٪])، والفنتانيل (4758 [13٪])، والكحول (2866 [8٪])، والكوكايين (2247 [6٪])، والميثامفيتامين (1876 [5٪])، والهيروين (1613 [5٪])، والمواد الأفيونية الموصوفة طبيا (1197 [3٪])، وأي بنزوديازيبين (1076 [3٪]). كان لتضمين CUI مقاييس تشخيصية مماثلة أو أفضل مقارنة بتضمين الكلمات و TF-IDF لجميع المواد باستثناء الكحول. كان لمصنفات ML أداء مثالي أو شبه مثالي في تصنيف الوفيات المتعلقة بأي مواد أفيونية ، هيروين ، فنتانيل ، أفيونيات طبية ، ميثامفيتامين ، كوكايين ، وكحول. كان تصنيف البنزوديازيبينات دون المستوى الأمثل باستخدام جميع طرق استخراج الميزات 3.
الاستنتاجات والأهمية في هذه الدراسة التشخيصية ، أظهرت خوارزميات البرمجة اللغوية العصبية / ML أداء تشخيصيا ممتازا في تصنيف المواد المتعلقة بالجرعات الزائدة. يجب دمج هذه الخوارزميات في سير العمل لتقليل وقت التأخير في الإبلاغ عن بيانات مراقبة الجرعة الزائدة.