Format
Scientific article
Publication Date
Published by / Citation
Goodman-Meza D, Shover CL, Medina JA, Tang AB, Shoptaw S, Bui AAT. Development and Validation of Machine Models Using Natural Language Processing to Classify Substances Involved in Overdose Deaths. JAMA Netw Open. 2022;5(8):e2225593. doi:10.1001/jamanetworkopen.2022.25593
Original Language

انگلیسی

Country
ایالات متحده آمریکا
Keywords
machine learning
overdose deaths
overdose

توسعه و اعتبار سنجی مدل های ماشینی با استفاده از پردازش زبان طبیعی برای طبقه بندی مواد درگیر در مرگ و میر ناشی از مصرف بیش از حد

آبستره

اهمیت مصرف  بیش از حد یکی از علل اصلی مرگ و میر در ایالات متحده است; با این حال ، تاخیر داده های نظارت قابل توجهی از تعیین پزشکی قانونی مرگ به گزارش در گزارش نظارت ملی است.

هدف به صورت  خودکار طبقه بندی مرگ و میر مربوط به مواد در داده های معاینه پزشکی با استفاده از پردازش زبان طبیعی (NLP) و یادگیری ماشین (ML).

طراحی، تنظیم و مطالعه تشخیصی شرکت کنندگان در مقایسه با الگوریتم های مختلف پردازش زبان طبیعی و یادگیری ماشین برای شناسایی مواد مربوط به مصرف بیش از حد در 10 حوزه قضایی سلامت در ایالات متحده از 1 ژانویه 2020، تا 31 دسامبر 2020.   متن بدون ساختار از 35 433 پزشک قانونی و سوابق مرگ پزشکان قانونی مورد بررسی قرار گرفت.

متن مواجهه از  هر مورد به صورت دستی به ماده ای که مربوط به مرگ بود طبقه بندی شد. سه روش بازنمایی ویژگی مورد استفاده قرار گرفت و مقایسه شد: فرکانس متن-فرکانس سند معکوس (TF-IDF)، نا برداری های جهانی برای بازنمایی کلمات (GloVe)، و جانمایی های شناسایی کننده منحصر به فرد مفهوم (CUI) . چندین الگوریتم میلی لیتری آموزش دیده و بهترین مدل ها بر اساس نمرات F انتخاب شدند. بهترین مدل ها بر روی یک مجموعه آزمون نگه داشتن مورد آزمایش قرار گرفت و نتایج با 95٪ حسابهای گزارش شد.

نتایج اصلی و اندازه گیری داده های متنی از گواهی فوت به عنوان هر گونه مواد مخدر، فنتانیل، الکل، کوکائین، مت آمفتامین، هروئین، مواد مخدر تجویزی، و مجموع مواد دیگر طبقه بندی شد.   معیارهای تشخیصی و 95٪ سی ای اس برای هر ترکیبی از روش استخراج ویژگی و طبقه بندی یادگیری ماشین محاسبه شد.

نتايج 35 433 مورد مرگ و میر مورد تجزیه و تحلیل قرار گرفت (سن متوسط مناسب، 58 سال [IQR، 41-72 سال]؛ 24 449 [69٪] مرد بودند)، شایع ترین مواد مربوط به مرگ و میر شامل هر گونه مواد مخدر (5739 [16٪])، فنتانیل (4758 [13٪])، الکل (2866 [8٪])، کوکائین (2247 [6٪])، مت آمفتامین (1876 [5٪])، هروئین (1613 [5٪])، مواد مخدر نسخه (1197 [3٪])، و هر بنزودیازپین (1076 [3٪]).   جا افتاده های CUI معیارهای تشخیصی مشابه یا بهتری در مقایسه با جائیز کلمه و TF-IDF برای همه مواد به جز الکل داشتند. طبقه بندی کننده های میلی لیتر عملکرد کامل یا نزدیک به کامل در طبقه بندی مرگ و میر مربوط به هر گونه مواد مخدر، هروئین، فنتانیل، مواد مخدر تجویزی، مت آمفتامین، کوکائین، و الکل داشت. طبقه بندی بنزودیازپینز با استفاده از تمام 3 روش استخراج ویژگی زیر چند برابر بود.

نتیجه گیری  و ارتباط در این مطالعه تشخیصی، الگوریتم های NLP/ML عملکرد تشخیصی بسیار خوبی را در طبقه بندی مواد مربوط به مصرف بیش از حد نشان داد. این الگوریتم ها باید به جریان کار یکپارچه به منظور کاهش زمان عقب مازاد در گزارش داده های نظارت بیش از حد.