Разработка и валидация машинных моделей с использованием обработки естественного языка для классификации веществ, участвующих в смертях от передозировки
Абстрактный
Важность передозировки является одной из ведущих причин смерти в США; однако данные эпиднадзора значительно отстают от определения смерти медицинским экспертом до отчетности в национальных докладах о наблюдении.
Цель Автоматизировать классификацию смертей, связанных с веществами, в данных медицинских экспертов с использованием обработки естественного языка (НЛП) и машинного обучения (ML).
Диагностическое исследование «Дизайн, настройка и участники», сравнивающее различные алгоритмы обработки естественного языка и машинного обучения для выявления веществ, связанных с передозировкой, в 10 юрисдикциях здравоохранения в США с 1 января 2020 года по 31 декабря 2020 года. Был изучен неструктурированный текст из 35 433 записей о смерти судмедэкспертов и коронеров.
Экспозиция Текст из каждого случая вручную классифицировался по веществу, которое было связано со смертью. Были использованы и сопоставлены три метода представления признаков: частота текста с обратной частотой документа (TF-IDF), глобальные векторы для словесных представлений (GloVe) и встраивание уникального идентификатора концепции (CUI). Было обучено несколько алгоритмов ML, и лучшие модели были выбраны на основе F-баллов. Лучшие модели были протестированы на тестовом наборе, и результаты были сообщены с 95% CI.
Текстовые данные из свидетельств о смерти были классифицированы как любые опиоиды, фентанил, алкоголь, кокаин, метамфетамин, героин, опиоиды, отпускаемые по рецепту, и совокупность других веществ. Диагностические метрики и 95% CI были рассчитаны для каждой комбинации метода извлечения признаков и классификатора машинного обучения.
Результаты из 35 433 проанализированных записей о смерти (средний возраст умерших, 58 лет [IQR, 41-72 года]; 24 449 [69%] были мужчинами), наиболее распространенные вещества, связанные со смертями, включали любой опиоид (5739 [16%]), фентанил (4758 [13%]), алкоголь (2866 [8%]), кокаин (2247 [6%]), метамфетамин (1876 [5%]), героин (1613 [5%]), опиоиды, отпускаемые по рецепту (1197 [3%]) и любые бензодиазепины (1076 [3%]). Встраивание CUI имело аналогичные или лучшие диагностические показатели по сравнению с встраиванием слов и TF-IDF для всех веществ, кроме алкоголя. Классификаторы ML имели идеальную или почти идеальную производительность в классификации смертей, связанных с любыми опиоидами, героином, фентанилом, опиоидами, отпускаемыми по рецепту, метамфетамином, кокаином и алкоголем. Классификация бензодиазепинов была неоптимальной с использованием всех 3 методов экстракции признаков.
Выводы и актуальность В этом диагностическом исследовании алгоритмы НЛП/МО продемонстрировали отличные диагностические показатели при классификации веществ, связанных с передозировками. Эти алгоритмы должны быть интегрированы в рабочие процессы, чтобы уменьшить время задержки при представлении данных наблюдения за передозировкой.