Виявлення нових і нових умов наркотиків з використанням природної мови обробки: соціальні медіа корпус дослідження

Format
Scientific article
Publication Date
Published by / Citation
Simpson SS, Adams N, Brugman CM, Conners TJ Detecting Novel and Emerging Drug Terms Using Natural Language Processing: A Social Media Corpus Study JMIR Public Health Surveill 2018;4(1):e2 URL: https://publichealth.jmir.org/2018/1/e2 DOI: 10.2196/publichealth.7726 PMID: 29311050
Original Language

Англійська

Country
США
Keywords
natural language processing
street drugs
social media
vocabulary
Twitter

Виявлення нових і нових умов наркотиків з використанням природної мови обробки: соціальні медіа корпус дослідження

Абстрактні

Довідкова інформація: З швидким розвитком нових психоактивних речовин (NPS) і зміни у використанні більш традиційних ліків, вона стає все більш важким для дослідників і медичних працівників, щоб йти в ногу з новими наркотиками і наркотиками. Дослідження речовини та засоби діагностики повинні бути в змозі запитати про речовини, використовуючи терміни, які самі користувачі наркотиків, ймовірно, буде використовувати. Аналіз соціальних засобів масової інформації може запропонувати нові шляхи для дослідників, щоб розкрити і відслідковувати зміни в умовах наркотиків в найближчому часі. Це дослідження описує початкові результати від інноваційного співробітництва між речовиною використання епідеміологів та лінгвістичних вчених з використанням методів з області обробки природної мови для вивчення пов'язаних з наркотиками термінів у зразку Tweets зі Сполучених Штатів.

Мета: Мета цього дослідження полягала в тому, щоб оцінити доцільність використання розподілених Word-векторних заливки, підготовлених на даних соціальних медіа для розкриття раніше невідомих (для дослідників) умови наркотиків.

Методи: У цьому пілотному дослідженні ми навчили безперервну сумку слів (CBOW) модель розподілених слів вектор заливки на щебет даних, зібраних протягом липня 2016 (приблизно 884 200 000 токенів). Ми просимо підготовлений слово заливки для термінів з високою схожість косинуса (проксі для семантичного спорідненості) до відомих сленгу умови для марихуани для отримання списку термінів кандидата, ймовірно, функціонувати як сленгу умови для цієї речовини. Цей список кандидатів був потім в порівнянні з експертом генеруються список термінів марихуани для оцінки точності і ефективності використання Word-векторні заливки для пошуку нових термінології наркотиків.

Результати: Описаний тут метод випустив список 200 кандидатів умови для цільової речовини (марихуана). З цих 200 кандидатів, 115 були визначені насправді відносяться до марихуани (65 умови для самої речовини, 50 умови, пов'язані з атрибутикою). Це включало 30 термінів, які були використані для посилання на цільову речовину в корпус ще не з'явилися в експертному списку і тому вважалися успішними випадками розкриття нової термінології наркотиків. Деякі з цих нових термінів, як видається, були введені останнім часом як 1 або 2 місяці до шматок часу корпус використовується для навчання слово заливки.

Висновки: Хоча точність методу, описаного тут є досить низькою, як ще вимагають людського огляду будь-якого кандидата списки термінів, створених таким чином, той факт, що цей процес був в змозі виявити 30 нових термінів для цільової речовини, заснованої тільки на суму одного місяця Twitter даних є вельми перспективним. Ми бачимо це експериментальне дослідження, як важливе доказ концепції і перший крок на шляху виробництва повністю автоматизований термін виявлення наркотиків система здатна відслідковувати нові умови NPS в режимі реального часу.