الكشف عن مصطلحات جديدة والمخدرات الناشئة باستخدام معالجة اللغة الطبيعية: دراسة وسائل الإعلام الاجتماعية

Format
الملصقات
Publication Date
Published by / Citation
Simpson SS, Adams N, Brugman CM, Conners TJ Detecting Novel and Emerging Drug Terms Using Natural Language Processing: A Social Media Corpus Study JMIR Public Health Surveill 2018;4(1):e2 URL: https://publichealth.jmir.org/2018/1/e2 DOI: 10.2196/publichealth.7726 PMID: 29311050
Original Language

إنجليزية

Country
الولايات المتحدة الأمريكية
Keywords
natural language processing
street drugs
social media
vocabulary
Twitter

الكشف عن مصطلحات جديدة والمخدرات الناشئة باستخدام معالجة اللغة الطبيعية: دراسة وسائل الإعلام الاجتماعية

مجرده

معلومات أساسية: ومع التطور السريع للمؤثرات العقلية الجديدة والتغيرات في استخدام العقاقير الأكثر تقليدية، يزداد من الصعب على الباحثين والممارسين في مجال الصحة العامة مواكبة الأدوية الناشئة ومصطلحات المخدرات. وينبغي أن تكون الدراسات الاستقصائية لاستعمال المواد وأدوات التشخيص قادرة على السؤال عن المواد التي تستخدم المصطلحات التي يحتمل أن يستخدمها متعاطو المخدرات أنفسهم. قد توفر تحليلات وسائل التواصل الاجتماعي طرقًا جديدة للباحثين للكشف عن التغيرات في الأدوية وتتبعها في الوقت الفعلي القريب. تصف هذه الدراسة النتائج الأولية من التعاون المبتكر بين أخصائيي الأوبئة في استخدام المواد المخدرة والعلماء اللغويين الذين يستخدمون تقنيات من مجال معالجة اللغة الطبيعية لدراسة المصطلحات المتعلقة بالمخدرات في عينة من التغريدات من الولايات المتحدة.

الهدف: كان الهدف من هذه الدراسة هو تقييم جدوى استخدام تضمينات كلمة ناقلات موزعة مدربة على بيانات وسائل التواصل الاجتماعي للكشف عن مصطلحات المخدرات التي لم تكن معروفة من قبل (للباحثين).

الطرق: في هذه الدراسة التجريبية، قمنا بتدريب نموذج مستمر لحقيبة من الكلمات (CBOW) من تضمينات متجه الكلمات الموزعة على مجموعة بيانات تويتر تم جمعها خلال يوليو 2016 (حوالي 884.2 مليون رمز مميز). نحن استفسرت عن تضمين الكلمة المدربة للمصطلحات ذات التشابه الجيبي العالي (وكيل للارتباط الدلالي) إلى المصطلحات العامية المعروفة للماريجوانا لإنتاج قائمة من المصطلحات المرشحة التي من المرجح أن تعمل كمصطلحات عامية لهذه المادة. ثم تمت مقارنة قائمة المرشحين هذه بقائمة من مصطلحات الماريجوانا التي أنشأها الخبراء لتقييم دقة وفعالية استخدام تضمينات ناقلات الكلمات للبحث عن مصطلحات جديدة للمخدرات.

النتائج: أنتجت الطريقة الموصوفة هنا قائمة من 200 شروط المرشح للمادة المستهدفة (الماريجوانا). ومن بين هؤلاء المرشحين البالغ عددهم 200 مرشح، تقرر أن 115 مرشحا تتعلق في الواقع بالماريجوانا (65 مصطلحا للمادة نفسها، و 50 مصطلحا تتعلق بالأدوات). وشمل ذلك 30 مصطلحا استخدمت للإشارة إلى المادة المستهدفة في المجموعة ولكنها لم ترد في القائمة التي وضعها الخبراء، ولذلك اعتُبرت حالات ناجحة للكشف عن مصطلحات جديدة للمخدرات. يبدو أن العديد من هذه المصطلحات الجديدة قد تم تقديمها مؤخرًا قبل شهر أو شهرين من شريحة وقت المجموعة المستخدمة لتدريب تضمين الكلمات.

الاستنتاجات: على الرغم من أن دقة الطريقة الموصوفة هنا منخفضة بما يكفي بحيث لا تزال تتطلب مراجعة بشرية لأي قوائم المصطلحات المرشحة التي تم إنشاؤها بهذه الطريقة ، فإن حقيقة أن هذه العملية كانت قادرة على اكتشاف 30 مصطلحًا جديدًا للمادة المستهدفة استنادًا إلى قيمة شهر واحد فقط من بيانات Twitter أمر واعد للغاية. ونحن نرى هذه الدراسة التجريبية كدليل مهم على المفهوم وخطوة أولى نحو إنتاج نظام اكتشاف مصطلح المخدرات الآلي بالكامل قادر على تتبع مصطلحات NPS الناشئة في الوقت الحقيقي.