Detecção de romance e emergentes droga termos usando a linguagem de Natural transformação: um estudo de Corpus de mídias sociais

Format
Scientific article
Publication Date
Published by / Citation
Simpson SS, Adams N, Brugman CM, Conners TJ Detecting Novel and Emerging Drug Terms Using Natural Language Processing: A Social Media Corpus Study JMIR Public Health Surveill 2018;4(1):e2 URL: https://publichealth.jmir.org/2018/1/e2 DOI: 10.2196/publichealth.7726 PMID: 29311050
Original Language

inglês

Country
Estados Unidos
Keywords
natural language processing
street drugs
social media
vocabulary
Twitter

Detecção de romance e emergentes droga termos usando a linguagem de Natural transformação: um estudo de Corpus de mídias sociais

RESUMO

Fundo: Com o rápido desenvolvimento de novas substâncias psicoactivas (NPS) e mudanças no uso de drogas mais tradicionais, é cada vez mais difícil para pesquisadores e profissionais de saúde pública acompanhar as drogas emergentes e termos de droga. Substância usar pesquisas e ferramentas de diagnóstico precisam ser capaz de perguntar sobre substâncias usando os termos que os próprios usuários de drogas são susceptíveis de estar usando. Análises de social media podem oferecer novas maneiras para os investigadores a descobrir e rastrear alterações em termos de droga em tempo real. Este estudo descreve os resultados iniciais de uma colaboração inovadora entre epidemiologistas de uso de substância e cientistas linguísticos, empregando técnicas da área de processamento de linguagem natural para examinar os termos relacionados com a droga em uma amostra de tweets dos Estados Unidos.

Objetivo: O objetivo deste estudo foi avaliar a viabilidade do uso de palavra-vector distribuídos embeddings treinados sobre social media dados para descobrir drogas anteriormente desconhecidos (pesquisadores) termos.

Métodos: Neste estudo piloto, treinamos um saco contínuo do modelo de palavras (CBOW) de embeddings palavra-vector distribuídos em um dataset Twitter coletado durante julho de 2016 (tokens de aproximadamente 884,2 milhões). Nós consultado embeddings a palavra treinada para termos com similaridade de cosseno elevado (um proxy para parentesco semântico) de gírias conhecida por maconha produzir uma lista de termos candidato prováveis funcionar como gírias para esta substância. Esta lista de candidatos foi então comparada com uma lista gerado pelo perito de termos maconha para avaliar a precisão e a eficácia do uso de palavra-vector embeddings para pesquisar terminologia droga de novela.

Resultados: O método descrito aqui produziu uma lista de 200 termos de candidato para a substância alvo (maconha). Dos 200 candidatos, 115 foram determinados para de fato se relacionam à maconha (65 termos para a substância em si, 50 termos relacionados à parafernália). Isso incluía 30 termos que eram usados para se referir à substância alvo no corpus ainda não apareceu na lista de especialista-gerado e, portanto, eram considerados casos bem sucedidos de terminologia de drogas romance descobrindo. Vários destes novos termos aparecem ter sido introduzida recentemente, em 1 ou 2 meses antes que a fatia de tempo do corpus utilizado para treinar a palavra embeddings.

Conclusões: Embora a precisão do método descrito aqui é baixa o suficiente para que ainda exigem revisão humana de qualquer listas de termo candidato gerada de tal forma, o fato de que este processo foi capaz de detectar 30 novos termos para a substância alvo com base apenas em um mês Vale do Twitter dados são altamente promissoras. Vemos este estudo piloto como uma importante prova de conceito e um primeiro passo para produzir um sistema de descoberta de termo droga totalmente automatizado capaz de termos emergentes de NPS em tempo real.