Semantic Embedding for Medical Providers and Fraud Detection_综合

论文传送门

作者

佛罗里达大西洋大学

Justin M. Johnson
Taghi M. Khoshgoftaar

摘要

一个医疗提供者的专业是一个重要的预测指标，可以用机器学习算法检测出欺诈提供者。然而，当特殊变量编码使用 one-hot 表示，模型接受稀疏和信息量不大的特征向量。我们探讨了三种技术，用于使用密集的语义嵌入表示医疗提供者类型，从而捕获专业相似性。前两种方法(GloVe和Med-Word2Vec)使用预先训练好的单词嵌入来将提供者的专业描述转换为短语嵌入。接下来，我们提出了一种从每个专业组的过程级活动构建语义提供者类型嵌入的方法。对于每种嵌入技术，我们使用主成分分析来比较32-128之间的嵌入尺寸的性能。使用Logistic回归(LR)、随机森林(RF)、梯度提升树(GBT)和多层感知器(MLP)，在高度不平衡的医疗保险欺诈预测任务上评估每种嵌入技术。实验重复30次，置信区间表明，在使用RF和GBT时，所有三种语义嵌入都明显优于one-hot表示。我们的贡献包括一种新的方法嵌入医疗专业的程序代码和比较三种为医疗保险欺诈检测的语义嵌入技术。

Introduction

在以前的所有医疗保险欺诈工作中，提供者类型要么被排除在功能集之外，要么被表示为one hot向量。然而，相关的工作表明，提供者类型之间有大量的重叠，等距的单热点向量无法捕捉这些提供者类型的相似性。我们通过探索提供者类型变量的三种语义嵌入技术，并将结果与传统的单热点向量结果进行比较来解决这个问题。

在本文中，我们使用预先训练的单词嵌入来捕获提供者类型的相似性.

GloVe
Med-Word2Vec
HcpcsVec

据我们所知，这是第一个探索用于医疗保险欺诈检测的语义提供者类型嵌入技术的工作

Methods

医疗保险提供者的嵌入技术使用 CMS 2012-2016 医疗保险乙部分数据集进行评估。
statistics 和 one-hot 编码提供者性别，有 32 个数字属性、一个分类提供者类型属性和一个用于模型训练的类标签。

我们通过将数据随机分成 80-20%来创建模型评估的训练和测试集。所有实验都使用相同的测试集。使用min-max scaler将所有特征归一化到范围[0，1]。最后，我们用一组新的属性替换分类提供者类型变量，这些属性是在训练时从四种嵌入技术中的一种获得的。

在这项研究中，我们将这些嵌入称为 Med-Word2Vec 嵌入，因为它们是使用 Word2Vec 模型从大型生物医学语料库中归纳出来的[14]。对于这两种单词嵌入技术，我们使用 P+PCA 算法[32]根据初步结果将单词嵌入的维数减少到 32、64 和 128 的长度。

第三种嵌入技术(HcpcsVec)使用训练数据从专业-HCPCS 发生矩阵构建密集的提供者类型表示。

Results and Discussion

Conclusion

传统的表示不能捕捉提供者类别之间的相似性。我们通过评估三种构建医学专业的密集语义表示的技术来解决这个问题。
前两种方法，GloVe 和 Med-Word2Vec，使用它们的文本描述和预先训练的单词嵌入的非加权平均值，将提供者类型变量转换为短语嵌入。然后，我们提出了一种新的提供者类型嵌入，HcpcsVec，它通过聚集历史过程级数据来创建一个专业 HCPCS 发生矩阵
在未来的工作中，我们计划探索新的编码和降维技术，将这些嵌入应用于替代医学基准，并研究特征的重要性。