分类的损失函数使用什么? 一般约定俗称的使用cross-entropy损失函数。 交叉熵的概念来自信息论,一般形式如下: H ( p , q ) = ? ∑ c = 1 C p ( c ) l o g q ( c ) H(p,q)=-\sum_{c=1}^Cp(c)logq(c) H(p,q)=?∑c=1C?p(c)logq(c) 其中, p p p代表真实的概率分布; q q q代表预测的概率分布,c代表的是某一种分类。 在分类情况当中,p=[0,0,0,1,0,0…] 因此某个样本i的交叉熵损失如下: H ( i ) = ? l o g q ( c ) = ? l o g e y i ∑ k e k H(i)=-logq(c)=-log\frac{e^{y^i}}{\sum_k e^k} H(i)=?logq(c)=?log∑k?ekeyi?
Named Entity Recognition 命名实体识别具体操作是什么? 命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。 NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。 难点在于实体的边界、词性、甚至于是不是实体都很难区分,这与上下文有着密切的关系。
Word Window Classification是什么含义? 一个单词可能同时具有多个词性或者含义,这里指根据上下文来确定某一单词的具体含义。 上下文,指的是window范围内的单词,我们把这些单词作为一个向量输入到我们的模型当中来。
Note
NLP deep learning与一般的分类器有什么区别? 从功能角度来看,dl可以做更加复杂的非线性分类器; 从原理来看,NLP dl同时进行两个步骤,一是单词的向量表示求解,二是多层神经网络的权重以及偏差求解,这两者都是参数。
Binary classification for NER Location原理简介。 目的:求解出文本中NER的位置 思想:系统对于window中心为NER的情况输出较高的分数,否则输出较低的分数