当前位置: 代码迷 >> 综合 >> cs224n NLP with dl笔记(三)
  详细解决方案

cs224n NLP with dl笔记(三)

热度:27   发布时间:2023-12-19 00:44:25.0

Word Window Classification, Neural Networks, and Matrix Calculus

Preview

  1. 如何使用传统的ML/Stats方法进行分类?
    训练softmax或者是Logistic回归分类器决定决策边界。
    但是他们的局限性在于仅仅能够求出线性边界,对于复杂的情况没有办法处理。
    这时就需要引入神经网络了。
  2. 分类的损失函数使用什么?
    一般约定俗称的使用cross-entropy损失函数。
    交叉熵的概念来自信息论,一般形式如下:
    H ( p , q ) = ? ∑ c = 1 C p ( c ) l o g q ( c ) H(p,q)=-\sum_{c=1}^Cp(c)logq(c) H(p,q)=?c=1C?p(c)logq(c)
    其中, p p p代表真实的概率分布; q q q代表预测的概率分布,c代表的是某一种分类。
    在分类情况当中,p=[0,0,0,1,0,0…]
    因此某个样本i的交叉熵损失如下:
    H ( i ) = ? l o g q ( c ) = ? l o g e y i ∑ k e k H(i)=-logq(c)=-log\frac{e^{y^i}}{\sum_k e^k} H(i)=?logq(c)=?logk?ekeyi?
  3. Named Entity Recognition 命名实体识别具体操作是什么?
    命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
    NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
    难点在于实体的边界、词性、甚至于是不是实体都很难区分,这与上下文有着密切的关系。
  4. Word Window Classification是什么含义?
    一个单词可能同时具有多个词性或者含义,这里指根据上下文来确定某一单词的具体含义。
    上下文,指的是window范围内的单词,我们把这些单词作为一个向量输入到我们的模型当中来。

Note

  1. NLP deep learning与一般的分类器有什么区别?
    从功能角度来看,dl可以做更加复杂的非线性分类器;
    从原理来看,NLP dl同时进行两个步骤,一是单词的向量表示求解,二是多层神经网络的权重以及偏差求解,这两者都是参数。
  2. Binary classification for NER Location原理简介。
    目的:求解出文本中NER的位置
    思想:系统对于window中心为NER的情况输出较高的分数,否则输出较低的分数
    在这里插入图片描述
    使用中间层的意义在于描述单词之间非线性的关系,比如如果第一个单词是museum、后边是in,那么接下来的单词很可能是Loc。
  3. Jacobian矩阵的性质