当前位置: 代码迷 >> 综合 >> BERT(Bidirectional Encoder Representation from Transformers)及其发展史
  详细解决方案

BERT(Bidirectional Encoder Representation from Transformers)及其发展史

热度:20   发布时间:2023-12-06 20:27:53.0

文章参考了比较多博客,直接想了解bert的,可以直接看 2.Bert细则

文章目录

    • 1. word2vec,ELMo,BERT亮点与区别
      • 1.1 发展史
        • word2vec——>ELMo
        • ELMo——>BERT
      • 1.2. Elmo
          • 优点
          • 不足
      • 1.3. Bert
          • 特点
      • 1.4. 三者对比
    • 2. BERT细则
      • 2.1. Masked Language Model
      • 2.2 Next Sentence Predictio(NSP)
      • 2.2. Transformer —— attention is all you need
        • 2.2.1. multi-head attention
        • 2.2.2. self-attention
        • 2.2.3. position encoding
      • 2.3. sentence-level representation
        • 2.3.1. 句子级负采样
        • 2.3.2. 句子级表示
    • 3. 迁移策略
    • 4. 运行结果
        • 4.1. GLUE数据集-句子关系判断及分类
        • 4.2. SQuAD抽取式任务-CoNLL2003命名实体识别
        • 4.3. SWAG-分类任务
    • 5. [BERT的可能改进方向](http://baijiahao.baidu.com/s?id=1647838632229443719&wfr=spider&for=pc)(from 张俊林)
        • 5.1. 文本生成模型
        • 5.2. 结构化知识引入
        • 5.3. 多模态融合
        • 5.4. 更大、更高质量的训练数据
        • 5.5. 更合适的训练目标和训练方法
        • 5.6. 多语言融合
    • 6. 探寻黑盒系统的方法
        • 6.1. 可视化(2D t-SEN),用2D图的方式展示
        • 6.2. Attention图
        • 6.3. Probing Classifier
        • 6.4. Edge Probing Classifier
    • 6. 参考文献

<
  相关解决方案