文章参考了比较多博客,直接想了解bert的,可以直接看 2.Bert细则
文章目录
-
- 1. word2vec,ELMo,BERT亮点与区别
-
- 1.1 发展史
-
- word2vec——>ELMo
- ELMo——>BERT
- 1.2. Elmo
-
-
- 优点
- 不足
-
- 1.3. Bert
-
-
- 特点
-
- 1.4. 三者对比
- 2. BERT细则
-
- 2.1. Masked Language Model
- 2.2 Next Sentence Predictio(NSP)
- 2.2. Transformer —— attention is all you need
-
- 2.2.1. multi-head attention
- 2.2.2. self-attention
- 2.2.3. position encoding
- 2.3. sentence-level representation
-
- 2.3.1. 句子级负采样
- 2.3.2. 句子级表示
- 3. 迁移策略
- 4. 运行结果
-
-
- 4.1. GLUE数据集-句子关系判断及分类
- 4.2. SQuAD抽取式任务-CoNLL2003命名实体识别
- 4.3. SWAG-分类任务
-
- 5. [BERT的可能改进方向](http://baijiahao.baidu.com/s?id=1647838632229443719&wfr=spider&for=pc)(from 张俊林)
-
-
- 5.1. 文本生成模型
- 5.2. 结构化知识引入
- 5.3. 多模态融合
- 5.4. 更大、更高质量的训练数据
- 5.5. 更合适的训练目标和训练方法
- 5.6. 多语言融合
-
- 6. 探寻黑盒系统的方法
-
-
- 6.1. 可视化(2D t-SEN),用2D图的方式展示
- 6.2. Attention图
- 6.3. Probing Classifier
- 6.4. Edge Probing Classifier
-
- 6. 参考文献