注释--------------------------------------------------------------------------------------------------------------------------
关于bert的一些使用问题具体看我这个博客:transformer bert使用教程_py机器学习深度学习的博客-CSDN博客
1 用自己的话来叙述 bert与transformer的不同:
1 bert只有transformer的encode 结构 ,是生成语言模型
2 bert 加入了输入句子的 mask机制,在输入的时候会随机mask
3 模型接收两个句子作为输入,并且预测其中第二个句子是否在原始文档中也是后续句子 可以做对话机制的应答。
4 在训练 BERT 模型时,Maske