transformer详解---bert 详解---GPT---ELMO---xlnet

热度：92 发布时间：2023-12-26 09:10:20.0

注释--------------------------------------------------------------------------------------------------------------------------

关于bert的一些使用问题具体看我这个博客：transformer bert使用教程_py机器学习深度学习的博客-CSDN博客

1 用自己的话来叙述 bert与transformer的不同：

1 bert只有transformer的encode 结构，是生成语言模型

2 bert 加入了输入句子的 mask机制，在输入的时候会随机mask

3 模型接收两个句子作为输入，并且预测其中第二个句子是否在原始文档中也是后续句子可以做对话机制的应答。

4 在训练 BERT 模型时，Maske

查看全文

相关解决方案

BERT（原理篇）
Transformer-XL 语言模型
Transformer-XL介绍-transformer和BERT固定长度切分存在的问题和解决方案
transformer-----------编码器部分实现过程
transformer--编码部分
3. 编写一个Transformer模型：BERT（3.1 如何实现一个BERT）
Tensorflow2.0之理解语言的 Transformer 模型
突破瓶颈，打造更强大的 Transformer
BERT Word Embeddings Tutorial
transformer 十问
《Dependency Graph Enhanced Dual-transformer Structure for Aspect-based Sentiment Classification》阅读笔记
已解决：KeyError: ‘Transformer/encoderblock_0/MultiHeadDotProductAttention_1/query\\kernel is
BERT:Bidirectional Encoder Representation from Transformers
Bert 实战--学习资料的搜集
论文浅尝|GRAPH-BERT: Only Attentionis Needed for Learning Graph Representations
论文浅尝 | K-BERT: Enabling Language Representation with Knowledge Graph
课程七学习笔记： Swin Transformer-2
课程六学习笔记：Swin Transformer-1
（五十八）：Semi-Autoregressive Transformer for Image Captioning
(九)：Pyramid Vision Transformer
机器学习笔记（14）Transformer(三):positional encoding的理解
机器学习笔记（13）Transformer(二):self-attention与seq-seq中的attention不同
机器学习笔记（8）Transformer(一):self-attention与block
推荐系统——Behavior Sequence Transformer for E-commerce Recommendation in Alibaba(BST)
Transformer 又立功了！又快(420 fps)又好的车道线检测算法
bert-lstm调参记录
《The Annotated Transformer》翻译——注释和代码实现《Attention Is All You Need》
Hugging Face主页课程第一篇《Transformer models》
pytorch转onnx模型多输入问题（如：Bert）
2020-RecSys-SSE-PT: Sequential Recommendation Via Personalized Transformer