Abstract:
Motivation:基于C4(Colossal Clean Crawled Corpus)语料的T5(Text-to-Text Transfer Transformer)模型在一系列相关的NLP任务中达到了SOTA模型。过去十年,生物医药NLP任务变得越来越重要。本文介绍了基于T5的模型,并已被成功的转移到生物医药领域。
Result:SciFive是一个特定领域的T5模型,并在大规模生物医药语料上进行了预训练。模型在NER、RE、NLI、QA等任务上比目前的SOTA模型表现的更好。文本生成在广泛的医药NLP任务中具有更大的潜力,尤其是那些需要更长、更复杂输出的任务。我们的结果支持医药文本生成领域的进一步研究和这一领域中新方法的发展。
Introduction:
由于大量的文献需要被查询,文本生成任务例如文档摘要和问题回答可以让研究人员从大量的论文中快速获取到重要信息。目前的方法不能满足需求,故需要新的NLP方法来解析日益庞大的信息量。基于transformer的BERT模型在NLP任务中取得了SOTA模型。针对特定的领域,对BERT进行预训练成为了较好的方法。由于医药领域的语言和其他标准语料库相比具有显著的词汇差异,为了解决这个问题,在医药领域上预先训练了BERT模型。
Approach:
BERT模型不是一个统一的迁移学习方法,因为BERT风格的模型针对给定的输入只能产生单个预测。这些模型不是为文本生成而设计的。T5模型为每个输入输出一个文本字符串,允许问答问题、摘要和其他单一输出通常不足的任务。
主要贡献:
1、模型在NER和RE等医学NLP任务上达到了SOTA模型;
2、模型可以被扩展到需要扩展输出的任务,
Unlabeled Dataset:
PubMed Abstract:数据集包含超过3200万的医药文献的引用和摘要。为了模型预训练的,仅使用摘要部分。
PubMed Central(PMC):PMC是生物医学和生命科学的免费全文本语料。我们假设全文本的文章可以提高生物医药文本的学习能力同时任然可以获得一个一般化的自然语言表示。
Methods:
在这里我们保留了实现SciFive模型的方法,它保留了T5模型的原始结构和参数。
1、T5:T5模型和基于Transformer-based encoder-decoder模型高度相似;每个编码层包含了一个自注意力层和一个前馈神经网络,每个解码层包含了一个自注意力层,一个编码-解码注意力层和一个前馈神经网络。不同的是,layer normalization 被应用于每个编码和解码层中间。与BERT不同的是,额外的解码层可以使得T5模型产生序列化的文本输出。T5是一个自监督的预训练方法,通过一个span-based languange masking。
2、SciFive:原始的T5模型实现5种不同的模型size:small、Base、Large、3B和11B。由于计算资源的限制,仅仅使用base和large模型用于研究。base包含了2.2亿参数,lage包含了7.7亿参数。
3、Input/Output Representation:
4、Vocabulary:对于预训练模型来说,词汇起着很关键的作用,因为这些模型企图从训练语料中获取有效的上下文词汇向量表示。SciFive使用Sentence Piece作为基础词汇模型。Sentence Piece可以抽取包含序列中语义的字词。
5、Multi-Task Learning:
SciFive在所有任务中都使用了teacher forcing策略往着最大可能性目标进行训练,从而实现多任务学习。
6、Fine-tuning SciFive:
SciFIve在5种NLP任务上进行微调:
a.NER包括预测一个预先定义的种类
b.关系抽取:识别文本内的关系
c.自然语言推理:判断假设的真实性
d.文本分类:在文本基础上判断文章属于哪一个类别
e.问答任务:通过给出的问题和包含答案的序列文本去产生一个答案