近年来,Transformer以及基于Transformer的预训练语言模型在自然语言理解和生成领域取得了巨大进展。
在短文本摘要领域,无论是抽取式摘要(BERT,RoBERTa),还是生成式摘要(BART,T5),文本摘要模型都取得了卓越的表现。
然而,长文本摘要长度长,内容广,压缩程度高,并且通常是特殊领域文章(如arxiv论文),一直以来是一个难以处理的问题。
目前,解决长文本摘要主要有基于图/GNN的模型,基于RNN的模型和基于Transformer的模型。
图模型首先将一篇文章映射为一个图,并使用无监督的中心性打分抽取top-K句子或者使用GNN进行训练。
RNN方法对整个序列文本进行建模,并抽取或者生成摘要。目前,Transformer和PLM逐步取代RNN,成为NLP领域的焦点。
但是,受到位置编码长度影响,预训练语言模型通常对输入文本的最大长度存在一定限制,例如,BERT仅仅可以处理512位字符。
同时,Transformer的平方级别复杂度进一步限制了输入文本的长度,而对文本进行截断造成了文本信息的丢失。
因此,直接应用预训练语言模型是行不通的,需要添加额外机制。