Report: HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

2020-02-18

HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

一、概述

HIBERT：HIerachical Bidirectional Encoder Representations from Transformers

整体思路：抽取式摘要，借鉴了Transformer的思想，利用大量的无标注数据进行预训练，学习句子和文档的表达，进而进行筛选句子作为摘要内容。

二、模型

2.1 Document Representation

为了获取文档的表达，这里使用了两个编码器。一个是句子编码器，用于转换文档中的句子；另一个是文档编码器，根据上下文语句学习句子表达。两者都使用Transformer，每一个词向量随机初始化，并且采用了sine-cosine位置编码；其次，Transformer会将词编码转换成一个高层表达序列，默认最后一个隐藏层表元素作为句子表示，比如位置的表示；接着每个句子的表示，都会加上一个位置编码，这个位置编码与句子中词语的位置编码相同；最后，获取结合上下文信息的句子表示。

2.2 Pre-training

使用双向信息，大致分两步：

Document Masking

以15%的概率Mask句子，一个被Masked的句子，会做如下处理，三种方式中选择一种：80%的语句会将其中的每一个词语包括标点都转换成[Mask]标识；10%的语句会保持不变，这种方式能够模拟测试时不Mask的情况；10%的语句会随机替换成其他语句，这种方式可以添加一些噪音，提高模型的鲁棒性。

Sentence Prediction

被Masked的语句的索引会被记录下来。首先，使用前面的编码器获得语句的上下文信息表示；在预测时，一个一个词语的进行预测，第一个默认是，在第j步时，输入前j-1个词语的信息以及该句子的上下文信息表示。这里与原来的Transformer稍有不同，原来使用编码器和解码器中的上下文信息表示，而这里只是用解码器中的上下文信息。

2.3 Extractive Summarization

建模成序列标注问题，在编码器后加一个线性层和一个SoftMax。

三、总结

模型训练大致分为三个阶段：第一个阶段，开放域的预训练，使用大量的无特定领域的无标注数据；第二个阶段，特定域的预训练，使用专门数据集进行预训练，比如用于文本摘要的数据集；第三个阶段，微调HIBERT进行语句序列标注的预测。

实验效果不错。

本文作者： 鱼咸滚酱
本文链接： https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/18/Report-HIBERT-Document-Level-Pre-training-of-Hierarchical-Bidirectional-Transformers-for-Document-Summarization/
版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！