Sentence Centrality Revisited for Unsupervised Summarization
一、概述
PACSUM:Position-Augmented Centrality based Summarization
整体思路:抽取式摘要,总体还是基于图的排序算法,调整了句子中心度的计算方法。使用BERT来进行句子表示,可以更好地捕获句子意义;将原来的无向图换成有向图,将一条无向边转换成两条有向边。
二、模型
模型总体分为两大部分:有向图构建和句子相似度计算。
1. 有向图
将原来的无向图换成有向图,将一条无向边转换成两条有向边,只是在原来相似度的基础上分别乘以一个不同的系数,这是基于两个句子的连接对两者中心度的贡献是受他们相对位置的影响的,越靠前的句子中心度越高。句子中心度的计算公式如下:
另外,为了减少超参数数量,令两个系数之和等于1。而且第一个系数偏向于负数,说明,与前面句子的相似度会降低该句子的中心度。
2. 相似度计算
第一步:利用微调的BERT对句子进行编码;
第二步:为了微调BERT,使用了一个句子级的分布假设作为微调的目标函数。借鉴负采样的思想,将特定句子的前一句和后一句作为正例,语料中的其他句子作为负例。目标函数如下:
其中,两个向量表示是参数不同的BERT得到的。
第三步:相似度直接有两个向量的点乘得到,点乘的效果优于余弦相似度。Beta系数决定了相似度低于多少才被设置为0。
三、总结
代码:https://github.com/mswellhao/PacSum
实验效果很好,还没来得及看代码,有兴趣看一下。
- 本文作者: 鱼咸滚酱
- 本文链接: https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/18/Report-Sentence-Centrality-Revisited-for-Unsupervised-Summarization/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!