STRASS: A Light and Effective Method for Extractive Summarization Based on Sentence Embeddings
一、概述
STRASS: Summarization by TRAnsformation Selection and Scoring
整体思路:抽取式摘要,选择句子Embedding与文档Embedding最接近的句子。模型会学习一个文档Embedding的转换,并最大化抽取摘要与真实摘要的相似度。
二、相关工作
摘要分成两类:生成式摘要和抽取式摘要。
- 生成式摘要:生成新的文本来概括文档。可以建模成Seq-Seq的问题。典型模型有PGN。
- 抽取式摘要:两类方法解决,一个是序列标注,标注是否作为摘要的一部分;另一个是排序,越重要的句子排名越高。
- 两者结合:先抽取式选择句子,再用生成式方法重写他们。
三、模型
模型总体分为四步:
第一步,利用单层MLP将文档Embedding转换成特定形式;
第二步,句子选择生成摘要,句子选择时会提供一个阈值;
第三步,生成的摘要的近似表示;
第四步,计算与真实摘要的相似度,再反向传播。这里还考虑了一个压缩比的问题,系数越大,越倾向于生成短摘要。
四、总结
缺点:不能处理多主题文档的摘要问题;没有考虑摘要句子的位置信息。
优点:速度快,CPU就能够训练。
提出了一个新的CASS的法语数据集。
- 本文作者: 鱼咸滚酱
- 本文链接: https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/18/Report-STRASS-A-Light-and-Effective-Method-for-Extractive-Summarization-Based-on-Sentence-Embeddings/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!