Report: STRASS: A Light and Effective Method for Extractive Summarization Based on Sentence Embeddings

2020-02-18

STRASS: A Light and Effective Method for Extractive Summarization Based on Sentence Embeddings

STRASS: Summarization by TRAnsformation Selection and Scoring

整体思路：抽取式摘要，选择句子Embedding与文档Embedding最接近的句子。模型会学习一个文档Embedding的转换，并最大化抽取摘要与真实摘要的相似度。

摘要分成两类：生成式摘要和抽取式摘要。

模型总体分为四步：

第一步，利用单层MLP将文档Embedding转换成特定形式；

第二步，句子选择生成摘要，句子选择时会提供一个阈值；

第三步，生成的摘要的近似表示；

第四步，计算与真实摘要的相似度，再反向传播。这里还考虑了一个压缩比的问题，系数越大，越倾向于生成短摘要。

缺点：不能处理多主题文档的摘要问题；没有考虑摘要句子的位置信息。

优点：速度快，CPU就能够训练。

提出了一个新的CASS的法语数据集。

本文作者： 鱼咸滚酱
本文链接： https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/18/Report-STRASS-A-Light-and-Effective-Method-for-Extractive-Summarization-Based-on-Sentence-Embeddings/
版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！