Report:A Simple Theoretical Model of Importance for Summarization

2020-02-16

A Simple Theoretical Model of Importance for Summarization

一、概述

整体思路：摘要的主要目的就是在损失最小信息量的情况下，最大限度表达原文信息量，因此基于信息论来研究摘要任务是合适的。然而信息论着重于研究信息的不确定性，容易忽略语言中的语义信息，因此直接应用信息论不适合。论文里将文本切分成最基本的语义单元，语义单元负责语义部分，而信息论只需要关注由语义单元构成的文本信息即可。（语义单元可以是字符、词、n-gram、具有更复杂语义语法内容的单元，也称为原子信息块。）文本则是用这些基本语义单元的概率分布来表示。

二、框架

论文从四个不同的角度，在本质上对摘要本身做了分析。分别是冗余度(redundancy)，相关性(relevance)，informativeness，重要性(importance)。其中，重要性是论文新突出的理念，它结合了其余三个概念的内容，并进行了公式化。

1. 相关性Relevance

目前大部分模型对摘要抽取或生成的目标都可近似为相关性。对于有监督学习训练来说，抽取式摘要的训练数据标注了哪些句子是摘要句。最后任务转化为对每个句子做二分类问题，而生成式摘要的seq2seq模型中，也是与标注的人工摘要进行语义单元上的差异计算。对于无监督学习来说，大部分的方法的建模目标都是相关性。

通过阅读摘要，应该降低对原文的不确定感，摘要文本应当以最小的信息损失来推断原文文档。从统计学角度来看，摘要和原文档都各自满足一定的概率分布，而分布之间的接近程度可以简单的使用交叉熵（cross-entropy）衡量。CE指的是交叉熵的函数，注意到这里有个负号，因为交叉熵越小，表示摘要和文档的差异越小，那么相关性应当越强。

REL(S,D) = −CE(S,D)

2. 冗余度Redundancy

如果简单的使用相关性来对文档中的句子进行排序，然后选择相关性最高的某些句子来生成摘要，但由于相关性分数接近的句子表述的内容通常也是接近的，因此摘要的冗余度就会很高。而一个好的摘要应该是包含不同的信息，而不是大量相似的信息，而冗余度可以使用熵进行描述。

那么冗余度可以表示为Red(S)=−H(S) 。建模的目标是冗余度尽量小，那么表示S SS的熵值越大，表示文本的不确定性越好，所包含的信息量也越大，对应的冗余度也就越小。

3. 信息量Informativeness

根据论文的叙述，这个概念假设当前有一个背景知识库K，此时需要对文档D进行摘要抽取，那么候选摘要S对于K来说，应当新增尽可能多的信息，才能让读者在阅读摘要后获取最多的新信息。如果摘要句子说的都是用户早就知道的事情，那么阅读摘要没有给用户产生任何价值。

相关性和冗余度只是在当前处理文档的范围内进行建模，但是人类的语言是有庞大的常识库的。只使用相关性和冗余度有其局限性，因此才引入了informativeness的概念。那么如何度量这个概念呢？informativeness的目标是让S尽可能与K不同，同时K也是由语义单元组成的文本语料集合，因此也可以用Pk来表示K的概率分布，与相关性类似，使用交叉熵来衡量两个概率分布的差异性。

4. 重要性Importance

针对的是语义单元，目标是计算每个语义单元的重要性分数，在构造摘要时，根据每个语义单元的评分来丢弃不需要的语义单元。

5. 整合四个维度

三、总结

纯理论论文，没有具体模型，定性分析文本摘要的生成与评估。

参考文献

本文作者： 鱼咸滚酱
本文链接： https://github.com/WangMeng2018/WangMeng2018.github.io/tree/master/2020/02/16/Report-A-Simple-Theoretical-Model-of-Importance-for-Summarization/
版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！