一种基于文章主题和内容的自动摘要方法 Automatic Text Summarization Based on Topic and Content

来源:百度文库 编辑:神马文学网 时间:2024/06/12 10:55:45
一种基于文章主题和内容的自动摘要方法
陈燕敏 王晓龙 刘远超 楼喜中
(哈尔滨工业大学计算机科学与技术系,黑龙江 哈尔滨 150001)
Email:petrel@hit.edu.cn
摘要 本文介绍一种新的使用自然语言处理技术的自动摘要系统。通过融合基于内容的方法和基于主
题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的摘要。该方法首先对主题词进行分
析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,
对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成摘要;最后采用指
代消解技术使生成的摘要更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统
生成的摘要质量有明显提高。
关键词 自动文摘 自然语言处理 主题分析 内容分析 融合
Automatic Text Summarization Based on Topic and
Content
Chen Yanmin
Wang Xiaolong
Liu Yuanchao
Lou Xizhong
(Dept. of Computer Science and Engineering, Harbin Institute of Technology, Harbin 150001)
Abstract A new system using Natural Language Processing techniques is proposed. It processes
documents not only based on content of original texts by analyzing its structure, but also based on topics of
summaries, which are determined by user or text title. The method first analyzes subjective words and
processes the document with abstract title or actual title separately; then a method based on content is adopted
by integrated many kinds of NLP technologies; the results produced by above two methods are fused to
generate the summary; the anaphora resolution technology is applied to improve the fluency of the summary
last. Evaluation results show that quality summaries are produced from arbitrary Chinese text. The proposed
system is compared to system based on content and it is shown that it produces either comparable or better
summaries overall.
key word
Automatic text summarization, Natural Language Processing (NLP), Topic analysis,
Content analysis, Fusing
1 引言
随着互联网的普及、信息获取途径的增加,每天
都有不断涌现的海量信息。为了从这些海量信息中快
速、准确的获取有用信息,文档的自动摘要处理变得
越来越重要。通过阅读文摘而不是全文能极大的加快
信息过滤速度,帮助人们了解概况或确定是否应详读
原文。这一技术是快速准确获取信息的一个有力工
具,它的市场需求相当广泛。
摘要是指通过对文档内容处理,从中提取出满足
用户需求的重要信息,经过重组修饰后生成比原文更
精炼的文摘过程。目前主要自动文摘技术有三类:基
于浅层分析的方法、基于实体分析的方法、基于话语
结构的方法[1]。基于浅层分析的方法对文档中蕴含
的一些浅层特征进行统计分析,将其中某些特征如词
频、位置、线索词等按特定的量化模型结合起来作为
文档信息的量化度量,据此选择出文档核心内容。如
Kupiec、Pedersen和Chen研制的一个基于统计的可训
练的摘要系统[2]。浅层分析通常不需要复杂的文档
内部表示,易于计算实现、处理速度快、无受限域。
但它在处理不同类型文档时,准确性上常有很大变
化。并且这一方法是建立在文本表层的形式特征基础
上的,缺乏对文本内容的深层次分析,所以文摘质量
基金项目:国家自然科学基金(60373100) ; 国家“八六三”高技术研究发展计划项目基金(2002AA117010-09).
作者单位:王晓龙,教授、博导,主要从事自然语言处理研究。
陈燕敏,博士研究生,主要从事自然语言处理及自动文摘研究。
的进一步提高将受到限制。基于实体分析的方法先分
析文本内部的概念性表示,然后提取出文档中各实体
并建立起实体间的相互关系,通过对文档实体及其相
互关系建模来确定各实体对表述文档内容的作用。如
Regina和Michael采用词汇链方法来生成摘要[3]。这
种分析常常涉及比较复杂的算法。基于话语结构的方
法主要是对全文宏观结构建模(即对文档格式、主题
线索、修辞结构、文体结构等的分析),准确把握全
文的内容结构。如在修辞结构分析方面,Marcu给出
了一个比较完整的分析方法[4]。由于文章结构分析
不受文本领域限制,文档结构信息往往能较为准确的
标示出语言单元间的逻辑关系,为自动文摘生成提供
重要线索。由于上述几种方法各自的优缺点,为提高
自动文摘质量,采用混合方法是自动摘要技术的必然
趋势。为此文中系统采用了将浅层分析与话语结构分
析相结合的方法,有效地融合文档的主题特征和内容
结构,在满足系统处理性能的同时也进一步提高了生
成文摘的质量。
文中首先分析了文档主题词,动态地处理具有不
同类型标题的文档;然后采用词汇、语法、语义分析
等自然语言处理技术,深入分析文档的文本内容;再
线性加权融合两种分析得到的结果,据此生成摘要,
并采用指代消解技术使生成的摘要更连贯流畅;最后
给出了相应的评测结果。
2 基于主题词和内容分析的自动摘要
系统涉及到自然语言处理中的多个领域,具体过
程如图 1 所示,主要包含以下 4 个模块:①文档结构
初始化,主要是将文档转换成便于系统处理的形式;
②主题词分析:对文档主题进行分析,根据标题的特
点动态处理标题词对文摘的作用;③文本内容分析:
利用词汇、语法、语义分析等自然语言处理技术对文
档进行独立的分析,以确定文档内部不同单元之间的
内在逻辑关系;④文摘句的抽取及文摘生成:融合两
种方法来选择组成文摘的文摘句;应用指代消解来整
合各文摘句,以生成一个较连贯流畅的文本摘要。
2.1 文档结构初始化
进行文档分析之前,要对文档进行预处理。根据
文本的物理结构,一篇文档可以通过文档结构树的形
式来表示[5]。我们将一篇文档按照其自然结构划分
为依次存在包含关系的章节、段落、复句、分句四个
层次,用文档结构树来表示。文档的各个层次可按统
一的方式进行访问。根据相应结点在文档结构树中的
位置,每个基本单元赋予唯一对应坐标值。如[1.2.1.1]
表示第 1 个章节中第 2 自然段的第 1 个复句中第 1
个分句节点的坐标。这样可以方便获取及处理文档中
任一单元节点的信息。完成预处理之后,再进行主题
分析。
图 1 基于主题和内容的自动文摘系统体系结构图
2.2 基于主题词分析的自动摘要
主题词根据标题词、用户指定词来确定,不包括
高频词、虚词等停用词。
目前许多摘要系统在分析文档时,常常只考虑了
给出的文档的内容,仅分析文章正文,而忽略了用户
的需要。而不同的用户对同一篇文档所关注的内容点
是不相同的。如果将用户指定的主题词作为摘要主
题,这样的系统生成的摘要更能满足用户的需求。此
外,在使用文档的标题特征来分析时,如果对不同类
型的标题作相同的处理,常常会给系统加入一些无用
甚至有误导性的标题特征。在分析研究大量网络文档
后,系统对此进行了改进,对不同类型标题的文档采
2
用不同的处理方法,以改善生成文摘的质量。这里出
于评测比较的需要,主要关注标题中的词。面向用户
的摘要只需在此系统基础上,对系统生成的主题词集
进行修改,加入用户指定主题词即可。
标题和文章的主题之间有着紧密的联系。专业的
摘要者常常集中注意力于文章表层特征和比较规范
的部分,特别是标题。这些专业摘要者的经验对我们
进行自动摘要研究有很大的价值。为了详细分析标题
与主题之间的关系,我们从互联网上收集了 100 篇不
同风格的文章并对其进行了分类简化。根据标题多大
程度地反应了文章的主题,我们将文章的标题分为 2
类:“具体型”标题和“抽象型”标题。“具体型”标
题明显指示了文章的主题,如《女足确定奥运会目标:
至少进入前四 争取夺奖牌》。“抽象型”标题常常是
文章主题的一种比喻性表达,特点是标题中的词很少
出现在正文中,如《世界杯决赛“亚洲三龙”能否升
天》;这类标题还包含“疑问型”,如《环球嘉年华 到
底要从北京人的兜里掏走多少钱?》。分析发现,“抽
象型”标题对文章分析用途很少,而“具体型”标题
则常常就是文章的主题,为此系统作了相应的分析处
理。
根据标题特征,基于主题词的算法描述如下:
1) 对全文进行分词处理(即中文词间象英文一样用
空格分开,便于处理);
2) 过滤掉停用词(它是有较少语义含义的词,如虚
词和一些高频词。停用词由于出现在很多文件里,
故对信息分析没什么贡献。);
3) 提取文档标题,将标题词集存入向量V
h

4) 提取文档第一段、第二段、末段,将内容词集存
入向量V
c

5) 如果| V
h

V
c
|标题。其中,P为一个给定阈值,根据实验确定
为 3;| |为集合的势;
6)
x

V

h
,如果x

{疑问词库},文档标题也判断
为“抽象型”标题,其中疑问词库是事先构造的;
7) 如果标题无 5)或 6)中特征,则判断其为“具体型”
标题;
8) 对于有“具体型”标题的文章,我们分析其标题
并将其中有意义的词置入主题词集;
9) 遍历全文中句子,根据主题词集给文档中各句赋
予一定的权值。
10) 将各句权值按各句在原文中顺序输出到一个文
档中,以便与基于内容的分析结果融合。
算法可根据用户的需求,对如上算法第 8 步中系
统生成的主题词集进行修改,加入用户指定主题词。
这样有侧重地选择原文中的内容,即可生成满足用户
特定需求的摘要。为评测比较的需要,这里只研究与
文章标题相关的主题词。
2.3 基于内容分析的自动摘要
基于内容的文档分析综合文本的中心语义、各个
主要单元间的内在逻辑关系及每个基本单元的信息
含量等,以定量的确定每个语句在文章中的作用,确
定组成文本摘要的基本单元。其算法描述如下:
1) 进行内容结构分析,利用层次结构分析用词典,
建立一棵层次结构依存树;
2) 若分析完后各自然段间只存在顺序关系,则进行
子主题划分,否则转 4;
3) 将子主题划分后位于同一意义段中的多个自然
段间的关系由原来的顺序关系改为并列关系并
按并列关系构造每个意义段内部的结构树;意义
段间按顺序关系重新构造内容结构树;
4) 进行语句间的修辞结构分析,利用连接结构分析
用词典,构造一颗修辞结构树;
5) 对修辞结构树和内容结构树进行重构,根据隶属
关系将树中父节点与其它节点的关系传递到隶
属关系中的子节点,使树中仅保留对应于文摘抽
取的基本单元(在此为复句)的节点;
6) 遍历修辞结构树和内容结构树,依规则融合两树
构造一个有向图,图中的每个节点唯一对应于文
档中的一个文摘基本单元;
7) 遍历构造出的有向图,将有向图中的每种连接关
系转化成一个统一的量化度量,根据加权规则计
算图中每个节点的权值,完成对文摘基本单元的
加权。
内容分析主要从多个角度对文档内容进行独立
的分析,以确定文档内部各种不同单元之间的内在逻
辑关系、获取文档中心语义,再将分析的结果按一个
统一的量化度量融合到一起,给文档中每个句子赋予
一定权值,以定量的确定每个语句在文章中的作用,
为文摘抽取提供一个量化的标准。内容分析主要包含
三部分:
文档的内容结构分析借助于文档中一些能明确
指示内容结构的线索,如子标题、序号等明显的浅层
特征,建立起文档中各个基本单元间在内容上的逻辑
联系。它包括宏观结构分析和微观结构分析。文本宏
观结构分析全文结构,研究组成全文的各自然段之间
的依存关系。文本微观结构分析复句结构,研究各自
然段内部各复句之间的依存关系。利用对大规模网络
文档研究总结出的层次结构词典,根据排歧规则确定
每个语句中所包含的层次结构知识,再根据相关规则,
通过对文本结构依存树进行文本层次结构分析,建立
一棵用于抽取文摘的层次结构依存树。
文档的子主题切分主要是将以自然段为基础的
文本的物理结构转换成以意义段为基础的文本的逻
辑结构,这样可以提高系统生成的文摘的中心主题覆
盖率及文摘抽取的准确率。这里使用一种基于语义相
似度的文本隐式章节划分方法 [6],在原有的 Dotplot
3
方法[7]基础上通过引入语义相似度的计算来改进该
算法。通过用语义相似度来取代 Reynar 模型的字符
串匹配,将 Dotplot 中的二值运算转换成模糊计算,
同时避免了简单的字符串匹配所带来的无法描述同
义词、词语缩写等问题。
语句间的修辞结构分析主要分析各个语句间的
语义连接关系,利用对大规模文档研究总结出的连接
结构分析用词典,通过分析单句或复句间的语义依存
关系,来确定每个语句在表达文本内容时的角色,构
造分析树,为文摘抽取提供判别依据。它首先区分一
个连接词所引导的是分句还是复句,然后根据语法语
义规则来进行分句或复句间的语义依存关系分析,最
后据此构造分析树。
多个结构分析的结果出来之后,再将这些结果按
前面的算法融合到一起,定量的确定每个语句在文章
中的作用,为给文摘抽取提供一个量化的标准。这样
的综合分析策略使系统可以很容易的加入新的方法,
从而保证了系统的开放性和可扩充性。
3 融合两种分析方法生成摘要
现在研究如何简单而无冲突地融合基于内容的
方法和基于主题词的方法的分析结果,以提高系统抽
取主题的性能。
权值融合采用线性插值方法,最终句子的权重值
由下式计算:
c
s
Weight
Weight
Weight
2
1
λ
λ
+
=
(1)

=
=
2
1
1
i
i
λ
(2)
其中, Weight: 句子的权重;
i
λ
: 第i项权重的权重系
数; Weight
s
:主题法计算获得的权重值; Weight
c
: 基于
内容方法获得的权重值。
各句的权值计算出来后,依据其权值将各句排
序。摘要的构造方法是依次将权值最小的文摘基本单
元(这里为复句)加入摘要,直到摘要达到特定长度。
其中长度是以句数而非字数来计算的。摘要长度由用
户确定,通常为原文长度的5%-30%。
根据各句权值抽取文摘句后,需要将这些从原文
抽取的文摘句重新组织,按其在原文中顺序排列。因
为算法得到的文摘句是根据其权值从文档中各自独
立地抽取的,相互之间可能缺少一定的逻辑上的连贯
性及流畅性,故在此应用指代消解技术进行改进。为
解决指代问题,须先将文档中相关的人名识别出来。
考虑到文摘系统的实时性、准确性要求,经过对大规
模真实语料的统计研究,系统采用了计算语言模型与
人名相关规则结合的识别方法,借助于手工收集的人
名识别的统计资源,可以较快速准确地识别出文档中
人名。然后系统采用基于句子结构和人称格的指代消
解方法,通过对大量汉语句子的分析,提出了一些指
代消解规则和基于这些规则的消解算法。算法能处理
文章中出现的 80%以上的指代现象。这样生成的摘要
已能较好满足用户的要求。
4 实验结果与评价
如何准确评价摘要质量,目前仍是一个难题。
即使是人工构造的摘要也很少能达到唯一性。就象
描述同一件事有很多种方式一样,用户也会构造出
许多不同的普通摘要或是他们认为可以接受的以用
户为焦点的摘要。事实上,实验显示,人们在一篇
摘要应该包含哪些句子或段落上很少能达成一致
[8]。即使是同一个专业摘要者,在间隔一段时间后
对同一篇文章所做的摘要也有很大一部分不相同。
如何准确评价一个摘要系统真是一个挑战。
通常有两种评价方法:内部评价方法和外部评
价方法。内部评价方法直接分析评价自动摘要系统
生成的摘要,通过比较来判断摘要中包括了多少原
文的主题内容及摘要的流畅度等。例如,将自动摘
要系统生成的摘要与原文比较、自动摘要与人工生
成的“理想”摘要比较、自动摘要与不同自动摘要
系统生成的摘要比较等。外部评价通过自动摘要系
统对某项工作的作用来评价摘要的质量。例如,用
户使用摘要确定原文主题的程度,或用户基于摘要
能回答的原文有关问题的程度等[9]。本文采用的是
一种内部评价方法。
评价实验是这样构建的:从网络上收集了100篇
不同风格的新闻文章作为测试语料。对于每篇文章,
3个文学专业研究生各自独立地从中抽取构造与原
文长度比率分别为10%和20%的手工摘要,作为“理
想”摘要。其中,文章的长度以句子数来计算。这
样一共构造了600篇“理想”摘要。然后将系统生成
的摘要与手工抽取的“理想”摘要作比较,通过计
算平均精确率和召回率来评价系统生成摘要的质
量。精确率和召回率按如下公式计算:
精确率
m
m
t
S
S
S ∩

(3)
召回率
c
c
m
S
S
S ∩

(4)
其中,S
m
是系统生成摘要的句子集,S
t
是 3 个研
究生所抽取的手工摘要的并集,S
c
是 3 个研究生所抽
取的手工摘要的交集。算子 "| |" 取集合的势。下图
4
比较了基于内容和主题词方法的系统 1(不包含标题
类型判断,各种类型标题都进行主题词处理)、基于内
容和主题词方法的系统 2(根据标题类型判断是否需
要融合主题词方法)、和基于内容的自动文摘系统 3。
系统性能评价结果如表 1 所示:
表 1: 系统性能评价
摘要比率
系统 1
系统 2
系统 3
精确率
0.718
0.72
0.714
10%
召回率
0.765
0.767
0.76
精确率
0.722
0.726
0.728
20%
召回率
0.743
0.751
0.74
由表 1 可见,与基于内容的文摘系统 3 相比,融
合了主题词方法的文摘系统 1、2 在平均精确率和召
回率上均有明显提高。仔细分析各系统所获得的摘要
结果发现,系统性能提高的主要原因在于,采用主题
词分析法后,系统往往能将文本中一些具有画龙点睛
作用的关键性主题句提取出来,从而明显改进了系统
的性能。实验结果还显示,系统在不包含标题类型判
断,各种类型标题都进行主题词处理时,系统的性能
略有下降;但在区分“抽象型”标题和“具体型”标
题,根据标题类型判断是否需要融合主题词的分析方
法后,系统的性能有了明显提高。这表明在使用文档
的标题特征来分析时,如果对不同类型的标题作相同
的处理,常常会给系统加入一些无用甚至有误导性的
标题特征。此外,10%比率的摘要质量要明显好于
20%比率的摘要。这显示随着摘要长度的增加,摘要
间的差异也扩大了。事实上,各个专家所做的手工摘
要之间的差异也是随摘要长度增加的。此外,虽然系
统所用语料是网络新闻类文档,但系统中所引入的主
要分析方法与文本所属领域无关,因而系统具有良好
的移植性能。
5 结论
基于内容和主题词的自动摘要方法将文章主题
与内容分析相结合,生成具有良好的连贯性和流畅
性的摘要。该方法采用词汇、语法、语义分析等多
种自然语言处理技术,对文章的文本内容进行深入
分析;并且引入了文档标题类型判别模块,因而能
针对不同标题类型文档进行算法优化,从而获得较
好的系统性能。与仅基于内容的自动文摘系统相比
较,该系统生成的摘要质量有明显提高。
在今后的工作中将深入研究语言生成问题,结合
未登陆词识别、领域自动判别等技术,进一步改进生
成的自动摘要的质量,使其更接近人工摘要的自然
性、流畅性。




1 I. Mani and M. Maybury, eds., Advances in Automatic Text
Summarization, MIT Press, Cambridge, Mass., 1999.
2 J. Kupiec, J. Pedersen, and F. Chen. A Trainable Document
Summarizer.
In
Proceedings
of the Eighteenth Annual
International ACM SIGIR Conference on Research and
Development in Information Retrieval, 1995: 68-73. Seattle,
Washington, July.
3 B. Regina, E. Michael. Using Lexical Chains for Text
Summarization. Advances in Automatic Text Summarization, MIT
Press, Cambridge, Mass., 1999.
4 D. Marcu. The Rhetorical Parsing of Natural Language Texts.
Proceedings of the 35th Annual Meeting of the Association for
Computational Linguistics. 1997: 96-103.
5 刘挺,王开铸. 基于篇章多级依存结构的自动文摘研究. 计算
机研究与发展. 1999, vol.36(4): 479-488
6 Qing-cai Chen, Xiao-long Wang, eds., Subtopic Segmentation of
Chinese Document: An Adapted Dotplot Approach. ICMLC’02,
2002: 1571-1576
7 J. C. Reynar. An automatic method of finding topic boundaries.
Proceedings of the 15th International Conference on Computaional
Linguistics, 1996.
8 G. Salton et al., Automatic Text Structuring and Summarization.
Information Processing & Management, Vol. 33, No.2, 1997:
193-207.
9 U. Habn and I. Mani. The Challenges of automatic summarization.