中国论文中心--中文Web信息提取中实体关系的研究

来源：百度文库编辑：神马文学网时间：2024/05/23 21:06:17

中文Web信息提取中实体关系的研究

　　

　　于江德　樊孝忠　顾益军　汪涛

　　

　　摘　要：信息提取研究旨在为人们提供更有力的信息获取手段，以应对信息爆炸带来的严重挑战。Web信息提取是指从Web页面中提取特定的一类信息，并将其形成结构化的数据写入数据库中供用户查询使用的过程。实体关系是指信息提取过程中所提取出的各种命名实体之间的关系，主要包括语义解释、语义消歧、指代消解以及语义关系的确定。本文深入分析了信息提取中实体关系的内容和所应解决的关键问题。
　关键字：Web信息提取；实体关系；语义关系；指代消解

　　1 引言
　　如何快速、准确地从Web页上提取所需信息？Web信息提取正是为解决该问题而进行的一项研究，而实体关系（Entity Relation，ER）的研究是信息提取中重要的一部分。

　　传统的信息提取（Information Extraction）技术是基于普通文本，而Web信息提取是基于超文本。Web信息提取是指从Web页面中提取指定的一类信息（例如事件、事实），并将其（形成结构化的数据）填入一个数据库中供用户查询使用的过程。实体关系是指信息提取过程中所提取出的各种命名实体（包括各种专有名词、时间词、数量词和词组等）之间的关系。

　　2 中文Web信息提取的一般过程

　　信息提取系统的主要功能是从文本中提取出特定的事实信息（factual information）。比如，从新闻报道中提取出各种刑事案件的详细情况：发生时间、地点、作案者、受害者等；从经济新闻中提取出公司推出新产品的详细情况：公司名、新产品名、上市时间、产品性能等。通常，被提取出来的事件信息以结构化的形式描述，可以直接存入数据库中，供用户查询以及进一步分析利用。典型的Web信息提取系统的主要包括了如下几个步骤：

　　（1）用一组信息模式描述感兴趣的信息。信息模式通常可表示为简单的一个句式，例如：<公司名>“推出”<新产品名>。系统可以针对某一领域的信息特征预定义好一系列的信息模式，存放到模式库中供用户选用。

　　（2）对Web网页下载并进行过滤，将网页上的文本信息单独提取出来。该过程首先需要下载相关网页，其次从该网页对应的HTML文件中过滤掉非文本信息，生成该网页对应的文本。

　　（3）对过滤后的文本进行预处理，包括将输入文本分割为不同的部分；将得到的文本块转换为句子序列，每个句子由词或特定类型短语及相关的属性组成；过滤掉不相关的句子等。

　　（4）对相应的句子序列进行“适度的”（浅层、非完整的）词法、句法及语义分析，并作各种文本标引。这个过程通常包括识别特定的名词短语（人名、机构名、产品名、事件、地点等）和动词短语（事件描述、事实陈述）。这需要相应领域知识库的支持。

　　（5）使用模式匹配方法识别要提取的信息（事件、事实），即找出信息模式的各个部分。

　　（6）对信息模式的各个部分进行语义关系的分析。对上下文关联、指代、引用等分析和推理，得出信息模式的各个部分的语义关系。

　　（7）确定信息的最终形式，输出结果（例如生成一个关系数据库或给出自然语句陈述等）。最后对这些框架进行合并、综合，便可得到所需信息的各种数据项（关系数据模式的各个字段）。

　　当然，并不是所有的信息提取系统都明确包含所有这些步骤，并且也未必完全遵循以上的处理顺序，但一个信息提取系统一般都包含以上步骤描述的功能。

　　3 的内容

　　进行中文Web信息提取的总体方针可以用“获取网页文本，提取命名实体，确定语义关系，获取事件事实”来概括。实体关系的研究主要集中在确定命名实体之间的语义关系上，主要包括语义解释、词语语义消歧、指代消解、确定语义关系等。

　　l 语义解释和分析：基于知网对命名实体进行语义解释，即对每个命名实体从知网中提取其义原用于描述该实体的语义。

　　l 词语语义消歧：基于知网对命名实体进行语义解释时，每个词可能对应多个义原描述的语义信息，这时就需要根据上下文的需要选择合适的义原来描述其语义，即进行语义消歧。

　　l 指代消解：指代是自然语言的常见现象，它对于简化表达，衔接上下文起着重要作用。信息提取直接从文本中提取事件事实信息，提取出的信息大都属于文本中原有的句子，这些句子中可能包含代词成分，这就涉及到指代消解问题。在信息提取的第六步对信息模式的各个部分进行语义关系的分析时，如果不能确定实体的共指关系，就有可能使相同的实体不同对待，从而误被多次提取或者不被提取，所以说指代消解是信息提取中一个重要的问题，它的解决与否直接影响到信息提取的精度。

　　l 确定语义关系：通过对以上生成的语义网络进行综合分析并遍历来提取相关语义信息生成语义关系树，确定语义关系

　　4 实体关系研究中的主要问题和关键技术

　　根据汉语的特点，在进行中文Web信息提取中，主要问题和技术关键有如下几个：

　　（1）、适用于中文信息提取的短语句法及语义分析

　　通过句法分析得到输入的某种结构表示，如完整的分析树或分析树片段集合，是计算机理解自然语言的基础。短语句法及语义分析包括句法成分的识别与标引，关键词提取，专业术语词处理、检索特征集的提取、索引等。信息提取系统的目的在于获取指定的信息，因而往往不需要进行完整的语言分析和理解。其分析过程通常可称作是“浅层的”或“部分的”语言分析（只分析所需要的部分），即找出代表指定信息的词汇、短语等块状语言结构，而不是去弄清楚每一语句的句法结构树。在语法分析的阶段一个主要问题是解决代表信息所包含的事件、消息或事实的有关名词性短语和动词性短语的识别问题。

　　（2）、适用于中文信息提取的语义关系分析

　　对文本的语义关系的分析在于发现指定信息所涉及的各项内容，解决句间成分传递、指代与引用情况等问题。一般说来，用户关心的事件和关系往往散布于文本的不同位置，其中涉及到的实体通常可以有多种不同的表达方式，并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中提取相关信息，信息提取系统必须能够识别文本中的共指和引用现象，进行必要的推理，以合并描述同一事件或实体的信息片段。

　　（3）相应知识库的建立

　　作为一种自然语言处理系统，信息提取系统需要强大知识库的支撑。在不同的信息提取系统中知识库的结构和内容是不同的，但一般来说，都要有：一部词典（Lexicon），存放通用词汇以及领域词汇的静态属性信息；一个信息提取模式库（Extraction Patterns Base），每个模式可以有附加的（语义）操作，模式库通常也划分为通用部分和领域专用部分。除此之外，可能还有篇章分析和推理规则库、模板填充规则库等。

　　5 小结

　　目前，随着Internet以及相关技术的高速发展和日益成熟，Web信息提取正成为信息提取中一个重要的部分，由于汉语的独特之处，中文Web信息提取有着许多问题有待我们进行深入的研究和探索。而实体关系的研究就是其中至关重要一个。本文深入分析了内容和所应解决的关键技术，为今后中文信息提取的研究取得了一些经验。

　　

　　参考文献：

　　[1]朱靖波,姚天顺.中文信息自动抽取.东北大学学报(自然科学版).1998，19(1)：52－54

　　[2]李保利,陈玉忠,俞士汶.信息提取研究综述.计算机工程与应用,2003，39（10）：1－5

　　[3] 王厚峰，何婷婷.汉语中人称代词的消解研究［J］.计算机学报，2001，24(2)：136－143.

　　[4]胡虞,张冬茉,杜蓬.基于结点语义关系的信息提取技术.计算机工程,2001，27(4)：26－28

　　[5] 许敏，王能忠，马彦华.汉语中指代问题的研究及讨论［J］.西南师范大学学报（自然科学版），1999，24(6)：633－636.