search engine

来源:百度文库 编辑:神马文学网 时间:2024/06/03 08:09:49
欢迎来到绚丽多姿的神奇的信息检索世界!
信息检索(Information Retrieval)是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的需求(User Information Need)的信息的学问。和数据库检索不同的是,一方面,IR处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured),最典型的例子如没有任何结构的文章或者有tag标记的Html文档;另一方面, IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。比如,查关于“伊拉克战争”的文章,可能会漏掉有关“巴格达”或者其它城市的战斗。因此,IR系统有可以相比较的性能评价指标。
信息检索起源于图书情报的查询,一开始处理的文档数目和规模极其有限,随着硬件处理能力的提高、大规模数据以及WWW的出现,IR技术也日益发展。
从处理对象的格式来说,现代IR不仅处理单纯的文本格式数据(text),而且处理包括图像、图形、音频、视频在内的各种载体格式,甚至WEB这种复杂的载体。
从处理的技术来说, 包括自然语言处理(NLP)、人工智能、模式识别、机器学习、神经网络、数理统计、运筹学等等学科和科目在内的技术纷纷被应用于现代IR。
从应用来说,IR技术不仅可以用于搜索引擎、信息代理等一些传统的信息应用,还可以用于话题跟踪、内容安全、生物信息学等度中应用。
从概念或者名词来说,最近一些年来出现了WEB挖掘(WEB Mining)、知识挖掘(Knowledge Mining)、知识发现(Knowledge Discovery)、内容管理(Content Management)、内容计算(Content Computing)等等新名词、新学科,有些其实就是IR,有些可能学科渊源或者处理内容有所不同,但是IR技术是这些名词的主要内容,或者说这些都是传统IR的拓展,是现代IR的内容。可以说,现代IR的发展可以说是百花齐放、绚丽多彩,引无数英雄尽折腰。
WEB的出现大大地促进了IR技术的发展。WEB上有异常丰富但又充满垃圾的信息资源,其中绝大部分有用的信息还没有发掘出来。这是因为目前还没有特别好的信息处理和检索工具。人们常常抱怨搜索引擎表现太差,可又没办法,只能用它。这一领域的开发仍然处于初级阶段。
传统的数据库是静态的,结构化的,有中央严格组织的。而Web是自发形成和发展的,Web上的页面是动态的,半结构化的,通过超链接彼此缠绕。因此对Web的查询和对数据库的查询完全不同。
据说WEB上每天要新增大约一百万个网页, 目前的网页数目达到上百亿。这给信息组织和检索技术提出了十分严峻的挑战。对如此海量的数据几秒钟内就要完成快而准的检索,传统的检索技术显得力不从心。
为此,人们提出各种各样的办法:或对检索算法、数据结构加以改进;或在应用时,缩小查询范围局限于某一个领域,某一个站点;或采用一定人工参与;还有在用户查询界面上,诱导用户与机器多次交互,或采用图形界面;或对用户给出的查询悄悄做一下变换或修改。
WEB上的大部分网页都是有一定格式的(如HTML),有丰富的标记。比如TITLE信 息、字体着重信息、大小信息,以及META信息等等或许都暗示了些什么?
最富有革命性的想法是WEB的链接分析。人们意识到WEB上异常丰富的超链接是非常宝贵的资源,它在一定程度上反映了页面的意义。
总而言之,八仙过海,各显神通。见仁见智,任君评说。
今天的Internet还处于幼年时期,它一直在进化。很难想象它会发展成什么样子,或许那时我们对网络搜索的基本观念已经发生了根本变化。
我们这个站点试图收集国内外IR领域的重要资料,希望跟踪这方面最先进的成果,也希望能够吸引更多的仁人志士加入到IR的行列中来,我们诚恳欢迎您的积极参与。
如果您有什么想法或者遇到这方面有价值的文章,请和我们联系。谢谢!
梁焰 王海波 写于2001年 王斌于2003年5月做了部分修改