search engine

来源：百度文库编辑：神马文学网时间：2024/06/03 08:09:49

欢迎来到绚丽多姿的神奇的信息检索世界！
信息检索(Information Retrieval)是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的需求(User Information Need)的信息的学问。和数据库检索不同的是，一方面，IR处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured)，最典型的例子如没有任何结构的文章或者有tag标记的Html文档；另一方面， IR的检索结果也往往是不精确的，而不象数据库查询那样正确率一定是100%。比如，查关于“伊拉克战争”的文章，可能会漏掉有关“巴格达”或者其它城市的战斗。因此,IR系统有可以相比较的性能评价指标。
信息检索起源于图书情报的查询，一开始处理的文档数目和规模极其有限，随着硬件处理能力的提高、大规模数据以及WWW的出现，IR技术也日益发展。
从处理对象的格式来说，现代IR不仅处理单纯的文本格式数据(text)，而且处理包括图像、图形、音频、视频在内的各种载体格式，甚至WEB这种复杂的载体。
从处理的技术来说，包括自然语言处理(NLP)、人工智能、模式识别、机器学习、神经网络、数理统计、运筹学等等学科和科目在内的技术纷纷被应用于现代IR。
从应用来说，IR技术不仅可以用于搜索引擎、信息代理等一些传统的信息应用，还可以用于话题跟踪、内容安全、生物信息学等度中应用。
从概念或者名词来说，最近一些年来出现了WEB挖掘(WEB Mining)、知识挖掘(Knowledge Mining)、知识发现(Knowledge Discovery)、内容管理(Content Management)、内容计算(Content Computing)等等新名词、新学科，有些其实就是IR，有些可能学科渊源或者处理内容有所不同，但是IR技术是这些名词的主要内容，或者说这些都是传统IR的拓展，是现代IR的内容。可以说，现代IR的发展可以说是百花齐放、绚丽多彩，引无数英雄尽折腰。
WEB的出现大大地促进了IR技术的发展。WEB上有异常丰富但又充满垃圾的信息资源，其中绝大部分有用的信息还没有发掘出来。这是因为目前还没有特别好的信息处理和检索工具。人们常常抱怨搜索引擎表现太差，可又没办法，只能用它。这一领域的开发仍然处于初级阶段。
传统的数据库是静态的，结构化的，有中央严格组织的。而Web是自发形成和发展的，Web上的页面是动态的，半结构化的，通过超链接彼此缠绕。因此对Web的查询和对数据库的查询完全不同。
据说WEB上每天要新增大约一百万个网页，目前的网页数目达到上百亿。这给信息组织和检索技术提出了十分严峻的挑战。对如此海量的数据几秒钟内就要完成快而准的检索，传统的检索技术显得力不从心。
为此，人们提出各种各样的办法：或对检索算法、数据结构加以改进；或在应用时，缩小查询范围局限于某一个领域，某一个站点；或采用一定人工参与；还有在用户查询界面上，诱导用户与机器多次交互，或采用图形界面；或对用户给出的查询悄悄做一下变换或修改。
WEB上的大部分网页都是有一定格式的(如HTML)，有丰富的标记。比如TITLE信息、字体着重信息、大小信息，以及META信息等等或许都暗示了些什么？
最富有革命性的想法是WEB的链接分析。人们意识到WEB上异常丰富的超链接是非常宝贵的资源，它在一定程度上反映了页面的意义。
总而言之，八仙过海，各显神通。见仁见智，任君评说。
今天的Internet还处于幼年时期，它一直在进化。很难想象它会发展成什么样子，或许那时我们对网络搜索的基本观念已经发生了根本变化。
我们这个站点试图收集国内外IR领域的重要资料，希望跟踪这方面最先进的成果，也希望能够吸引更多的仁人志士加入到IR的行列中来，我们诚恳欢迎您的积极参与。
如果您有什么想法或者遇到这方面有价值的文章，请和我们联系。谢谢！
梁焰王海波写于2001年王斌于2003年5月做了部分修改

search engine Search Engine Optimization | Search Engine Marketing News Search Engine Optimization share search engine Improving Search Engine Rankings Search Engine Journal Unusual Search Engines Search Engine Marketing Forum - Igrep niche search engine Niche Marketing | Search Engine Optimization The linguist‘s search engine Google的启示:Search Engine搜索引擎研究 The Search Engine Report - Number 110 The State of Search Engine Marketing 博客搜索引擎（blog search engine） The Anatomy of a Search Engine Library 2.0 - Library 2.0 Search Engine swick... The Future of Search Engine Technology Accoona business search engine - Free company... 搜索引擎营销(SEM)Search Engine Marketing SimplyBlog | Vertical LEAP: the Vertical Search Engine Conference Technology News: News: An Open-Source Search Engine Takes Shape 博客搜索和博客联播发布:Search Engine搜索引擎研究 The Lucene search engine: Powerful, flexible, and free 博客搜索和博客联播发布:Search Engine搜索引擎研究搜索引擎spam的防止:Search Engine搜索引擎研究