低成本实现一站式全文检索

来源：百度文库编辑：神马文学网时间：2024/10/03 02:56:55

低成本实现一站式全文检索

朱本军;聂华　2009-12-22　中国教育网络

.h1 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 240%; MARGIN: 17pt 0cm 16.5pt; FONT-SIZE: 22pt; FONT-WEIGHT: bold}.h2 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 173%; MARGIN: 13pt 0cm; FONT-SIZE: 16pt; FONT-WEIGHT: bold}.h3 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 173%; MARGIN: 13pt 0cm; FONT-SIZE: 16pt; FONT-WEIGHT: bold} 　　下一代图书馆界面(the Next Generation Library Catalog)是一种一站式发现和获取图书馆书目信息和电子资源的工具。它继承了传统OPAC的一些特性，但是在功能和界面设计上又与传统图书馆OPAC有很大的不同。

　　自从2008年以来，我国高校图书馆开始陆续关注下一代图书馆界面。目前，应用下一代图书馆界面的高校图书馆有两个：一是使用Ex Libris公司的Primo产品的上海交通大学图书馆(http://www.lib.sjtu.edu.cn/welcome.do)，二是使用Innovative公司的Encore产品的华东师范大学图书馆(http://encore.lib.ecnu.edu.cn)。在开源产品方面进行试验并取得一定成果的高校图书馆有：香港科技大学图书馆(http://catalog.ust.hk/catalog/smartcat.php)和北京大学图书馆。本文以北京大学图书馆为例，介绍如何利用开源软件Scriblio搭建下一代图书馆发现与获取界面。

　　下一代图书馆界面的兴起

　　传统OPAC不能适应馆藏的变化

　　传统的图书馆OPAC有几个显著的特点：一是被设计为图书馆自动化集成系统的一个子系统，与自动化系统的采访、编目、流通等子系统高度集成，密不可分；二是整个检索环境高度依赖书目数据库和流通子系统；三是所检索的资源范围，大部分用于揭示图书馆馆藏的印刷版资源；四是对资源的揭示受到MARC记录的限制，因此，仅限于记录结构涵盖的信息。

　　随着Web2.0相关技术的出现，以及图书馆馆藏资源的变化，传统OPAC越来越不能满足图书馆和读者的需求。

　　从图书馆的角度来看，首先，电子资源越来越多，图书馆希望OPAC不仅能揭示馆藏书目信息，还能揭示订购的电子资源；其次，数字特藏资源(如学位论文、古籍、音视频等)的种类和数量不断增长，而拘泥于MARC的传统图书馆集成管理系统不能胜任数字特藏的元数据描述、数字对象的提交等需求；三是不同类型资源的检索入口分散，不能整合揭示图书馆的馆藏资源。

　　从用户的角度来看，用户使用图书馆的时间越来越少，而使用互联网的时间越来越多。2005年OCLC进行的一项调查发现：89%的大学生使用搜索引擎，而只有1%的学生使用图书馆网站进行信息检索。这说明搜索引擎更符合用户的使用习惯，搜索的满意度与搜索过程中返回的信息的数量和质量是分不开的。

　　可以说，下一代图书馆界面的产生，源于对新一代图书馆检索和获取界面的期待，图书馆需要开发和应用能够更好地适应当代网络用户的界面。捕捉到图书馆的这种需求，图书馆自动化集成系统商开始努力在图书馆的OPAC界面上进行创新。

　　功能特点

　　下一代图书馆发现与获取界面的主要功能和特点表现在五个方面：

　　一是简单的检索界面，单点获取图书馆所有馆藏信息，包括图书馆所有馆藏的书目信息和图书馆订购的全部电子资源；

　　二是对检索结果集进行相关度排序；

　　三是对检索结果集进行分面导航(facet navigation)，引导读者找到所需的资源；

　　四是从互联网获取不同来源的相应内容，如封面、目录、评论等，丰富书目的信息量，增强内容的容量；

　　五是支持用户互动，如读者可以为图书写评论、增加个性化标签等。

　　目前，国际上已经出现了一些比较成熟的下一代图书馆界面的相关产品，商业产品如Aquabrowser、Encore、Primo、Worldcat Local和Polaris Library System等，开源产品如Scriblio(http://about.scriblio.net)和Vufind(http://www.vufind.org)。

　　实施Scriblio项目

　　2008年4月，北京大学图书馆对图书馆自动化集成系统展开评估和调研。调研的结果表明，下一代图书馆界面是图书馆未来发展和实践的一个方向。5月，北京大学图书馆便开始尝试利用开源软件Scriblio搭建下一代图书馆界面。2009年4月，系统完成大部分本地化配置，并投入试运行。

　　功能特点

　　Scriblio本身是下一代图书馆界面的一个代表：既继承了传统OPAC书目查找的功能，又具备很多新的设计思路和理念。其主要功能特点如下：

　　1. 一站式整合检索：检索界面简洁如Google，可以查询所有馆藏资源(包括纸版和电子资源)；

　　2. 对检索结果进行相关度排序、分面显示；

　　3. 可以进行书评；

　　4.可以通过互联网提供书目信息的API接口，获取诸如封面、摘要、目录等丰富的内容；

　　5. 具备其他一些Web2.0的功能，如RSS、评分等。

　　安装系统

　　Scriblio是开源博客系统WordPress的一个内容管理插件。WordPress系统平台的运行环境为Apache+Mysql+PHP。由于PHP语言本身有跨平台的特性，因此，整个系统可以运行在Linux/Unix、Mac OS、Windows等操作系统之上。北京大学图书馆试验系统运行环境为Windows 2003 Server。

　　安装的步骤：

　　首先是搭建Apache+MySQL+PHP环境。北京大学图书馆使用的是Windows平台下的开源集成软件WAMP(http://www.wampserver.com)；

　　其次，是安装搭建WordPress(http://www.wordpress.org)系统平台；

　　其三，需要安装并激活WordPress Scriblio相关主题和插件：Scriblio主题(http://about.scriblio.net/downloads/scriblio_theme.tar.gz)、Bsuite插件(http://downloads.wordpress.org/plugin/bsuite.3.0.5.zip)和Scriblio插件(http://downloads.wordpress.org/plugin/scriblio.2.6b01.zip)。

　　安装过程中特别注意的是：WordPress系统和各插件的版本要相互兼容，否则会出现各种不同的错误。北京大学图书馆测试成功的各软件版本分别为：WordPress 2.6.x、Bsuite 3.0.5、Scriblio 2.6b01。

　　配置参数

　　安装完主题和插件后，需在WordPress后台管理端配置相应的参数。主要配置点为：将“设置-永久链接(setting-permalink)”设置为“数字(numeric)”。

　　导入数据

　　配置完成之后，在WordPress后台管理端就可以导入书目数据了。可导入的数据类型包括：MARC书目数据、Horizon系统书目数据和III的Millennium系统书目数据。其中，后两种直接与Horizon自动化集成系统和III的Millennium自动化集成系统进行批量数据交换。

　　北京大学图书馆使用的集成管理系统是SirsiDynix公司的Unicorn系统，Scriblio插件没有与Unicorn系统对应的接口，因此最终采用的是MARC书目数据的导入方式，即从Unicorn系统卸载出UTF-8字符集的MARC数据，再将这些数据通过Scriblio插件导入WordPress系统。

　　解决本地化问题

　　安装好WordPress+Scriblio主题+Scriblio插件+Bsuite插件系统后，并不意味着可以立即使用该系统。北京大学图书馆当时遇到了几个问题：一是系统只可以导入UTF-8字符集的USMARC，而北京大学图书馆的中文图书使用的是CNMARC，古籍和学位论文等其他特藏库采用的是自建元数据；二是系统无法检索中文字符；三是中文图书无增强内容；四是无法获取Unicorn系统馆藏实时流通信息。

　　针对遇到的问题，北京大学图书馆作了四方面的改进：

　　一是改进Scriblio插件中importer.php文件的相应代码，自定义增加CNMARC字段映射和古籍元数据字段映射。经过改进后，北京大学图书馆可以将古籍数据和CNMARC数据导入系统。使用同样的方法，未来可以根据需要，在importer.php文件中对相关代码进行自定义配置。

　　二是利用一款开源全文检索软件Sphinx(http://www.sphinxsearch.com)进行中外文全文检索，其中采用了香港科技大学项目成果TSVCC中文繁简字对照表(http://library.ust.hk/software/scriblio-sphinx.html)，配置好Sphinx与WordPress的接口。

　　北京大学图书馆目前可以通过标题、著者、简介进行中外文的全文检索。此外，系统可以进行中文繁简自动转换检索，在检索框中输入繁体中文能够检索出简体书目，输入简体中文能检索出繁体书目。

　　三是通过互联网书目信息的API接口获取中文图书的增强内容。目前北京大学图书馆中文图书封面来自Google图书项目、豆瓣、亚马逊中文图书。

　　四是开发一款WordPress插件，专门解析Unicorn系统的实时流通信息页面，获取馆藏实时流通信息。

　　下一代图书馆界面是图书馆服务发展的必然趋势。在商业产品刚刚进入国内市场的时候，不可避免会遭遇高价垄断和本地化不成熟的问题。在商业产品投入成本高、可用性低的现状下，利用免费开源软件搭建试验系统，是图书馆可以尝试的一个解决方案。

　　未来，北京大学图书馆将根据本馆的实际需要，对Scriblio进行扩展开发。

　　(作者单位为北京大学图书馆)

　　来源：《中国教育网络》2009年12月刊

低成本实现一站式全文检索全文检索《周易》全文检索古典诗文全文检索全文检索中医古籍中医古籍全文检索诸子百家全文检索阅读十种方法实现低成本经营 Lucene 全文检索实践(二) 扫描文档的全文检索《诗经》阅读及全文检索《史记》阅读及全文检索《三国志》阅读及全文检索《史记》阅读及全文检索《周易》阅读和全文检索《周易》阅读和全文检索？？？《周易阅读和全文检索《周易》阅读和全文检索! 《史记》阅读及全文检索! 《周易》阅读和全文检索周易阅读和全文检索诸子百家全文检索阅读系统. 《周易》阅读和全文检索全宋诗-全文阅读及全文检索`