低成本实现一站式全文检索

来源:百度文库 编辑:神马文学网 时间:2024/10/03 02:56:55

低成本实现一站式全文检索

朱本军;聂华 2009-12-22 中国教育网络

.h1 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 240%; MARGIN: 17pt 0cm 16.5pt; FONT-SIZE: 22pt; FONT-WEIGHT: bold}.h2 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 173%; MARGIN: 13pt 0cm; FONT-SIZE: 16pt; FONT-WEIGHT: bold}.h3 {PAGE-BREAK-AFTER: avoid; TEXT-JUSTIFY: inter-ideograph; TEXT-ALIGN: justify; LINE-HEIGHT: 173%; MARGIN: 13pt 0cm; FONT-SIZE: 16pt; FONT-WEIGHT: bold}   下一代图书馆界面(the Next Generation Library Catalog)是一种一站式发现和获取图书馆书目信息和电子资源的工具。它继承了传统OPAC的一些特性,但是在功能和界面设计上又与传统图书馆OPAC有很大的不同。

  自从2008年以来,我国高校图书馆开始陆续关注下一代图书馆界面。目前,应用下一代图书馆界面的高校图书馆有两个:一是使用Ex Libris公司的Primo产品的上海交通大学图书馆(http://www.lib.sjtu.edu.cn/welcome.do),二是使用Innovative公司的Encore产品的华东师范大学图书馆(http://encore.lib.ecnu.edu.cn)。在开源产品方面进行试验并取得一定成果的高校图书馆有:香港科技大学图书馆(http://catalog.ust.hk/catalog/smartcat.php)和北京大学图书馆。本文以北京大学图书馆为例,介绍如何利用开源软件Scriblio搭建下一代图书馆发现与获取界面。

  下一代图书馆界面的兴起

  传统OPAC不能适应馆藏的变化

  传统的图书馆OPAC有几个显著的特点:一是被设计为图书馆自动化集成系统的一个子系统,与自动化系统的采访、编目、流通等子系统高度集成,密不可分;二是整个检索环境高度依赖书目数据库和流通子系统;三是所检索的资源范围,大部分用于揭示图书馆馆藏的印刷版资源;四是对资源的揭示受到MARC记录的限制,因此,仅限于记录结构涵盖的信息。

  随着Web2.0相关技术的出现,以及图书馆馆藏资源的变化,传统OPAC越来越不能满足图书馆和读者的需求。

  从图书馆的角度来看,首先,电子资源越来越多,图书馆希望OPAC不仅能揭示馆藏书目信息,还能揭示订购的电子资源;其次,数字特藏资源(如学位论文、古籍、音视频等)的种类和数量不断增长,而拘泥于MARC的传统图书馆集成管理系统不能胜任数字特藏的元数据描述、数字对象的提交等需求;三是不同类型资源的检索入口分散,不能整合揭示图书馆的馆藏资源。

  从用户的角度来看,用户使用图书馆的时间越来越少,而使用互联网的时间越来越多。2005年OCLC进行的一项调查发现:89%的大学生使用搜索引擎,而只有1%的学生使用图书馆网站进行信息检索。这说明搜索引擎更符合用户的使用习惯,搜索的满意度与搜索过程中返回的信息的数量和质量是分不开的。

  可以说,下一代图书馆界面的产生,源于对新一代图书馆检索和获取界面的期待,图书馆需要开发和应用能够更好地适应当代网络用户的界面。捕捉到图书馆的这种需求,图书馆自动化集成系统商开始努力在图书馆的OPAC界面上进行创新。

  功能特点

  下一代图书馆发现与获取界面的主要功能和特点表现在五个方面:

  一是简单的检索界面,单点获取图书馆所有馆藏信息,包括图书馆所有馆藏的书目信息和图书馆订购的全部电子资源;

  二是对检索结果集进行相关度排序;

  三是对检索结果集进行分面导航(facet navigation),引导读者找到所需的资源;

  四是从互联网获取不同来源的相应内容,如封面、目录、评论等,丰富书目的信息量,增强内容的容量;

  五是支持用户互动,如读者可以为图书写评论、增加个性化标签等。

  目前,国际上已经出现了一些比较成熟的下一代图书馆界面的相关产品,商业产品如Aquabrowser、Encore、Primo、Worldcat Local和Polaris Library System等,开源产品如Scriblio(http://about.scriblio.net)和Vufind(http://www.vufind.org)。

  实施Scriblio项目

  2008年4月,北京大学图书馆对图书馆自动化集成系统展开评估和调研。调研的结果表明,下一代图书馆界面是图书馆未来发展和实践的一个方向。5月,北京大学图书馆便开始尝试利用开源软件Scriblio搭建下一代图书馆界面。2009年4月,系统完成大部分本地化配置,并投入试运行。

  功能特点

  Scriblio本身是下一代图书馆界面的一个代表:既继承了传统OPAC书目查找的功能,又具备很多新的设计思路和理念。其主要功能特点如下:

  1. 一站式整合检索:检索界面简洁如Google,可以查询所有馆藏资源(包括纸版和电子资源);

  2. 对检索结果进行相关度排序、分面显示;

  3. 可以进行书评;

  4.可以通过互联网提供书目信息的API接口,获取诸如封面、摘要、目录等丰富的内容;

  5. 具备其他一些Web2.0的功能,如RSS、评分等。

  安装系统

  Scriblio是开源博客系统WordPress的一个内容管理插件。WordPress系统平台的运行环境为Apache+Mysql+PHP。由于PHP语言本身有跨平台的特性,因此,整个系统可以运行在Linux/Unix、Mac OS、Windows等操作系统之上。北京大学图书馆试验系统运行环境为Windows 2003 Server。

  安装的步骤:

  首先是搭建Apache+MySQL+PHP环境。北京大学图书馆使用的是Windows平台下的开源集成软件WAMP(http://www.wampserver.com);

  其次,是安装搭建WordPress(http://www.wordpress.org)系统平台;

  其三,需要安装并激活WordPress Scriblio相关主题和插件:Scriblio主题(http://about.scriblio.net/downloads/scriblio_theme.tar.gz)、Bsuite插件(http://downloads.wordpress.org/plugin/bsuite.3.0.5.zip)和Scriblio插件(http://downloads.wordpress.org/plugin/scriblio.2.6b01.zip)。

  安装过程中特别注意的是:WordPress系统和各插件的版本要相互兼容,否则会出现各种不同的错误。北京大学图书馆测试成功的各软件版本分别为:WordPress 2.6.x、Bsuite 3.0.5、Scriblio 2.6b01。

  配置参数

  安装完主题和插件后,需在WordPress后台管理端配置相应的参数。主要配置点为:将“设置-永久链接(setting-permalink)”设置为“数字(numeric)”。

  导入数据

  配置完成之后,在WordPress后台管理端就可以导入书目数据了。可导入的数据类型包括:MARC书目数据、Horizon系统书目数据和III的Millennium系统书目数据。其中,后两种直接与Horizon自动化集成系统和III的Millennium自动化集成系统进行批量数据交换。

  北京大学图书馆使用的集成管理系统是SirsiDynix公司的Unicorn系统,Scriblio插件没有与Unicorn系统对应的接口,因此最终采用的是MARC书目数据的导入方式,即从Unicorn系统卸载出UTF-8字符集的MARC数据,再将这些数据通过Scriblio插件导入WordPress系统。

  解决本地化问题

  安装好WordPress+Scriblio主题+Scriblio插件+Bsuite插件系统后,并不意味着可以立即使用该系统。北京大学图书馆当时遇到了几个问题:一是系统只可以导入UTF-8字符集的USMARC,而北京大学图书馆的中文图书使用的是CNMARC,古籍和学位论文等其他特藏库采用的是自建元数据;二是系统无法检索中文字符;三是中文图书无增强内容;四是无法获取Unicorn系统馆藏实时流通信息。

  针对遇到的问题,北京大学图书馆作了四方面的改进:

  一是改进Scriblio插件中importer.php文件的相应代码,自定义增加CNMARC字段映射和古籍元数据字段映射。经过改进后,北京大学图书馆可以将古籍数据和CNMARC数据导入系统。使用同样的方法,未来可以根据需要,在importer.php文件中对相关代码进行自定义配置。

  二是利用一款开源全文检索软件Sphinx(http://www.sphinxsearch.com)进行中外文全文检索,其中采用了香港科技大学项目成果TSVCC中文繁简字对照表(http://library.ust.hk/software/scriblio-sphinx.html),配置好Sphinx与WordPress的接口。

  北京大学图书馆目前可以通过标题、著者、简介进行中外文的全文检索。此外,系统可以进行中文繁简自动转换检索,在检索框中输入繁体中文能够检索出简体书目,输入简体中文能检索出繁体书目。

  三是通过互联网书目信息的API接口获取中文图书的增强内容。目前北京大学图书馆中文图书封面来自Google图书项目、豆瓣、亚马逊中文图书。

  四是开发一款WordPress插件,专门解析Unicorn系统的实时流通信息页面,获取馆藏实时流通信息。

  下一代图书馆界面是图书馆服务发展的必然趋势。在商业产品刚刚进入国内市场的时候,不可避免会遭遇高价垄断和本地化不成熟的问题。在商业产品投入成本高、可用性低的现状下,利用免费开源软件搭建试验系统,是图书馆可以尝试的一个解决方案。

  未来,北京大学图书馆将根据本馆的实际需要,对Scriblio进行扩展开发。

  (作者单位为北京大学图书馆)

  来源:《中国教育网络》2009年12月刊