黄 晨 朱 聪

数字图书馆收稿日期:1999 年5月 12 日作者简介: 黄 晨 , 男,1970 年生, 浙江大学图书馆馆员, 电子部主任, 致力于信息资源开发及网络技术应用。 朱 聪 , 男,1967 年生, 浙江大学图书馆馆员, 技术部主任, 致力于信息资源开发及网络技术应用。Internet上数字化图书馆的设计及实现黄 晨 朱 聪(浙江大学图书馆, 杭州 310027)摘要   数字化图书馆是传统图书馆的发展方向, 是图书馆的高级表现形式, 也是当前图书馆和情报界研究的热点, 更是Internet 和信息科学研究的热点。数字化图书馆的关键技术主要有: 多媒体信息的数字化技术; 图像、声音、文本等多媒体介质的检索技术; 超媒体信息的存储、管理及检索技术; 数字化文献的版权保护技术及Web 服务器与多媒体数据库的接口技术。本文在综述上述诸项技术后针对多媒体数据库的特点, 对实现数字化图书馆信息存储及操作的超媒体数据库系统的体系结构作了较为深入的探讨。关键词   数字图书馆 系统框架 存取接口Design and Implementation of Digital Library in InternetHuang Chenand Zhu Con g(Library of Zhejiang University, Hangzhou310027 )1 数字化图书馆的优点及技术要求Web技术加快了数字化图书馆的全球网络化进程 , 通过 Internet 使全球的图书馆资源尽早实现共享是图书馆发展的必然方向。数字化图书馆的优点主要有这么几条 : 其一是资源可供网上用户共享 , 打破了印刷型文献的局限性 ; 其二是文献资料比起印刷型和缩微胶片形式的文献资料更便于检索与查询 , 特别是现在已出现的具备强大功能的检索引擎 , 不但能进行全文检索 , 还可以进行图像检索 ; 第三 , 由于可以在网上对数字化图书馆进行远程访问 , 不必出门就可将需要的珍贵资料一网打尽 , 又能节省大量的时间和金钱 ; 第四 , 数字化图书馆还能对文献资料(如一些珍本、善本、古籍和历史文物等) 进行长期的保存和保护。目前 , 通过 Internet 可以查找到国内外 1000 多个图书馆的书目信息 ; 可访问世界上许多著名的情报数据库 , 如 DIALOG 、 BRS 、 MEDL INE 等 ; 还可以访问许多免费的信息数据库,如访问美国国会图书馆的 Gopher 服务器 , 其中的 Global Electronic Library 目录可提供美国和世界上有关图书馆自动化方面的最新消息 ; 可访问世界上 20 多万个 WWW 服务器上各单位的第18卷 增刊1999 年9月情 报 学 报Vol. 18,SupplementSeptember,1999主页 , 可以获得大量带有多媒体的资料;还可以在网上举办图书馆的电子论坛等等。数字化图书馆的多媒体数据库中 , 各种信息文献载体必须是数字化的,这是数字化图书馆的首要特征。根据目前我国出版界的状况 , 近几年正式出版特基本已采用电子排版技术 , 即已数字化 , 关键是采用电子排版前的出版物如地 图、缩微资料、视听资料、电影片等如何进行数字化。这在技术上已解决 , 但实现起来工作量巨大 , 需要假以时日。其次是对巨量数据如何进行存储、管理和索引。在数字化图书馆将现有资料数字化的过程中 , 其信息量是非常巨大的。100万册的图书资料被数字化后,大约需 20 TB 存储空间( 1 TB=1024 GB, 即 100 多万兆字节) 。对巨量数据进行存储管理和检索,是 Internet 网上数字化图书馆的首要攻关课题之一。要实现图书资源的共享 , Internet 是数字化图书馆的重要环境条件。这个环境小到一个单位的局域网络 , 大到地区、国家甚至国际网络与通讯系统的建设。从宏观的数字化图书馆概念出发 , 它涉及到一个国家的网络和通讯设施 的整体化建设。这个前期基础工程在我国已经实现 , 国际上有 Internet, 国内有 CERnet 、 Chinanet 等。以 CERnet 为例 , 各大行政区已建立了地区网络中心 , 通过这些网络中心已连接了全国的各大高等院校及重点科研单位。另外 , 数字化图书馆必须具备一个统一的用 户界面和信息检索浏览系统。有一个友好的用户界面 , 易学易懂 , 使用方便 , 当用户有问题时 , 可以进行联机咨询服务。在数据的存储和管理上 , 数字化图书馆应采用客户机 / 服务器的模式。客户、图书馆服务器和对象服务器构成信息传递的核心结构。图书馆服务器主要管理数据的目录、索引和查询 , 而对象服务器用于管理数字化的对象(即各种类型载体的原文献) 。在组织有效的访问和查询方面,更有效的文本数据库查询技术和多媒体资料的查询策 略也是当前研究的热点之一。直接针对图像、声音建立索引 , 可以按照颜色、形状、纹理在图像中的位置对图像进行查找。再次 , 在数字化资料的传送上 , 多媒体网络为数字化图书馆提供了一个信息的传输环境。今后的 NII(国家信息基础设施) 和 GII 就是最好的环境。可以说 , 宽带综合服务数字网( B 2 IS 2DN)将成为多媒体通讯的基本传输网络。最后 , 在系统管理和版权保护上 , 数字化图书馆要有一般计算机网络系统的管理功能 , 要重视各种类型用户的权限管理,更重要的是 , 必须用适当的技术确保版权人的资源不被滥用。以上所述为数字化图书馆的基本技术要求。2   Internet上数字化图书馆的系统框架结构Web技术促进 Internet 在全世界迅速发展 , 加速了全球网络化和信息化的进程。现在几乎所有流行的应用和支撑系统都向Internet靠近 , 支持网上的信息存取和共享。因此在 Web上访问数字化图书馆的多媒体数据库是不分地域地获取世界范围内的图书馆信息资料的非常重要的一种用户访问形式。对于传统数据库存取方式 , 可以利用各种图形化前端开发工具快速开发出图形化的查询界面。其不足之处在于前端平台不统一 , 占用资源较多 , 因此 , 数据库存取前端的跨平台能力、前端应用的升级方便性都受到限制 , 而通过 Web 访问数据库就可以有效地克服这一缺点。由于是浏览器形式的界面 , 用户在访问丰富的 Web 信息的同时 , 可以存取网络上各种公共和专业的数据库资源 , 可达到用户界面的统一化。几乎在每一种平台上都配有 Web 浏览器以供使用 , 浏览标准的 HTML 组成的文档 , 可以对数据库进行存取。嵌入的Java语言更具有跨平台性。只要用户在 Internet 上 , 就可以通过浏览器访问数据库。根据数字化图书馆多媒体数据库系统的基本特征以及 Internet 网络上的数据库应用的发181增刊Internet上数字化图书馆的设计及实现展趋势 , Internet 环境下的数字化图书馆结构及原理如图 1 所示。整个系统由用户存储前端(浏览器) 、 Web 服务器、多媒体数据库服务器、数据库创建与维护系统 4 部分组成。图1 Internet环境下的数字化图书馆结构数据库存取前端 : 在 Internet 网上 , 最常用的信息访问就是浏览器,通过浏览器不仅可以访问丰富的 Web 信息 , 而且还可以通过 Java 接口、 CGI 接口或 A PI 接口对数据库进行存取 , 获得动态的 Web 数据 , 扩展了可访问的信息源。Web服务器提供 Internet 服务 , 管理 HTML 构成的信息空间 , 并提供对数据库的存取接口。基于内容的检索引擎也可以嵌入到 Web 服务器中 , 对 Web 的信息进行检索。多媒体数据库由 MDBMS 内核引擎 ( 包括事务管理、查询优化、恢复管理和常规数据的存储管理等) 、基于内容的检索引擎和层次型存储管理子系统构成。实用的多媒体数据库系统也应具有管理常规数据的能力。数据库创建和维护系统负责创建和定义数据库 , 并对数据库进行插、删、改等维护工作。对于多媒体数据 , 要经过特征提取处理 , 特征和原始数据分别插入到数据库中 , 并针对多维特征建立索引。3   Internet上数字化图书馆的存取接口用户在 Internet 中访问数字化图书馆 , 一般是通过 Web 服务器来与数字化图书馆的中的多媒体数据库连接的 , 即所谓的 Browser/Server 结构。要建立基于 B/S 结构的信息查询系统 ,其核心技术是在基于 SQL 的关系数据库和基于 HTML 的 Web 之间建立一种高效、稳定的互通机制 , 能够把 HTTP 表单的请求转化成适当的 SQL 语句序列发送到数据库服务器;以 SQL表的形式取得所查询的数据后 , 又能反之转化成 HTML 文件 , 由 Web 服务器发送给浏览器。一般通过如下两种各具特色的接口途径实现。通用网关接口 CGI(Common Gateway Interface)是目前使用最多的方案。在这种方案里 ,完成 SQL 查询和 HTML 页面之间接口工作的是运行于服务器上的可执行程序。这种方法有一个很明显的缺点 : 由于运行的是独立的可执行程序 ( 对于编译语言如 C 而言 , 是最终的可执行二进制文件 ; 对于解释型语言如 Perl 而言 , 是解释器) , 每收到用户的一次请求 , 就要开出一个新的进程。这样 , 当单位时间内接收到较多请求时,会造成系统性能急剧下降。在 Web 与数据库接口的技术中 ,Micros oft 的 Active Server Pages 技术就可以带来比传统的 CGI 低得多的资源耗费。在 ASP 中 , 起接口作用的不是独立的程序。 ASP 通过服务器端281情 报 学 报18卷 "插件"的形式对 Web 服务器进行扩展 , 使服务器能够识别 HTML 文件中嵌入的、符合一定语法机制的脚本命令并执行之。由于对 ASP 脚本的处理是 Web 服务器本身通过 ASP 扩展模块完成的 , 不需要建立新进程 , 故而在高密集的并发访问下能提供可观的性能。ASP对数据库的访问建立在成熟的 ODBC 、 ADO 等基础上 , 具有很大的可连接性 ; 同时 ,ASP的缺省主脚本语言 VBScript 是针对 Web 等应用场合开发的一个 Visual Basic 的子集 , 对于广大 VB 程序员来说 , 易于掌握 , 同时 ASP 又完全支持 Java Script 。这些特性使得 ASP 成为开发基于 Web 的应用系统的首选。使用 ASP 的困难之处在于 ,ASP 脚本程序的调试不方便。一方面,和 CGI 一样 , 是当客户端的请求发到服务器时由服务器处理脚本的 , 且没有调试器可用 ; 另一方面 , 和客户端的脚本程序一样 , 是嵌入到 HTML 文本中的代码段 , 而不是完整的程序。图 2 是以上两种方式存取数据库的基本原理示意图。首先 , 客户端的浏览器把查询请求表格作为 URL 发送给 Web 服务器 ,Web 服务器根据 URL 参数启动相应的 CGI 或 A PI 程序 ,该程序对数据库服务器按条件进行查询 , 查询的结果格式转化为 HTML 页 , 返回给浏览器。图2 Web服务器与数据库的连接方法利用 Java 机制设计的标准 SQL 数据库连接接口 JDBC 去访问数据库。 JDBC 定义了一系列的连接和访问数据库的 Java 类。从图 2 中看到 , 首先用户的浏览器连接到Web服务器上 ,下载含有 Java 小程序的 HTML 页 ,Java 小程序在客户端运行 , 使用 JDBC 接口 , 绕过 Web 服务器 , 直接与数据库服务器交互 , 并直接把查询结果的 HTML 页返回到浏览器。4   Internet上数字化图书馆的应用目前较为成熟的数字化图书馆方案应该首推 IBM 的 Digital Library(数字图书馆) 系统软件 , 它代表了 IBM30 多年信息管理之大成 , 跨越了多种行业、多项技术的界限 , 从经授权的多媒体应用软件的捕获工具、电子存储、查询和访问技术 , 到通过各种网络进行发布等等 , 构筑了一个可信赖的应用平台。IBM数字图书馆采用基于三角形客户机 / 服务器模型的体系架构 , 主要组成部分包括图书馆服务器、一个或多个多媒体对象服务器以及一个或多个客户机 , 核心是图书馆服务器。示意如图 3 。图书馆服务器运用大型商业数据库 , 全面管理 IBM 数字图书馆的目录信息 , 并用各类检381增刊Internet上数字化图书馆的设计及实现图3 IBM Digital Library结构框架索技术定位存储对象 , 提供安全查询 , 实现与对象服务器的通信。对象服务则用于存储所有的数据内容 , 它支持 DASD 附件及其它媒体设备 , 并可以分布于企业网络中 , 用户查询起来十分方便。而多台客户机可以同时与 IBM 数字图书馆系统中的图书馆及对象服务器相连 , 利用浏览器同时访问 IBM 数字图书馆 , 并可对多媒体对象进行收集、编制、存储和管理、保护及分布。享有盛名的梵蒂岗图书馆成立于 1451 年 , 在其 50 多万本藏书中 , 有 15 万余件原稿 , 有近5000本是在印刷机出现前 50 年印制的。由于距离和经费的限制 , 每年全世界仅有 2000 多名学者能够到图书馆来。为了保存图书馆中的宝藏 , 同时也为了让人们更容易地阅览到它们 , 梵帝岗图书馆采纳了 IBM 的 Digital Library 方案 , 选出一部分手稿做成数字化的复制品。为了避免数字资料在未经许可的情况下被擅自取用 , IBM 提供了三种技术 : 首先是在图像中加入显示的和隐藏的水印 , 用于识别图像的物主 ; 其次通过查看数字物件上的指模,可以知道上次使用该资料的被授权使用者的身份 ; 第三利用"数字隐藏"技术 , 在图片上加入不可抹去的说明资料。1997年 9 月 11 日 , IBM 宣布在中国推出 Digital Librry V. 2 版本 , 同时和亚洲 17 家第一流的学术机构共同组成亚太区第一个数字图书馆论坛。论坛的发起成员有 : 北京国家图书馆、上海图书馆、辽宁图书馆、北京大学和清华大学等。其中北京国家图书馆 , 作为亚洲最大的图书馆 , 已经与 IBM 开始合作 , 将蕴含五千年文化精髓的上万册图书进行数字化管理 ; 北京大学图书馆的 450 万册图书中 , 有近 15 万是古籍善本 , 为了使更多的人能使用这些资源,北大也与IBM积极合作 , 开展数字化项目 ; 已有 86 年历史的清华图书馆 , 其利用 IBM 技术的数字图书馆系统目前已投入使用 , 并成为 CERN ET(中国教科网) 中心结点的一部分。它采用 A TM 产品和技术 , 双字节语言检索工具包 InfoSearch, 建成了具有中文全文检索功能的"中国高校学位论文联机服务系统" , 现有博士、硕士学位论文万余篇。以上图书馆的行动预示着数字图书馆已经开始在亚洲、在中国落户。数字图书馆的发展必将为高等教育、媒体、出版、娱乐、文化、保健及商业机构高效率地利用数字资源带来可靠的保障。参考文献1 刘九如 1数字图书馆向我们走来 1 计算机世界,1996,(9)2 张志东 1传统出版物和电子出版物的对比及其对图书馆藏书建设的影响 1 情报学报,97/123 黄 晨, 竺海康 1图书馆信息发布与共享 1 大学图书馆学报,1999, (3)4 Isabel A. stiriling. Graphical Representation of Information :implications for Global Electronic Libraries. Confer 2enceonGlobal Information Access :Challenges and Opportunities ,August 21~23,19964 Ling 2YuhW. pattie. Is therea Tao fort he access and control of digital resources? Conference on Global Informa 2tionAccess:Challenges and Opportunities ,August21~23,1996(责任编辑 许增棋)481情 报 学 报18卷