我分三点简要介绍清华大学中国学术期刊(光盘版)电子杂志社提出的《中国知识资源总库》的设计思想和建设目标。
关于信息化的实质性意义,在2000年八国集团首脑会议发表的“全球信息社会冲绳宪章”中明确提出:“信息与通讯技术推动经济与社会发展的本质,是它的力量能够帮助人们和社会利用知识和创意。”也就是说,信息化的真正目的和核心任务,是知识资源的开发利用,并且已逐步成为我国的社会共识和国家意志。在我国互联网建设初期清华大学就创办了目前已在国内外很有影响的《中国学术期刊(光盘版)》、“中国期刊网”,以及现在包括《中国优秀博硕士论文数据库》、《中国重要报纸全文数据库》、《中国重要会议论文全文数据库》、《中国医院知识仓库》、《中国基础教育知识仓库》、《中国企业知识仓库》等20个数据库型电子期刊、1200多万篇文献在内的CNKI数字图书馆,并以此为基础提出建设《中国知识资源总库》,说明他们在认识上是超前的。
应对知识经济和经济全球化的严峻挑战,为大力提高知识创新能力和全民族的科学文化素质,国家关于信息化的总战略方针是,优先发展信息化,重点实现知识资源的社会共享。今年,科技部提出建设国家科技发展平台,首先实现科学文献与科学数据资源的社会共享;有关方面建议发展人文社会科学的数字图书馆,并支持文化出版产业的现代化;教育部推动教育信息化资源服务平台建设,优化教育资源结构,支持研究性学习与创造性智力开发为导向的素质教育和终生教育;国家推进企业知识管理与技术创新,积极营造“学习型城市”、“学习型企业”;中宣部、中组部等也在农村启动传播知识的网络工程;国际知识信息交流平台的建设也迫在眉睫。
如果要把这些工作都真的落到实处,毫无疑问,最基本、最重要的前提,就是知识信息资源的建设。那么,我国知识资源建设的情况怎么样呢?
根据新闻出版总署今年6月的一次互联网出版调查我们估计,我国互联网上真正属于科技、文化、教育等方面的知识内容,就中文全文文献而言,包括期刊、博硕士论文、会议论文、专利、报纸、年鉴在内,大约不超过1500万篇,约占现有印刷文献的2/5;解决了版权问题上网的图书不超过15万本,约占国内图书的1/20。科学数据、多媒体资源很少,更新很慢。总的估计,我国数字化知识资源约占现有资源总量的1/4。其中,大约1200万篇即80%出自CNKI数字图书馆。此外,国内引进的外文全文数据库多数只能在几十所大学和少数科研单位使用。数字化中文全文文献从数量上讲并不逊色于发达国家,而且我国的很多软件也是在国际上领先或先进的。但是,就我国知识信息资源的开发质量及其对社会的总体需求来说,仍然存在较大的差距。主要表现在:
1、数字化知识信息总量仍严重不足
缺乏长期的资源建设整体规划,文献资源建设的范围、层次、种类不够完备,图书类资源建设刚刚起步,数值型、事实型资源还有很多领域基本空白;多媒体资源仍未构成规模。
2、知识资源质量总体落后
缺乏科学的长远计划,信息加工与知识挖掘深度、资源激活力度明显不足;知识更新速度较慢,资源整体性整合的理念和方法较为落后。
3、国家相关政策落后
信息产业政策、出版产业政策、知识产权法律法规、技术标准与质量监督法规、互联网的运行管理政策等方面均滞后于知识传播产业发展的需要。
《总库》建设计划对解决知识资源建设本身的问题,给出了一个令人鼓舞的方案,而且它的实施也将为有关政策法规的建立健全提供有实际意义的经验。
在已有基础上,我国完全有可能在知识资源开发利用方面取得突破。《总库》以高起点、高目标建设,目的是求得跨越式发展,达到并超越国际先进水平。清华大学提出了一个理念:把知识资源的开发利用上升到建设国家知识基础设施(NKI)的高度来认识,在知识资源的开发利用过程中,为全社会知识生产、传播、扩散提供全程服务,称为CNKI工程。这个理念如果成为现实,将使我国知识创新和学习的环境发生革命性的变化;如果形成产业机制,将对我国出版业、IT业、信息服务业以及教育等各相关产业的发展起到很大的带动作用。
2、资源建设规划
在CNKI工程前期工作的基础上,《总库》的资源建设目标是:
(1)国内公共知识资源数字化总量指标:达到80%。
这项指标在完成200万本中文图书的建库、互联网资源整合、网络数据库的合作链接之后即可基本实现。
(2)国际公共知识资源数字化建设与综合利用指标:50%。
这项指标在完成200万本国内馆藏外文图书建库、互联网资源整合、网络数据库的合作链接之后即可初步实现。
基于《总库》超大容量信息资源的CNKI数字图书馆,将能够支撑各类知识信息的网络出版机制,新的资源将能够越来越快地进入《总库》资源。
3、资源增值性开发规划
集成化的数字化知识资源与印刷品图书馆藏有本质差异,人们希望在数据库中直接查到知识本身。知识是相互关联、各有体系的,埋藏在海量信息之中,需要专门手段才能把它挖掘出来。要做到这一点,需要对各学科专业的大量知识信息进行科学的处理和管理。这种增值性开发工作,对知识资源的利用至关重要,否则它的可利用价值将会大打折扣。在这方面的主要工作包括:
(1)知识提取
把隐含在各种资料中的知识单元提取出来,建成知识元数据库直接使用。知识提取数量规划指标是:提取数字化知识资源中的80%。
(2)知识分类管理
传统的图书资料分类方法已经不能满足数据库条件下对知识分类的需要,应当建立符合各学科知识结构和人们认知规律的知识分类体系。
(3)知识网络构建
揭示知识之间的复杂关联,非常有利于知识的发现和学习。我们可以从文献的相互引证、概念相关、项目相关、作者群相关等各方面构造知识之间的链接网络,使人们得以有效地发现相关的知识信息。通过这种知识网络链接,还可以把诸多不同内容、不同结构的数据库联成一个有机的整体,通过一个统一的检索平台提供给读者。
《总库》的设计考虑了社会各方面的应用需要。它既是一个具体的数据库产品,有其明确的用途、内容收录范围和功能性能质量指标,也是一个囊括万物的知识海洋,让人们从中取之不尽。《总库》采取的设计方法是:
1、“三层模型”与知识网络
(1)基本信息层:包括书、报、刊等出版物,博硕士论文等非出版物,图片、音频、视频,网络信息资源等各类源信息的数据库。
(2)知识仓库层:根据各行各业知识需求定制的专业知识库。
(3)知识元数据库层:知识单元构成的数据库。包括数值型知识元库、理论与方法型知识元库、事实型知识元库。
知识网络:通过引文链接、作者群体链接等各种表征链接,以及知识元链接与词汇链接,将各种数据库进行跨平台关联,构成知识网络系统,在分布异构统一检索平台支持下使用。
2、增值服务功能
《总库》除了提供常见检索功能外,还提供以下特殊功能:
(1)数字图书馆网络平台:实现分布异构数据库的跨平台统一检索。
(2)互动研究平台:包括科技查新与项目管理、网络视频会议、网络实时协作、数字参考咨询、个人数字图书馆等平台。
(3)互动教学平台:包括自动答疑、互动答疑、网络实时视频教学平台等。
(4)知识管理平台:包括知识库生成系统、网络信息资源整合系统等。
(5)互联网出版平台:包括网上采编、出版、征订发行平台。