1995年,清华大学创办了我国第一个超大型知识信息资源库。这一资源库与全国5400多个期刊编辑部密切合作,将期刊的全文内容以数字化的形式集成起来,建成了科技与社会科学各学科专业的全文数据库,在具有国际先进水平的全文检索系统支撑下,以光盘和网络为载体连续更新,向我国以及海外高等院校、科研单位、政府部门等各行各业企事业单位以及社会广大读者,提供了迄今为止历时六年的知识信息服务。现在,这一超大型信息资源已经建成具有1.5TB、900万篇全文文献的文本型数字化数据库,每天追加更新3000多篇全文,通过设在全国各地区的10个“CNKI数据库交换服务中心”以及遍布全国、全球的600多个镜像站点辐射全国、全世界的广大地区。长时间的产业化运行,已经使这一资源库以及它的服务体系,作为知识基础设施为各行各业广大科研、教育、管理、技术开发等各类人员所依赖。因此,1999年这一重大信息化工程被国家科技部等五部委列为国家级“重点新产品重中之重项目”,并连续两年通过了国家科技部的“重中之重”项目的考核。2000年1月,国家新闻出版总署授予这一数字化连续电子出版物“国家电子出版物”最高奖项,并将这一项目的后续工程,即建成我国3000个核心和重点期刊创刊以
来全部文献的完备化数据库的中国期刊世纪光盘工程,纳入了国家十五计划。
在大规模连续建设全文期刊数据库的基础上,1999年以清华大学为技术支撑,以清华同方为产业后盾,清华同方光盘股份有限公司与中国学术期刊(光盘版)电子杂志社、光盘国家工程研究中心和清华同方教育技术研究院结成产业战略联盟,以实现知识信息资源的高度共享为目标发起了名为中国知识基础设施工程(CNKI)的行动计划。
一、CNKI工程的目标
随着信息技术的迅猛发展和网络设施建设水平的不断提高,社会对信息服务提出了越来越高的要求。信息服务的目的是通过信息资源的共享最大限度地满足人们获取和利用知识的需求。以什么样的方式使社会共享信息资源,决定了人们获取信息的能力和利用信息的水平。自从数字化技术出现以来,人们曾经开发过不少期刊、图书、博硕士论文等各种出版物的二次文献数据库,如著名的SCI、EI、CICI、MEDLINE以及我国的各种题录文献文摘型数据库等等,现在仍然被文献信息检索系统或图书馆联合检索目录使用。但是,人们的更多的兴趣正在迅速地转向规模越来越大的集成化全文数据库。数字化图书馆的概念建立以来,各种数据库、包括多媒体数据库发展迅速。为了使人们能够方便地使用各种各样内容与结构不同的数据库,近年来,信息资源的建设标准成为信息服务业发展亟待解决的问题。特别是近年来,为了使人们能够针对自己的问题从大量的信息资源中方便地获取解决问题的知识,以个性化服务和隐性知识开发为主流的知识服务成为信息服务发展的主目标。隐性知识是相对于以文字、图像、动画、音频和视频等各种信息形态表现出来的显性信息而言的,存在于人脑之中的各种观念形态的知识,或者是隐含于大量显
性知识信息中的知识,是知识创新、技术创新的重要的活化知识源泉,通过各种信息交流的方式将可以成为人们共享和利用的显性知识。随着信息技术的发展,人们希望在知识的生产、传播、扩散与利用的过程中,随时与显性信息资源和隐性信息资源(主要是人)相互动,以便更加高效地学习和创新。
人们对知识信息资源共享所追求的越来越高的境界,引导着信息服务与知识服务产业的发展方向。反过来信息服务业所追求的新的服务模式,将决定知识信息资源开发利用的水平。在日新月异的信息化时代,我们不能也没有必要追随发达国家走过的道路,也不必模仿发达国家现有的信息与知识服务模式以及产业运行模式,因为它们的历史和现状是由他们自己的国情决定的。我们应当根据自己的国情和能力,顺应国家信息化发展的需要,发挥社会主义市场经济体制的优势,以跨越式的方式构建更为先进的知识信息资源共享模式和信息与知识服务产业的运行模式,以最大限度地满足我国实施“科教兴国”战略和“可持续发展”战略的需要。
具体地讲,CNKI向社会提供的知识信息共享的模式,是以显性知识的知识元为神经系统,配置以标准化的元数据关联,将各种全文文献数据库和多媒体数据库结成知识网络,在标准化智能搜索引擎、网络多媒体会议平台、教育平台、出版物采编平台、专家数据库等构成的知识服务平台支撑下,使人们能够在显性知识信息资源和隐性信息知识资源的浩瀚海洋之中随意漫游,互动交流。
CNKI的产业运行模式,是在国家和国际知识产权保护法律法规的规范之下,以企业投资与国家投资相结合,以追求社会效益的最大化为首要目标,广泛与社会各界平等合作,按照法制条件下的市场运作规则,在CNKI知识服务平台的支撑下共建知识信息资源,共享信息与知识服务市场资源和利益,共同创造我国知识信息资源共享的最高境界。
二、CNKI工程的主要内容及进展
1、建设完备、动态更新、可以不断深度开发利用的CNKI源数据库。源数据库是按照知识信息的不同载体形式分别开发的集成化全文数据库和多媒体数据库,如期刊数据库、报纸数据库、博硕士论文数据库、多媒体教学素材库等等。开发源数据库的目的是为了及时、完备地采集各种显性信息资源素材,为各种形式的信息与知识服务打造数字化资源基础。源数据库尽可能加工成为纯文本和软件形式,可以利用不断发展的信息处理技术对其进行各种深度的再开发。如引文关联、知识元关联、语音识别、自动标引、自动聚类、可视化处理等等。这样才能充分地利用知识信息资源的价值,充分满足知识信息资源高度共享的各种需求。
目前,《CNKI期刊全文数据库》已基本建成我国最完备的期刊文献信息资源。《CNKI博硕士论文数据库》已收集国内400多个博士培养点(包括其硕士培养点)的优秀论文20000余本,每年以20000本的速度增加。《CNKI报纸数据库》已采集国内600多个重要报纸近两年来的150多万篇重要文章,每年以80-100万篇的速度增长。此外还建成了《CNKI重要会议论文集数据库》以及部分学科专业的图书全文数据库。在海外数据库的引进方面正在取得实质性进展。通过智能化网络搜索引擎正在集成整合世界各知识信息发布网站提供的专业知识信息。为了建设专业知识仓库的需要,CNKI工程还将不断根据各类用户群的需要不断扩大源数据库的建设范围。
2、CNKI知识服务平台建设作为CNKI知识服务平台的神经系统———知识元数据库,在整个平台中将起着类似计算机和网络操作系统的中枢作用。由于CNKI源数据库具有可深度开发的基本条件,我们可以在大量的、新的科技文献中不断摄取表述知识内涵和外延的知识元,并使其与CNKI知识服务平台上运行的所有数据库进行全文水平上的关联。辅之于各种专著和经典教材,使人们能够在学习和研究新文献的时候,随时直接调用知识元高层的知识网络以及对基本知识的系统、详尽的介绍和说明,从而大大缩短学习和研究的过程,大大提高知识与技术创新的效率。目前,知识元数据库的建设标准及有关技术已通过专家鉴定,正在启动大规模的开发与制作。
3、知识仓库建设标准与共建共享在过去和未来几年内,国内外信息资源的主流消费模式仍然是机构消费。因此,面向各行各业专业机构的知识需求,根据机构内部各类、各层次人员获取知识的目的和用途,广泛采集、编辑、制造完备的标准化知识库,以及由这些知识库构成的知识仓库,将是CNKI实施信息与知识服务的主要模式。这些知识仓库将运行在CNKI知识服务平台之上,可以利用平台提供的各种个性化服务技术,譬如人们向计算机反映特定问题的问题视图与计算机向人提供解决方案的知识视图等技术手段,使每个人都能够方便、快捷地获得针对特定问题的解决方案或解决方案的信息资料。
目前,CNKI工程建成的专业知识仓库有:《中国基础教育知识仓库(中学版/小学版)》,约120万篇文献,每天更新3000多篇文献,是我国中小学教育信息化的重要信息资源,已通过国家教育部的鉴定。《华同方多媒体基础教育教学素材库》,支持实现以素质教育改革为目标,以支持信息技术与课程整合的需要为标准,自主研制开发了3000多个具有可视化功能的教育软件素材,并集成了大量可用于日常教学的图片、文字、音频、视频资料,通过了国家教育部的鉴定,被国家教育部有关部门列为教育信息化实验区校的主要资源产品。《中国医院知识仓库》已具有200多万篇文献的规模,每天更新2300多篇,已被国内医院广为采用。《中国行政管理知识仓库》已达到300多万篇文献的规模,每天更新3000多篇,已被中央和国家40多个部委以及各级政府部门广泛采用。此外,CNKI工程还建成了《中国企业管理知识仓库》、《中国农业知识仓库》、《中国城市规划知识仓库》、《中国法律法规知识仓库》等十多种专业知识信息资源,目前正在投向CNKI知识服务平台。
2001年9月,在中宣部出版局、国家新闻出版总署和信息产业部的指导下,清华大学在五台山举行了“数字化信息资源与知识仓库标准国际研讨会”,初步形成了《CNKI知识仓库与知识服务平台建设标准》,并提出了在标准化、规范化的基础上广泛与信息资源建设单位以产业化的方式共建共享的发展战略,并成功地完成了《中国城市规划知识仓库》、《中国法律法规知识仓库等数据库》的开发。
4、中国科学文献计量评价数据库日趋完备的源数据库建设与日益扩大的资源共享,为以科学文献计量评价为手段的知识评价和科研绩效评价,提供了客观有效的资源基础和知识应用反馈的有效信息。特别是从1999年以来,在中宣部和国家新闻出版总署的指导和支持下,CNKI工程制定了《中国学术期刊(光盘版)检索与评价数据规范》,并对全国5400多个期刊编辑部进行了反复细致的培训,使我国期刊出版的检索与评价数据质量得到了整体性的提高。在此基础上,中国学术期刊(光盘版)电子杂志社与中国科学院文献情报中心、中国社会科学院文献信息中心、北京大学图书馆合作成立了中国科学文献计量评价研究中心,已经研制出版了《中国科学引文数据库》、《中国科学计量指标数据库》、《中国人文社会科学引文数据库》、《中国人文社会科学计量指标数据库》、《中国学术期刊引证报告数据库》、《中文核心期刊要目总览》,这些数据库的建成与连续出版将为我国科研管理提供真实有效的评价考核手段,为科研资源的投向提供重要的决策依据。
作者:中国学术期刊光盘版电子杂志社常务副社长,清华同方光盘股份有限公司知识网络事业部总经理,中国科技期刊编辑学会常务理事,中国人文社会科学学报编辑研究会常务理事。