- 27.27 KB
- 2022-08-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第1章计算机信息检索基础1.1计算机检索概述随着计算机技术、通信技术和高密度存储技术的迅猛发展,利用计算机进行信息检索已成为人们获取文献信息的重要手段。计算机信息检索能够跨越时空,在短时间内查阅各种数据库,还能快速地对几十年前的文献资料进行回溯检索,而且大多数检索系统数据库中的信息更新速度很快,检索者随时可以检索到所需的最新信息资源。科学研究工作过程中的课题立项论证、技术难题攻关、跟踪前沿技术、成果鉴定和专利申请的科技查新等都离不开查询大量的相关信息,计算机检索是目前最快速、最省力、最经济的信息检索方法。1.1.1计算机信息检索原理计算机信息检索是指利用计算机存储和检索信息。具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。为实现计算机信息检索,必须事先将大量的原始信息加工处理、以数据库的形式存储在计算机中,所以计算机信息检索广义上讲包括信息的存储和检索两个方面。计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工,具体做法是将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取出主题词、分类号以及文献的其他特征进行标识或者写出文献的内容摘要。然后再把这些经过“前处理”的数据按一定格式输入计算机存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工存储过程。计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。计算机信息检索基本原理如图1-1所示。1\n信息存储信息检索原始信息信息需求主题分析主题分析信息主题检索主题检索语言(主题词表)著录标引选定编制数据库记录及检索提问式及信息特征标识提问标识计算机类比输出检索结果图1-1计算机信息检索原理示意图1.1.2计算机信息检索系统的组成计算机信息检索系统主要是由计算机、通信网络、检索终端设备和数据库组成。1.计算机计算机是检索系统的核心部分,它包括硬件和软件。通过一定的检索软件,它们能够进行信息的存储、处理、检索以及整个系统的运行和管理,相对地说,硬件部分决定了系统的检索速度和存储容量,而软件部分则是充分发挥硬件的功能,确定检索方法。2.通信网络通信网络是联系计算机系统和检索终端设备的桥梁,起着远距离、高速度、无差错传递信息的作用。整个通信网络分成资源子网和通信子网两部分,资源子网包含网络中所有的计算机、输入输出设备、各种软件资源和数据资源,负责全网的数据处理业务,向网络2\n用户提供各种网络资源和网络服务;通信子网是由用作信息交换的结点计算机和通信线路组成的独立数据通信系统,承担全网数据传输、转接、加工和交换等通信处理工作。检索网络所用的通信线路,一般是公用电话线或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通信网络。3.检索终端设备检索终端设备是用户与检索系统相互传递信息进行“人—机对话”的装置,有电传终端、数传终端和PC机终端等。现在基本上都是PC机终端,通常由计算机、调制解调器和打印机组成。调制解调器的作用主要是把传输的信息在传输前加载到一个载波信号上(称之为调制),接受时通过检测收到的信息偏离精确载波信号的程度,分离出原先发送的信息(称之为解调),起到数据转换的作用,有内置式和外置式两种。4.数据库数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。检索系统中的数据库一般由各个数据库生产者提供,也有一些是系统本身建的。1.1.3计算机信息检索的发展自从世界上第一台计算机诞生50多年来,随着计算机技术、通信技术以及存储介质的发展,计算机信息检索经历了脱机批处理、联机检索、光盘检索与网络化检索四个阶段。1.脱机批处理检索阶段在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。2.联机检索阶段20世纪60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带多个终端的联机信息检索系统。这种系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。这种系统采用实时操作技术,所以用户可以使用终端设备直接与计算机进行“人—机对话”,计算机对用户的提问能及时处理并显示出结果。80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。联机检索服务是计算机检索走向实用化、规模化、产业化的重要的标志。世界上比较著名的联机检索系统有欧洲共同体9国所属的欧洲科技信息联机检索网络EURONET、欧洲空间组织的ESA/IRS系统、美国洛克希德公司的DIALOG系统、美国系统开发公司的ORBIT系统、美国医学图书馆的MEDLINE系统、日本科技信息中心的JICST系统等。3.光盘检索阶段光盘是一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。它是80年代在计算机技术、激光技术和3\n精密伺服电机技术等现代科学技术成果的基础上发展起来的新型电子出版物。一张CD-ROM光盘的存储容量为650MB,是磁盘容量的500倍。1978年,荷兰飞利浦公司正式推出视频光盘,两年后,飞利浦和索尼公司宣布高密度只读光盘研制成功。1984年,美、日、欧洲开始利用只读光盘存储专利文献、技术资料和工程图纸,1985年,世界第一个商品化的CD-ROM数据库——Bibiofile(美国国会图书馆机读目录)推出。据统计,至1988年6月,国外光盘数据库产品达200余种,1989年为496种,1990年有861种,而到了1991年已达到1552种。同时,光盘数据库的类型也不断丰富,除了最初的书目数据库外,又增加了文摘数据库、数值事实参考数据库、全文数据库等等,并且还出现了图像型、音频型、软件型和多媒体型等多种形式的CD-ROM产品。我国引进使用光盘数据库的起步时间并不算晚。早在1986年4月,国家海洋科技情报研究所就首先在我国引进了CD-ROM光盘数据库ASFA(水科学与渔业文摘)和LSC(生命科学文摘)。到1987年底,国内共拥有11套8个品种的CD-ROM光盘数据库。1990年,全国拥有光盘系统的单位达到54个,共有93套30个品种的光盘数据库,到1991年,我国有126个单位引进了53种199套光盘数据库。不仅如此,我国也研制成功了中文CD-ROM数据库,例如,中国科学技术情报研究所重庆分所研制的《中文科技期刊篇名光盘数据库》,以及中科院上海有机化学研究所的《中国化学文献数据库》等。4.网络化检索阶段进入90年代,因特网(INTERNET)的应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入到因特网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容包括生物、农业、化学、数学、天文学、气象、地理、计算机、工程技术、航空航天、交通运输、环境保护、医疗和保健、历史、法律、政治、旅游等,涉及几乎所有知识领域。因特网为我们获取文献信息提供了前所未有的方便,他彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,,而且信息形式图文并貌,有声有景。因特网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。5.我国计算机信息检索发展概况我国开展计算机检索的研究开始于20世纪70年代中期。1975年我国首次引进国外文献数据库进行计算机检索的试验。1980年初,由中国建筑技术发展中心等单位在我国驻香港海外建筑工程公司设立了我国第一台国际联机信息检索终端,通过香港大东电报局与美国的DIALOG和ORBIT系统联机,1981年底,北方科技情报所在北京与美国DIALOG联机系统直接联机,1982年9月,冶金部、石油部、化工部等部委情报所也实现了与DIALOG和ORBIT系统的直接联机。但由于国内通信条件的限制,除香港终端外,其余都是采用50波特的电传终端。1983年10月中国科技情报所通过到罗马远程数据库通信线路建立了几台300波特的数据终端与欧洲空间组织的ESA-IRS系统、美国的DIALOG和ORBIT系统联机。接着华东理工大学、上海交通大学等高校也纷纷建立了自己的国际联机终端。1984年11月,东南大学用电传机建立了美国DIALOG系统联机终端。到90年4\n代中期,全国有200多个联机检索终端与美国的DIALOG、ORBIT、BRS、MEDILARS意大利的ESA-IRS,德、美、日合建的STN,加拿大的I.SHARPS,瑞士的DATA-STAR等20多个国际系统联机。与此同时,我国的计算机信息检索系统和数据库的建设也取得了一定的成绩。1978年,中国科技情报所开始试建文献数据库和检索系统,初步实现了建库、编辑、排版和定题检索服务。1984年,北京文献服务处联机信息检索系统(BDSIRS)建成并开始服务,该系统拥有文献记录总量1200多万篇,中西文数据库16个,面向全国的终端用户约150个。1989年,化工部情报所的联机系统(CHOICE)建成,有中文数据库8个,西文数据库1个,国内终端用户210个。同年投入使用的机电部情报所的联机检索系统(MEIRS),有中西文数据库4个,国内用户终端20个。此间,中国医学科学院情报所,冶金科技情报所、电子科技情报所、核科技情报所等也建立了国内联机检索系统。近几年来我国的通信事业有了很大的发展,自从1994年中国真正加入了国际Internet行列起,短短几年内已经建成中国公用数据网(CHINADDN)、中国公用分组交换网(CHINAPAC)、中国公用帧中继网(CHINAFRN)和中国公用电子信箱系统(CHINA-MAIL)四大公用数据通信网,为加速我国信息高速公路的建设奠定了良好的基础,使我国因特网的发展有了必要的条件。在此基础上,同时建起了中国公用计算机互联网(CHI-NANET)、中国教育科研网(CERNET)和中国科技网(CSTNET)等因特网。目前,我国绝大多数高校建起了自己的校园网。中国教育科研网设有北京等八个地区网的八所高校结点,形成包括网络中心、地区中心和高校校园网三级结构的教育科研计算机网络。目前全国几乎所有的国际联机检索终端,都更新成微机终端,由CHINAPAC出口,并且ISTIC、CHOICE、MEIRS三家系统的主机在CHINAPAC上实现了联网,其他一些国内联机检索系统,像BDSIRS的主机,也挂在CHINAPAC上,提高了联机检索的效率,从而使我国的计算机信息检索进入了一个新的发展时期。1.1.4计算机信息检索的服务方式计算机信息检索系统按其服务功能可划分为回溯检索、定题检索、随机问答和联机订购等服务方式。1.回溯检索(RetrospectiveSearching,RS)回溯检索服务主要是指追溯查找过去的信息,帮助用户查找过去几年甚至几十年的文献,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。比较适合申请专利时的新颖性检索、科研课题的立项或鉴定时的查新、撰写综述性论文以及编写教材时信息的收集等。2.定题检索(SelectiveDisseminationofInformation,SDI)定题检索服务是用户根据检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务的特点是定期性、新颖性和批处理式,即每隔一定时间就某个主题在检索系统中检索一次;检索的都是近期的新数据;成批处理检索提问。3.随机问答5\n用户直接利用终端检索,检索系统即时提供用户所需的文献信息。4.联机订购用户通过联机检索得到的结果一般都是二次文献(题录和文摘等),如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文6