计算机信息检索 42页

  • 417.50 KB
  • 2022-08-30 发布

计算机信息检索

  • 42页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
计算机信息检索[教学目的和要求]要求学生了解计算机检索的基本原理和方法,机检服务方式,掌握光盘数据库的检索技能,网络信息检索方面的知识。主要内容:第一节计算机检索概述第二节计算机检索原理和检索技术第三节光盘检索第四节Internet与信息检索\n第一节计算机检索概述一、计算机信息检索的定义二、计算机检索系统的构成三、数据库数据库的基本类型(按内容性质分)数据库的结构:以书目数据库为例\n数据库的基本类型(按内容性质分)1、文献型数据库(fulltextdatabase;bibliographicdatabase)如:国外三大农业数据库、中国学术期刊(光盘版)2、非文献型数据库(factdatabase;datadatabase;概念型数据库、图像型数据库等。)datadatabase:存贮有科学数据,统计资料等数据。Factdatabase:存贮有企业名录、百科全书、人名录等有利用价值的信息。概念型数据库:存贮有各种名词属于或语言资料,一般来源于词典等。图像型数据库:存贮有某些图象信息,如图片、云图、工程设计图等。\n由字段、记录、文档组成字段:字段的构成=字段标识符+字段值字段的类型:三种检索系统存取号AN(AccessionNumber)基本索引字段(Basicindexfields)如Ti、Ab、De等(表达的文献的内容特征)辅助索引字段(AdditionIndexFields)如:Au、Py、Jn、La、Dt等,表达的是文献的外部特征。常用字段代码及其表示法(见下页)数据库的结构:以书目数据库为例(见书107页)\n字段代码字段名表示方法TITitleapple?intiABAbstractmachineinabDEDescriptorsbuildingindeAUAuthorau=liuBNISBNbn=0-5635-0144-4CCCALClassification(分类号)cc=921CDConferenceDatecd=19960501CLConferenceLocation(会址)cl=hangzhouCTConferenceTitlect=roboticsandautomationCYConferenceYearcy=1996DTDocumentTypedt=bookLALanguagela=englishPYPublicationYearpy>=1990SNISSNsn=1060=9857SOSourcePublicationso=power\n记录:见下页举例文档:根据记录在文档内的组织方式和存取方法,文档分为:顺排文档(也称主档):按文献存取号先后顺序排列的,相当于检索工具正文部分。倒排文档:相当于检索工具中根据需要而编制的各种索引。数据库是由若干文档构成。\n分类号:S511.103.4记录号:96017590著者:徐建龙等篇名:水道白叶枯病抗性基因Xa-21的初步利用刊名:浙江农业学报信息出处:—96.8(2).—70—73主题词:遗传效应育种白叶枯病水稻抗病性\n第二节计算机检索原理和检索技术一、计算机检索原理二、计算机检索步骤三、计算机检索技术四、检索策略的制定五、检索举例六、检索技巧\n打开数据库输入检索提问(检索式)在索引词典文档中比较和匹配从记录号倒排文档中调取记录号集合记录号集合间的逻辑运算顺排文档中调取记录输出命中记录结束检索记录内容不合要求重新调整检索策略篇数不合要求结果不匹配重新输入检索标识另选数据库关于计算机文献信息数据库的检索原理我们可参考下图:\n\n二、计算机检索步骤1、分析、理解课题2、选择检索系统和数据库3、选择检索词、构造检索式\n1、分析、理解课题(1)了解用户信息需求的目的和意图目的和意图不同,检索式、范围就不同(2)分析主题要求分析检索课题涉及的学科范围、以便选定合适的检索系统和数据库。分析主题内容:主题的广度和深度。(3)时间要求\n(4)检索效果的要求即检索结果的查全率、查准率。所需文献的大概数量是否提供原始文献等。查全率要求较高时:选择检索词的主题概念范围要宽一些。查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。对于同时提供原文:选用全文数据库(5)检索费用及其他要求:\n2、选择检索系统和数据库光盘检索系统比联机检索系统数据库更新周期长,INTERNET网上的各种信息查询工具,对网上许多免费的数据库进行检索和下载。3、选检索词、构造检索式(在四中讲)(1)检索词:是表达文献信息需求的基本元素,是计算机检索系统中有关数据库进行匹配的基本单元。(2)检索式的构造检索式:就是指计算机信息检索系统中用来表达检索提问的逻辑表,由检索词和各种运算符及系统规定的其它组配符构成。\n三、计算机检索技术(见书110页)1、布尔逻辑检索功能2、词间位置检索功能3、截词检索功能4、字段限定检索功能\n1、布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。逻辑与(逻辑乘)逻辑或异或关系“逻辑非”的“逻辑或”关系“逻辑或”的“逻辑非”逻辑非被标引在该词下的\n(1)逻辑与(逻辑乘)用运算符号:AND或*连接检索词例查“有关计算机在图书馆中的应用”的文献,检索式=计算机*图书馆例查“猪的饲养”检索式=猪*饲养用文氏图表示:图1-1AANDBAB\n(2)“逻辑或”用运算符号“OR”或“+”连接两检索词例1查“苹果或梨”方面的文献检索式=苹果+梨它在同义词检索中使用,能提高查全率。例2查“计算机或机器人”方面的文献检索式=计算机+机器人用文氏图表示如下:AORBAB\n(3)“逻辑非”用运算符号“NOT”或“—”连接两检索词AANDNOTB有的书上也称为“与非”关系,即“逻辑乘”与“逻辑非”例1查“玉米但不是甜玉米”方面的文献。检索式=玉米—甜玉米例2查“不是铬合金”方面的文献。检索式=合金—铬用文氏图表示:图1-3ANOTBAB\n(4)“异或”关系(AORB)ANDNOT(AANDB)“异或”排除掉的是AANDB部分例A=水上运输工具,B=陆上运输工而“异或”的关系则排除了AANDB的那部分,即“水陆两栖运输工具”不能被命中。这同AORB是有区别的。用文氏图表示如下:(AORB)NOT(AANDB)AB\n(5)“逻辑非”的“逻辑或”关系即:NOTAORNOTB两检索词的。例:查除俄文、法文两种文字之外的其它各语种的文献。用文氏图表示:图1-5NOTAORNOTBAB\n(6)“逻辑或”与“逻辑非”即:AORNOTB检索A但否定B后的逻辑或,例:检索焊接(A)方面的资料,但不要技术标准(B)。这样,结果是“焊接标准”的资料被排除了。但是其它一切课题的资料(除标准外)的资料均被命中。用文氏图表示:图1-6因此,AANDNOTB(即逻辑非)和AORNOTB是不同的其效果相差很远。AORNOTBAB\n(7)A即标引在A检索词下的文献,(8)NOTA检索不是检索词A下文献。总结:布尔逻辑检索是把任何检索课题加工成可以进行逻辑运算的表达式,这是计算机检索的一种被广泛采用的匹配方式。布尔逻辑运算的优点是简单明确、易于理解、符合人们的思维习惯AANOTAA\n2、词间位置检索功能文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。\n词间位置检索技术就是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索。这种检索在利用TI和AB途径检索时,对检索质量影响很大。\n例:检索“小麦中氨基酸”(determinationofaminoacidsinwheat)检索式:determinationwithaminoacidswithwheat词间位置算符在不同系统中的使用方法不同:L在Dialog系统中主要位置算符及其使用方法:(见书110-111页)L在SPIRS系统中,位置算符只使用两个:with、near其含义见书。那么,位置算符的应用,能缩小检索范围提高查准率。\n3、截词检索功能截词运算符号有两个:“?、*”L其在不同系统中表示的含义不同。见书111L在SPIRS系统中?为有限截断、*为无限截断;L在中刊库中只有?表示无限截断。例:1、teen*teen,teens,teenage,teenager等。2、teen???Teen,teens,teenage(在词尾加?号,以?号的个数表示词后最多可跟字母的个数)\nL截词方式有很多,按截词位置可以分为:L前截断(后方一直检索):?Chemistrychemistry、biochemistry、electrochemistryphysicochemistry(物理化学)等。注:在SPIRS系统和中刊库中无L后截断(前方一直检索)例见书111,chem*chemical(化学制品)、chemism(化学机理)、chemomorphosis(化学诱变)、chemosynthesis(化学合成)等。L中间截断:wom?n分别检出了woman,women两词fib?board分别检出了fiberboard,,fibreboard两词。\nL截词检索在中文数据库中截的是词意,例:西北?分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。L在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。例“金属”metal*metal、metals、metaled、metalist等。L利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。\n4、字段限定检索功能将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有:in、=、<、>、≤、≥例1:Englishinla例2:py≥1992总结:在一个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序、以及体现概念的完整性。例3:查“玉米方面的英文”文献检索式=(maizeorzea-maysorcorn)indeand(Englishinla)\nl所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。\n四、检索策略的制定:(一)检索策略:是全盘计划与方案,为了尽可能不失真地把拥护的信息需求转换成检索系统允许接受的形式,首先要了解用户的检索目的和要求,对用户提出的检索课题进行全面的分析研究,为选择检索词,编写检索式作好准备,然后根据检索课题的要求选择合适的数据库和检索系统,开始检索后,要根据检索的具体情况及时调整检索策略,使检索结果符合用户的要求。\n即(1)列出待检课题的学科范围、主题范围等。(2)确定检索词和词的截断部位,调整词之间的位置关系及组配关系。(3)选择相关数据库,确定检索途径。(4)拟定检索式。(5)实检与反馈调节。\n(二)、选择检索词应注意问题。(1)该词的所有拼写形式和方法(包括同义词,元素和元素符号、缩写和全称等)(2)该词的广义词、狭义词、相关词及多义词等。(3)该词的最佳截断部位(4)应包括那些非主题的词。如;LA,PY等。(5)参考有关的叙词表(汉语主题词表),在SPIRS系统中应充分利用INDEX=F5(检查人名的正确表示方式和检查拼写等)和叙词表THESAURUS=F9(选准同义词和相关词)(6)对于泛指的主题概念词,应选用其包容特性的具体内容来表达:\n例:水果贮藏方面的文献(appleorpearor……)andstorage例:哺乳动物胚胎发育方面的文献(sheeporpigorcowor…….)andembryoanddevelopment代替mammalanimalandembryoanddevelopment(7)具有层次结构或等级关系的主题概念,应用其包容特性的名称来表达:例:谷类作物真菌方面的文献cerealandfungi\n(8)当课题面窄,提问专指度高,而数据库中对文献的标引深度可能不足时,对检索词可进行粗化,取其上位检索词例:玉米同功酶方面的文献:isozymesenzymes(三)、拟定检索式要求:(1)表达课题要求(2)必须与数据库文献标识相匹配(3)简单明了\n五、检索举例:例1检索有关“苹果、梨的植物病理的研究”(用CAB文摘光盘数据库检索该课题)winspirs4.0在检索提示FIND下输入检索式:#1fireblight#2(apple?ormalus)inde#3(pear?orpyrus)inde#4#2or#3#5#1and#4#6la=english#7#5and#6Firelightand(((apple?ormalus)inde)or((pear?orpyrus)inde))and(la=english)\n输出检索结果(可以用SPIRS系统的输出指令show、print、download来进行)退出系统:按F10后再按QUIT即可。\n例2:查找“杀菌剂在蔬菜上的残留”用《中文科技期刊数据库》键入检索式:A主题词:杀菌剂年代89—99检中20篇B主题词:蔬菜年代89—99检中1894篇C主题词:残留年代89—99检中187篇D主题词:残留量年代89—99检中175篇E复合式:A*B*(C+D)检中1篇(注:这是在DOS版本和WIN版本下检索)\n例3:检索被Frank.kkosikowsi写的一本关于乳酪方面的书(kosikowsi-fvinau)and(cheese*inti)and(dt=book)例4:检索非洲绵羊方面的英文文献(sheeporeweorewesorlamborlambsorramorrams)and(africainde)and(englishinla)\n六、检索技巧检索技巧主要是对逻辑运算符、词间位置算符、检索主题概念的提取方法等的综合应用,其目的是保证查全和查准率.(一)扩大检索结果的检索技巧1、同义词检索技术:应考虑(1)元素和元素符号,例:“AI”和“Aluminium”(2)缩写和全称,例:“计算机辅助设计”和“CAD”和“ComputerAidedDesign”同时在外文数据库中仅用CAD作为主题词,误检率较大,“检验分析词典”、“弹药动力装置”等都被检出。(3)相关词,例:“Database”,其相关词有“ExpertSystem”、“software”等。\n2、截断技术3、布尔逻辑或“OR”(二)缩小检索结果的检索技术1、布尔逻辑与“AND”2、布尔逻辑非“NOT”3、字段限定检索

相关文档