计算机信息检索 4页

  • 141.50 KB
  • 2022-08-30 发布

计算机信息检索

  • 4页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
一.名词解释1.信息检索:广义来说,指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程,包括“存”和“取”两个基本环节;狭义理解,一般只涉及“取”,信息检索也可称为“信息查询”或“信息查找”。2.联机信息检索:指用户利用检索系统网络的终端设备,通过通信线路,运用一些特定的指令和检索策略与世界上的信息检索系统,进行质检的人机对话,从检索系统的数裾库屮查找出用户所需要的特定信息,并将检索结果与过程下载,S示和打印出来的过程。3.CBR:基于内容的检索,指根据多媒体对象的听、视觉特征及其中蕴含的内容和语义特征进行检索,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研宄成果,对多媒体数据的听、视觉特征和语义特征进行自动(半自动)的分析、表达和组织。4.网络信息源:指所有以电子数据的形式把文字、阁像、声音、动画等多种形式的信息存贮在光、磁等非纸质介质的载体屮,并通过网络通信、计算机或终端等方式再现出来的资源。5.搜索引擎:搜索引擎有广义与狭义之分。广义的搜索引擎泛指网络上提供信息检索服务的攻击或系统。狭义的搜索引擎主要是指利用网络A动搜索软件对INTERNET(主要是WEB)网络资源进行收集、组织并提供检索服务的一类信息服务系统。6.URL:统一资源定位符(UniformResourceLocator,缩写为URL)是对⑷*以从互联M上得到的资源的位置和访问方法的一种简沽的表示,是互联M上标准资源的地址。互联M上的每个文件都有一个唯-的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。7.顺排/倒排文档:文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。(1)顺排档,也称为主文档、引文文档,它是按记录存取号的大小顺序排列记录而成的文档。文档越是新,记录存入文档的时间越是晚,记录的存取号就越大。(2)倒排挡,是指把数据库中记录的一切可检字段或属性值(称检索标识,如著者,主题词等,不包括存取号)抽出,按某种顺序(字母或数字顺序)重新加以组织后得到的特征标识文档。8.检索语言:是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息A容和检索课题内容的概念及其相互关系的一种概念标识系统。检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言(体系分类语言、主题词语言)和非规范化语言(自然语言)两类。9.白然语言:索引词汇直接来A系统所处理的文献或提问本身,使用前未经过优选和规范化处理的一类检索语言。10.超文本:是一个非线性的网状结构,它以结点为单位组织信息,在结点与结点间通过链接加以连接,构成表达特定内容的信息网络。二.简答1.简述一下因特网信息检索的特点(1)检索范M大(2)检索效率高(3)检索工具强大(4)信息冗余2.搜索引擎的基本工作原理搜索引擎的基本模式是:运行特定的网络搜索程序,定期地搜索Internet的各个站点,送冋收集到的文献信息(包括Web页面和新闻组文章等),并利用索引软件对这些文献进行自动标引,加入集中管理的索引数据库;同吋,在Internet上设立提供检索界面的Web站点,由用户输入提问检索式,通过特定的检索软件,查找其索引数据库,给出与\n检索式相匹配的査询结果,供用广浏览2.请描述检索系统的“提问处理/检索匹配”子系统的主要作业流程(1)接受用户提M(2)提问校验,包括对提问式进行语法格式用同等方面的检查,主要由程序自动完成。(3)提问加工,指对源提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。(4)检索匹配,即将0标提问式与数据库索引文档的记录进行匹配,把满足要求的数据库记录输出到结果文档中,或直接显示在检索屏幕上。具体的匹配策略可以是精确匹配,也可以是局部匹配。精确匹配是指要求结果记录(标识)中包含的需求模式必须与提问式所表达的模式完全匹配,才能作为命屮结果输出。局部匹配则是指只要求结果记录(标识)中包含的需求模式与提问式所表达的模式部分匹配,即力命屮。3.网络信息检索工具的评价(1)收录范围(2)查全率(3)査准率(4)响应时间(5)用户负担(6)输出方式(7)新颖程度,更新速率4.因特网搜索引擎的划分类型【书P188】按信息内容的组织方式划分:1)目录式搜索引擎(directory,catalog)Directory提供巾网页作者所呈送的因特网的链接集合,同时对这些资源作出评价并组织成主题目录。\n2)机器人搜索引擎机器人搜索引擎不是靠人工发现和甄别信息,而是由一个被称作“蜘蛛”的计算机程序在网中爬行,依据一定的网络协议在因特网巾发现、加工、整理信息,并力用户提供检索服务。机器人搜索引擎由3部分组成:a、搜索软件b、索引软件c、检索软件。重要的机器人搜索引楚有:AltaVista,Excite,Hotbot,Infoseek,Lycos,WebCrawler;中文的天网,悠游、北极星等3)混合式搜索引擎按专业范畴划分:1)综合性搜索引擎:主要以网页和新闻组力搜索对象,信息覆盖范围广,适用用户广泛,如yahoo!AltaVista,Excite等。2)专业性搜索引擎如:社会科学信息资源的搜索引擎socialscienceinformationgateway医学世界捡索medicalworldsearch,法律检索系统WESTLAW按检索功能划分:1)独立搜索引擎:又称为单一搜索引擎或常规搜索引擎,它有自己的数据库,搜索时通常只检索A己的数据库,并根据数据库的内鞞反馈出相应的查询信息或链接站点。如,yahoo!Jnfoseek,AltaVista等,都属于这一类。2)多元搜索引擎:乂称为元搜索引擎(metasearchengine)或集成式;搜索引擎(multisearchengine),它是多个独立搜索引擎的集合。元搜索引擎是通过一个统一的用户界面,帮助用户在多个搜索引擎屮选择和利用合适的(甚至是同时利川若干个)搜索引擎来实现检索楝作,是对分布于网络的多种检索工具的企局控制机制。用户只需输入一次检索式,多元搜索引擎便同时将其转给不同的搜索引擎帮助检索,有的SE还可以将检索结果屮的重复部分删去。2.简述常用的计算机信息检索策略检索策略是在分析信息需求u实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排,主要包括选择检索词和编制检索提M式两步。•(1)、"最专指面优先"策略:指检索时首先查找所有概念组面中最专指的一个概念组而。然后,再依据用户需求以及初步检索结果,决定是否需要加入其他的概念组面,以及怎样加入其他的概念组面。•(2)、"最低登录量的面优先"策略:指检索吋首先查找所有概念组面中登录数最小一个概念组面。然后,再依据川户耑求以及初步检索结果,决定是否耑要加入其他的概念组面,以及怎样加入其他的概念组面。•(3)、"积木式"策略:指检索时首先逐个查找各个概念组而,然后再把各个组而组配起来,得到最终的检索结果。•(4)、"引文珠形增忪〃策略:首先以一个较为核心的概念组面进行试检,并仔细浏览初步的检索结果,尤其是特别符合用户耑要的文献记录,从中选择更多、更合适的检索词补充到检索式中,然后,再浏览命中的文献记录,再从中选择检索词补充到检索式屮。如此反复操作,直至得到理想的最终检索结果。•(5)、〃逐次分馏〃策略("连续分割〃策略):指检索时首先建立较大的初始文献集(也称为临吋子文档,即临时建立起来的子数据库),然后利用各种检索的限制或限定措施,逐步缩小检索范围,直至符合用户需要为止。3.布尔逻辑检索;运算符包括;各有哪些含义布尔检索是通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系的检索方法。•(1).AND关系:运算符为:“and"("AND")或用来组配不同检\n索概念。•其含义是检出的记录必须同时含有所有的检索词,E|b检索词必须同时出现在结果中才满足检索条件。•在实际检索中,不同概念组面之间及同一•组面内的不同含义的词之间通常使用AND算符。•其中“and"主要是用于外文的检索;“*”多用于中文的检索。•(2).OR关系•运算符为:“or〃("OR〃>或“+”,是用来组配具有同义或同族概念的词,如同义词、相关词等。•其含义是检出的记录中至少含有两个检索词中的一个,即,OR表示它所连接的检索词中任意一个出现在结果中就满足检索条件;•在实际检索屮,同一组而屮含有相同的词,相互之间都使用OR运算符。某屮“or"主要是用于外文的检索;“+”多用于中文的检索。另外,在使用截词方法检索具有相同词干的检索词吋,这些词之间也自动隐含了逻辑“或”的关系。•例如检索式economicsoragriculture就要检索结果中可以只有economics、或只有agriculture、或同时包含economics和agriculture。•(3).NOT关系•运算符为:"not"("NOT")或"•",表示它所连接的检索词中应从前面的概念中排除后面的概念,即,表示要査找含有前面的检索词而不包含有后面的检索词的文献集合。例如检索式agriculturenotrobot就要求检索结果屮包含agriculture但不能包含roboto•运算符为:"not〃("NOT〃)或"-〃,两个检索词之间以"not〃或"-〃相连,其屮"not"主要是用于外文的检索;多用于中文的检索。2.网络信息检索工具的基本工作原理;(与搜索引擎的基本工作原理的比较)信息检索包含信息存贮和信息查找两个过程。信息检索的基本原理抽象概括为一句话,即对信息集合与需求集合的匹配与选择。

相关文档