⑴ 信息检索重点
问答题
1.简述信息、知识、文献的概念及其三者之间的关系。
1.答:信息:是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。
知识:是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。
文献:记录有知识的一切载体
三者从概念范畴上看,信息大于知识大于文献,知识是信息的一部分,是理论化系统化的信息,文献是知识中记载下来的那部分。
2.文献按载体形式不同分为哪几种类型,并举例说明。
2.答:文献按载体形式的不同分为:
手写型文献,如甲骨文、金文
印刷型文献,如图书、期刊
缩微型文献,如缩微胶卷、缩微胶片
视听型文献,如录像带、录音带、科技电影
电子型文献,如数据库文献和网络文献
3.文献的级别及其相互关系。
3.答:文献按照加工程度不同分为零次、一次、二次和三次文献四种。
其中零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等;零次文献在作者的加工处理后公开出版进入社会流通领域就变成一次文献;根据一次文献的各种特征按照一定的规则和方法对其进行整理、加工、浓缩,后形成的文献就是二次文献;利用二次文献线索对大量的一次文献内容进行综合、分析、加工、提炼后形成的文献就是三次文献。
4.在计算机检索中,如何缩小检索范围?
4.答:在计算机检索中,缩小检索范围的方法包括:
(1)增加用and连接的检索词,或用“二次检索”
(2)用特定的副主题词进行限定
(3)用字段限定检索,如标题词检索、主题词检索、加权检索等
(4)进行文献类型、语种、重要期刊、临床核心期刊、年份等的限定检索
(5)进入更专指的分类范围内输词检索
5.获取文献全文的方法有哪些?
5.答:获取全文的方法包括:
(1)检索网上全文数据库
(2)利用网上出版社、杂志
(3)利用图书馆馆藏目录(馆藏联合目录)
(4)利用“网上全文传递服务”
(5)向着者索取
6.常用的检索途径有哪些?
6.答:常用的检索途径包括:
自由词检索、主题词检索、分类检索、着者检索、机构检索、引文检索、限定检索等
7.简述信息检索的原理
7.答:信息检索的原理是:将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。本质是用户的信息需求与存储在信息集合中的信息进行比较和选择, 即匹配的过程。
8.计算机检索通常包括哪些步骤?
8.答:信息检索的步骤包括:
(1)分析检索课题,明确目的和要求
(2)选择合适的检索工具
(3)选择检索途径,确定检索标识。
(4)查找文献线索。
(5)浏览检索结果,获取原始文献。
9. 简述IM主题索引的编排规则。
9.答:主题索引的排列规则如下
(1)整个索引按主题词字顺排
(2)同一主题词下按副主题词字顺排
(3)相关内容的文献题录分别纳入相应的主题词或者主题词/副主题词之下;一般总论性文献直接入主题词下,专指性文献入相应的副主题词下;同一文献题录可入多个主题词之下
(4)同一主题词或副主题词下的文献题录,先排列英文文献,后排列非英文文献,非英文文献的英译标题用"[ ]"括起,以示区别
(5)英文文献按刊名缩写字顺排
(6)非英文文献先按文种缩写字顺排,同一文种下按刊名缩写字顺排。
10.《医学主题词表》(MeSH)字顺表的参照系统有哪几种?举例说明其意义。
10.答:第一组:用代参照,用于处理词与词间的等同关系。在MeSH词表中,对于多个同义词只采用其中一个比较科学而通用的词作规范化主题词,其它的词作为非主题词(即款目词)。用“款目词see主题词”和“主题词X款目词”表示。如:Cancer see Neoplasms Neoplasms X Cancer
第二组:属分参照,用于处理词与词之间的等级关系,即整体与部分,上位概念与下位概念之间的关系。如某些范畴较小的主题概念主题词,包含在某些范畴较大的主题词之下,内容范围较广的词是主题词,其下的内容范围较窄的词不作主题词,只作为次要主题词。用“次要主题词see under 主题词”和“主题词XU 次要主题词”表示。如:Health Priorities see under Health Planning Health Planning XU Health Priorities 从1991年开始取消此种参照关系,所有次要主题词升格为主题词。
第三组:相关参照,用于处理词间的相关关系,达到扩大检索,提高查全率的目的。用“主题词see related 主题词”和“主题词XR主题词”表示。如:Population Control see related Family Planning Family Planning XR Population Control
为提高查全率和方便检索,MeSH词表于1991年和1992年又先后增设了“还应考虑参照(consider also)”和“主题词/副主题词组配参照”。
11.按照存储内容的不同,数据库通常分为哪些类型?
11.答:书目数据库、事实数据库、数值数据库、全文数据库、图像数据库
12.什么叫主题词的扩展检索,它的优越性何在?
12.答:选择主题词的扩展功能可以同时检索主题词和它的所有下位词,这样就可检出用所选主题词和更专指主题词标引的所有文献,可以更好的提高检索的查全率。不扩展的情况下只会检出用所选主题词标引的文献,不会检出它的下位词,即那些更专指主题词标引的文献。
13.什么是查全率和查准率,二者之间有何关系?
13.答:查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。
查全率=【检出相关文献量/文献库内相关文献总量】×100%
查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=【检出相关文献量/检出文献总量】×100%
查全率与查准率是呈互逆关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图是查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
14.影响查全率和查准率的因素有哪些?
14.答:(1)影响查全率的因素
影响查全率的因素从文献存储上来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念和用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
(2)影响查准率的因素
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所使用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。
15.独立型搜索引擎的工作原理是什么?
15.答:独立式搜索引擎的工作原理是:
定期运行搜索软件(或人工),搜集网络信息。
利用索引软件进行自动标引,建立数据库。
以Web页面形式向用户提供有关的信息资源导航、目录索引及检索界面,由用户输入检索式。
通过检索软件进行检索,匹配,按相关度排序输出。
16.如何提高检索的查全率?
16.答:提高查全率的方法:
(1)降低检索词的专指度,选出一些上位词和相关词补充到检索式中。
(2)调节检索式的网罗度,减少逻辑“与”的组配面。
(3)进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。
(4)采用截词技术,取消某些限制过严的限制符。
17.如何提高检索的查准率?
17.答:提高查准率的方法:
(1)提高检索词的专指度,换用专指度较强的规范词或自由词。
(2)增加“与”连接,进一步限定主题概念。
(3)限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。
(4)限制输出文献的外部特征,如限制年限、语种、文献类型等。
(5)用逻辑“非”限制与提问不相关的文献的输出。
(6)用主题词检索,不用或少用自由词检索。
18.依据我国专利法专利有哪几种类型 各种类型的专利有效期为多长?
18.答:依据专利法保护对象分三种类型:发明专利、实用新型专利、外观设计专利
发明专利,是专利法主要的保护对象。发明专利权有效期各国不同,我国为自申请之日起20年。
实用新型专利,在我国实用新型专利权有效期为自申请之日起10年。
外观设计专利,在我国外观设计专利权有效期为自申请之日起10年。
19.信息检索系统的基本要素是什么?
19.答:信息检索系统的构成包括:
(1)检索文档,即文献检索标识的有机集合。
(2)技术设备,即能存储信息及其标识,并实现存储和检索操作的各种技术设备。
(3)作用于系统的人如:文献加工者、用户、系统维护人员、管理人员。
(4)检索工具如:检索语言、文献标引规则、输入输出标准等。
20.何谓数据库的顺排文挡和倒排文挡?
20.答:顺序文档(Sequential file)是以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(Master File),相当于印刷型检索工具的正文部分。倒排文档(Inverted file)就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档。倒排档从主文档中派生出来,所以,又叫做辅助文档。
21.获取网络信息资源的主要工具有哪些?
21.答:获取网络信息资源的主要工具包括:
(1)电子邮件
(2)FTP
(3)Archie
(4)Telnet
(5)Gopher
(6)Usenet
(7)www浏览器
(8)搜索引擎
22. 核心期刊的主要特点是什么?
22.答:少数刊载某一学科大量高质量专业论文的期刊称为核心期刊,其主要特点为:
(1)刊载专业文献密度高,信息含量高;
(2)水平较高,代表本学科的最新发展水平;
(3)出版相对稳定,所载文献寿命较长;
(4)利用率和被引率较高。
23.试述因特网搜索引擎的概念、类型。
23.答:搜索引擎是Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
根据检索内容分为:综合性搜索引擎和专业性搜索引擎;
根据检索功能分类:目录式搜索引擎、全文式搜索引擎、智能式搜索引擎;
根据检索范围分类:独立搜索引擎和元搜索引擎。
24.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
24.答:会议文献是指各种科学技术会议上所发表的论文、报告稿、讲演稿等与会议有关的文献。
会议文献的主要特点是:传播信息及时、论题集中、内容新颖、专业性强、质量较高,数量较大,出版类型多种多样,往往代表某一学科或专业领域内最新学术研究成果,基本上反映了该学科或专业的学术水平、研究动态和发展趋势。会议文献是科技查新中重要的信息源之一。
国外会议论文检索工具包括:ISI的Proceedings(ISTP+ISSHP);Papers First(OCLC first search的一个子库);IEEE/IEE Electronic Library;AIPCofference Proceedings
国内可以进行会议论文检索的系统包括:中国学术会议论文全文数据库(万方数据);中国重要会议论文全文数据库(CNKI)
25. 周红同学在检索一个课题时,第一次检索的结果有 172 条文献,你建议一下她采用何种方式来缩小检索范围?
25.答:缩小检索范围的方法包括:
(1)提高检索词的专指度,换用专指度较强的规范词或自由词。
(2)增加“与”连接,进一步限定主题概念。
(3)限定检索词所在的可检字段。
(4)用位置算符控制检索词的词间顺序与位置。
(5)限制输出文献的外部特征,如限制年限、语种、文献类型等。
(6)用逻辑“非”限制与提问不相关的文献的输出。
(7)用主题词检索,不用或少用自由词检索。
26.Medline和Pubmed有什么区别?
26.答:Pubmed和MEDLINE的区别主要体现在:
(1)文献的收录范围:Pubmed除了收录MEDLINE数据库之外,还收录了PREMEDLINE数据库,以及出版商直接提供给Pubmed的数据。
(2)数据库的更新时间:MEDLINE联机数据库为周更新,MEDLINE光盘的报道时差为1-3个月,而Pubmed为每天更新
(3)检索机理:MEDLINE的检索途径只有两个主题和作者,掌握Mesh表是检索的首要条件,而Pubmed具有词汇自动转换匹配功能和主题词自动扩展功能。
(4)连接功能:Pubmed具有与原文链接、相关文献链接、相关图书链接、相关分子生物学数据库链接的功能
(5)免费全文:Pubmed提供超过60中期刊的免费全文浏览和检索功能。
(6)费用:MEDLINE光盘需每年租赁数据库,Pubmed免费。
27.专利文献的概念及特点是什么?
27.答:专利文献是实行专利制度的国家及国际组织在审批专利过程中产生的官方文件及其出版物的总称。专利文献具有以下特点:
(1)专利文献集技术、法律和经济信息于一体,是一种数量巨大、内容广博的战略性信息资源;
(2)利文献传播最新技术信息;
(3)专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读;
(4)专利文献对发明创造的揭示完整详尽,技术内容相对可靠。
28.如果要查找有关“乙型肝炎流行病学”方面的中外文文献,可以选择哪些数据库?请选择其中一种数据库,简要检索策略。
28.答:查找“乙型肝炎的流行病学”的文献可选用的中文检索系统包括:CNKI、维普、万方、CBM等,
可选的外文检索系统包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其中,在CNKI中的检索策略为:
检索项:篇名;检索词:乙型肝炎;逻辑:或者
检索项:篇名;检索词:乙肝; 逻辑:并且
检索项:主题;检索词:流行病学
在CBM中的检索策略为:肝炎,乙型/[扩展全部树]流行病学
29.通过哪些检索系统可以查明济宁医学院图书馆是否有“computer communications”这本期刊?
29.答:可以选用的检索系统包括:图书馆联机检索系统、超星数字图书、书生数字图书馆
30. 请列出5个Google高级检索语法,并举例说明其用法。
30.答:可在下列语法中任选5个举例
(1)“link”运算符: 查找与某一特定网页建立链接的所有网页,亦可在高级检索模式下实现
(2)“related”运算符:自动查找与某一网页处于同一级别的相似网页,亦可通过高级检索模式及检索结果界面的“类似网页”实现
(3)“info”运算符:可获取Google库存的有关某一网页的全部信息
(4)“site”运算符: 将检索结果限制在某一网域中,也可以通过高级检索界面的“网域”选项来
(5)“Allintitle”运算符:要求提问词全部在网页标题中出现
(6)“allinurl”运算符:要求提问词全部在URL中出现
(7)“inurl”运算符:要求提问词部分在URL中出
(8)“filetype:”运算符是Google开发的非常强大实用的一个搜索语法。后面接文档类型,可限制获取某一文档类型的网页,后可接文献类型举例。
31. 在CBMWin4.0版中的查找某作者发表的文献有几种方式?分别是什么?
31. 答:有四种
“基本检索”中的着者检索有三种方式:
一是在“检索入口”下拉彩旦中选择“作者”字段,然后在检索提问框内输入着者姓名;
二是直接在检索提问框内输入着者姓名,后加“in au”;
三是直接在检索提问框内输入“au=”,后跟着者姓名,
“作者检索”方式:直接在检索提问框内输入着者姓名。
32. 循证医学证据的主要类型有哪些?
32.依据按质量和可靠程度大体可分为以下五级(可靠性依此降低):
一级:按照特定病种的特定疗法收集所有质量可靠的随机对照试验后所作的系统评价或Meta分析;
二级:单个的样本量足够的随机对照试验结果;
三级:设有对照组但未用随机方法分组的研究;
四级:无对照的系列病例观察;
五级:专家意见或基于生理、病理生理和基础研究的证据。
33. 列举6种可以检索引文的数据库。
33.答:可以检索引文的数据库有:(任写以下6种均可)
(1) SCI
(2) SSCI
(3) H&ACI
(4) 《中国科技论文与引文数据库》(CSTPC)
(5) 《中国科学引文数据库》
(6) 《中文社会科学引文索引》
(7) 《中文科技期刊引文数据库》
(8) 中国知识基础设施工程中的中国引文数据库
(9) 《中国生物医学文献数据库》
34.信息检索的类型及特点。
34.答(1)个人信息源:聚集大量从事某工作领域的个人信息及有关各种事物的发展动态信息。
(2)组织机构信息源:主要指组织机构中的内部信息源。
(3)实物型信息源:以实物如文物、产品样本、模型、雕塑等形式表现的信息资源。
(4)文献型信息源:以文字、图片、符号等各种方式记录在各种载体上的知识和信息资源。
1)图书:图书也称为书籍,是指内容比较成熟、资料比较系统、有完整定型装帧形式的出版物。
2)期刊:期刊也称杂志,是指那些定期或不定期出版,汇集了多位作者论着的连续出版物。
3)学位论文:是本科生、研究生为取得学位资格而撰写的专业性研究论文。
4)科技报告:是作为科研成果的正式报告。
5)专利文献:由政府专门机构出版、有创造发明的设计、制作工艺的详细说明,表明在一定时限内发明所有者享有制造、使用、销售占有权的法律性文献。
6)标准文献:由权威机构批准、颁发的、可供人们执行的技术规格的规范性文献。
7)产品样本:厂商为介绍推销其产品而印发的文献。
8)会议文献:是指在国际和各国国内专业学术会议上所发表的论文和报告。
9)政府出版物:由政府机构制作指定出版机构出版的文献。
(5)电子型信息源:主要是指通过使用电子技术实现信息存储和传播的信息。
35.数据库的组成。
35.答:数据库由文档、记录和字段组成。
(1)文档:是按一定结构组织的相关记录和结合。
(2)记录:是构成文档的基本数据单元。
(3)字段:是比记录更小的单元,是组成记录的基本单元。
36.分类语言。
36.答:分类语言是按文献的学科属性,给予相应的分类号,用分类号来表达文献的主题概念,根据分类表中的顺序编排成分类索引,提供分类途径共检索文献使用。
分类语言是运用逻辑分类原理,按文献内容的学科、专业集中文献,从知识分类的角度揭示各类文献在内容上的区别和联系。
分类语言较好地体现了学科和专业的系统性。
分类语言可分为体系分类语言和组配语言两种,目前国内普遍采用前者。
36.主题语言。
37.答:主题语言是以高度概括的语词解释文献的主题,并以此为标识组织检索系统的语言。
主题语言分为标题词、元词、关键词和叙词。
(1)标题词:是从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。
(2)元词:是指能够用以描述文献所论及主体的最小、最基本词汇。
(3)叙词:使用能表达文献主题并经过严格规范化的词语。
(4)关键词:是直接从文献的标题,文献或全文中抽选具有实质意义、能表达文献主题概念,未经规范化处理的自然词语词汇。
38.信息检索途径。
38.答:1.分类文献:是按文献内容所属的学科类别来检索文献的途径,通过分类号或类别进行检索。
2.主题途径:是通过反应文献内容主题的词语来检索文献的途径。
3.关键词途径:是用非规范化词语自由标引,直接取自原文中能够表达文献内容主题、起关键作用的词语。
4.着者途径:是指按文献的作者、编者、译者的姓名或机构团体名称字顺检索文献的途径。
5.题名途径:是指按书名、刊名或文章篇名的字顺进行检索的一种途径。
6.号码途径:是利用文献代码、序号编排成的“号码索引”的一种途径。
39.信息检索素养的内涵。
39.答:1.信息意识:指信息在人脑中的反应即人对各种信息的自觉心里反应,反应人在信息活动中对信息的认识、态度、价值趋向和一定需求。
2.信息知识:是指与信息有关的理论、知识和方法。
3.信息能力:是指有效利用信息技术和信息资源获取信息、加工处理信息以及创造和交流新信息的能力。
4.信息道德:是指在信息获取、使用、创造和传播过程中应该遵守一定的伦理规范。
40.信息检索策略。
40.答:1.分析检索课题,明确目的要求。
信息检索总是按照一定的课题需要进行的,每一项检索课题都有明确的目的和具体的要求,因此在进行检索之前,首先要对检索课题进行认真而细致的分析研究,明确检索的目的和要求。因为目的不同,要求也不同,选择连锁工具、连锁方法等就有所不同。
2.检索系统和数据库的选择。
信息检索和数据库的选择主要主要考虑其所收录的学科范围、存贮年限、更新周期、标引质量、独特性、所需费用、系统性能和辅助服务等方面考虑,还要注意综合性和专业性数据库配合使用。
3.选择检索途径、确定检索标识。
所谓检索途径也就是数据库中的检索项(字段),是指从哪个角度或哪个方向入手进行检索。
检索标识是指确切表达文献信息内容及外表特征使用的符号或词语,如分类号、主题词、关键词、作者姓名、期刊刊名等,检索时要求准确找出检索标识,以避免误检。
4.编辑检索表达、调整检索策略。
检索表达式是用来表达检索提问的逻辑检索表达式,有选择好的检索标识根据检索要求运用不同的运算符号进行组配,以达到较为理想的检索效果。
但是实际的检索过程中,用既定的检索表达式检出的结果往往不能一次就达到满意,这就需要根据检索情况分析原因及时调整检索策略。
5.获得原始文章。
(1)检索网上全文数据库。
(2)利用网上出版社、杂志。
(3)利用图书馆馆藏目录(馆藏联合目录)。
(4)利用“网上全文传递服务”。
(5)直接向着者索取。
通过上述步骤的查找获得的如不是文献全文,可通过以下方式获得。
⑵ 数据库的数据检索和 搜索引擎的信息检索的不同点是什么需要解决的核心问题和核心技术有何不同
信息检索不等于搜索引擎。
互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。
一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。
二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。
三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。
四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。
(InformationRetrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
信息检索技术的热点
◆智能检索或知识检索
传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
◆知识挖掘
目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。
自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
◆异构信息整合检索和全息检索
在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。
另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。
随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最着名的系统之一。
搜索引擎工作流程
互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。
互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。
搜索引擎的工作包括如下三个过程:
1.在互联中发现、搜集网页信息;
2.对信息进行提取和组织建立索引库;
3.再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
发现、搜集网页信息
需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如网络公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。
索引库的建立
关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx
⑶ 现代信息技术的核心是什么
现代信息技术的核心是计算机制造技术
信息技术的核心主要包括:
传感技术
传感技术是当代科学技术发展的一个重要标志,它与通信技术、计算机技术和微电子技术一起,构成信息产业的核心支柱。如果说计算机是人类大脑的延伸,那么传感器就是人类五官的延伸。
通常,人用眼、耳、鼻、舌、身等感觉器官捕获信息。随着光学技术和电子技术的发展,使用放大镜、显微镜、望远镜、照相机、摄像机、侦察卫星等可以帮助人们观察微小的、遥远的或高速运动的物体;电话机、收音机、CD唱机等可以看做是人耳功能的延伸;电子鼻以及其他测量各种气味的装置可以看做是人的嗅觉器官功能的延伸;温度表、湿度表以及各种测量振动、压力的仪表可以看做是人的皮肤对温度和压力感觉功能的延伸。
目前,科学家已经研制出许多应用现代感测技术的装置,不仅能替代人的感觉器官捕获各种信息,而且能捕获人的感觉器官不能感知的信息。同时,通过现代感测技术捕获的信息常常是精确的数字化数据,便于计算机处理。
通信技术
信息只有通过交流才能发挥效益,信息的交流直接影响着人类的生活和社会的发展。人们使用电报、电话、电视、广播等通信手段传递信息。20世纪以来,微波、光缆、卫星、计算机网络等通信技术得到迅猛发展,手持移动通信装置正以惊人的速度普及。“任何人可以在任何时间任何地方同任何人通信”的时代已经到来。
计算机技术
计算机技术是信息处理的核心。计算机从诞生以来就不停地为人们处理大量的信息,而且随着计算机技术的不断发展,使其功能越来越强大。计算机不但能够处理数值信息,而且还能够处理各种文字、图形、图像、动画、声音等非数值信息。在人造地球卫星轨道的计算、天气预报、地震预测、自动控制、计算机辅助设计(CAD)、数据处理、计算机辅助教学(CAI)、计算机网络通信、电子商务(E-business)等各个领域中,都要利用计算机来处理、加工信息。计算机处理信息的能力在不断地增强,计算机技术已经渗透到人们生活的方方面面,帮助人们更好地存储信息、检索信息、加工信息和再生信息。再加上计算机网络技术的不断成熟,使得计算机如虎添翼,人们利用计算机网络可以更广泛、快捷地获取信息、交流信息和传递信息,实现信息资源的共享。现代信息技术每时每刻都离不开计算机技术。
微电子技术
微电子技术是现代信息技术的基石,微电子技术的发展,使器件的尺寸不断缩小,集成度不断提高,功耗不断降低,器件性能得到大幅度提高。在短短的几十年中,微电子技术取得了突飞猛进的发展,它的每一次重大突破都给电子信息技术带来一次重大革命。今天,一切技术领域的发展都离不开微电子技术,尤其对于计算机技术来讲它更是基础和核心。