⑴ 信息检索重点
问答题
1.简述信息、知识、文献的概念及其三者之间的关系。
1.答:信息:是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。
知识:是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。
文献:记录有知识的一切载体
三者从概念范畴上看,信息大于知识大于文献,知识是信息的一部分,是理论化系统化的信息,文献是知识中记载下来的那部分。
2.文献按载体形式不同分为哪几种类型,并举例说明。
2.答:文献按载体形式的不同分为:
手写型文献,如甲骨文、金文
印刷型文献,如图书、期刊
缩微型文献,如缩微胶卷、缩微胶片
视听型文献,如录像带、录音带、科技电影
电子型文献,如数据库文献和网络文献
3.文献的级别及其相互关系。
3.答:文献按照加工程度不同分为零次、一次、二次和三次文献四种。
其中零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等;零次文献在作者的加工处理后公开出版进入社会流通领域就变成一次文献;根据一次文献的各种特征按照一定的规则和方法对其进行整理、加工、浓缩,后形成的文献就是二次文献;利用二次文献线索对大量的一次文献内容进行综合、分析、加工、提炼后形成的文献就是三次文献。
4.在计算机检索中,如何缩小检索范围?
4.答:在计算机检索中,缩小检索范围的方法包括:
(1)增加用and连接的检索词,或用“二次检索”
(2)用特定的副主题词进行限定
(3)用字段限定检索,如标题词检索、主题词检索、加权检索等
(4)进行文献类型、语种、重要期刊、临床核心期刊、年份等的限定检索
(5)进入更专指的分类范围内输词检索
5.获取文献全文的方法有哪些?
5.答:获取全文的方法包括:
(1)检索网上全文数据库
(2)利用网上出版社、杂志
(3)利用图书馆馆藏目录(馆藏联合目录)
(4)利用“网上全文传递服务”
(5)向着者索取
6.常用的检索途径有哪些?
6.答:常用的检索途径包括:
自由词检索、主题词检索、分类检索、着者检索、机构检索、引文检索、限定检索等
7.简述信息检索的原理
7.答:信息检索的原理是:将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。本质是用户的信息需求与存储在信息集合中的信息进行比较和选择, 即匹配的过程。
8.计算机检索通常包括哪些步骤?
8.答:信息检索的步骤包括:
(1)分析检索课题,明确目的和要求
(2)选择合适的检索工具
(3)选择检索途径,确定检索标识。
(4)查找文献线索。
(5)浏览检索结果,获取原始文献。
9. 简述IM主题索引的编排规则。
9.答:主题索引的排列规则如下
(1)整个索引按主题词字顺排
(2)同一主题词下按副主题词字顺排
(3)相关内容的文献题录分别纳入相应的主题词或者主题词/副主题词之下;一般总论性文献直接入主题词下,专指性文献入相应的副主题词下;同一文献题录可入多个主题词之下
(4)同一主题词或副主题词下的文献题录,先排列英文文献,后排列非英文文献,非英文文献的英译标题用"[ ]"括起,以示区别
(5)英文文献按刊名缩写字顺排
(6)非英文文献先按文种缩写字顺排,同一文种下按刊名缩写字顺排。
10.《医学主题词表》(MeSH)字顺表的参照系统有哪几种?举例说明其意义。
10.答:第一组:用代参照,用于处理词与词间的等同关系。在MeSH词表中,对于多个同义词只采用其中一个比较科学而通用的词作规范化主题词,其它的词作为非主题词(即款目词)。用“款目词see主题词”和“主题词X款目词”表示。如:Cancer see Neoplasms Neoplasms X Cancer
第二组:属分参照,用于处理词与词之间的等级关系,即整体与部分,上位概念与下位概念之间的关系。如某些范畴较小的主题概念主题词,包含在某些范畴较大的主题词之下,内容范围较广的词是主题词,其下的内容范围较窄的词不作主题词,只作为次要主题词。用“次要主题词see under 主题词”和“主题词XU 次要主题词”表示。如:Health Priorities see under Health Planning Health Planning XU Health Priorities 从1991年开始取消此种参照关系,所有次要主题词升格为主题词。
第三组:相关参照,用于处理词间的相关关系,达到扩大检索,提高查全率的目的。用“主题词see related 主题词”和“主题词XR主题词”表示。如:Population Control see related Family Planning Family Planning XR Population Control
为提高查全率和方便检索,MeSH词表于1991年和1992年又先后增设了“还应考虑参照(consider also)”和“主题词/副主题词组配参照”。
11.按照存储内容的不同,数据库通常分为哪些类型?
11.答:书目数据库、事实数据库、数值数据库、全文数据库、图像数据库
12.什么叫主题词的扩展检索,它的优越性何在?
12.答:选择主题词的扩展功能可以同时检索主题词和它的所有下位词,这样就可检出用所选主题词和更专指主题词标引的所有文献,可以更好的提高检索的查全率。不扩展的情况下只会检出用所选主题词标引的文献,不会检出它的下位词,即那些更专指主题词标引的文献。
13.什么是查全率和查准率,二者之间有何关系?
13.答:查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。
查全率=【检出相关文献量/文献库内相关文献总量】×100%
查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=【检出相关文献量/检出文献总量】×100%
查全率与查准率是呈互逆关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图是查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
14.影响查全率和查准率的因素有哪些?
14.答:(1)影响查全率的因素
影响查全率的因素从文献存储上来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念和用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
(2)影响查准率的因素
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所使用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。
15.独立型搜索引擎的工作原理是什么?
15.答:独立式搜索引擎的工作原理是:
定期运行搜索软件(或人工),搜集网络信息。
利用索引软件进行自动标引,建立数据库。
以Web页面形式向用户提供有关的信息资源导航、目录索引及检索界面,由用户输入检索式。
通过检索软件进行检索,匹配,按相关度排序输出。
16.如何提高检索的查全率?
16.答:提高查全率的方法:
(1)降低检索词的专指度,选出一些上位词和相关词补充到检索式中。
(2)调节检索式的网罗度,减少逻辑“与”的组配面。
(3)进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。
(4)采用截词技术,取消某些限制过严的限制符。
17.如何提高检索的查准率?
17.答:提高查准率的方法:
(1)提高检索词的专指度,换用专指度较强的规范词或自由词。
(2)增加“与”连接,进一步限定主题概念。
(3)限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。
(4)限制输出文献的外部特征,如限制年限、语种、文献类型等。
(5)用逻辑“非”限制与提问不相关的文献的输出。
(6)用主题词检索,不用或少用自由词检索。
18.依据我国专利法专利有哪几种类型 各种类型的专利有效期为多长?
18.答:依据专利法保护对象分三种类型:发明专利、实用新型专利、外观设计专利
发明专利,是专利法主要的保护对象。发明专利权有效期各国不同,我国为自申请之日起20年。
实用新型专利,在我国实用新型专利权有效期为自申请之日起10年。
外观设计专利,在我国外观设计专利权有效期为自申请之日起10年。
19.信息检索系统的基本要素是什么?
19.答:信息检索系统的构成包括:
(1)检索文档,即文献检索标识的有机集合。
(2)技术设备,即能存储信息及其标识,并实现存储和检索操作的各种技术设备。
(3)作用于系统的人如:文献加工者、用户、系统维护人员、管理人员。
(4)检索工具如:检索语言、文献标引规则、输入输出标准等。
20.何谓数据库的顺排文挡和倒排文挡?
20.答:顺序文档(Sequential file)是以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(Master File),相当于印刷型检索工具的正文部分。倒排文档(Inverted file)就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档。倒排档从主文档中派生出来,所以,又叫做辅助文档。
21.获取网络信息资源的主要工具有哪些?
21.答:获取网络信息资源的主要工具包括:
(1)电子邮件
(2)FTP
(3)Archie
(4)Telnet
(5)Gopher
(6)Usenet
(7)www浏览器
(8)搜索引擎
22. 核心期刊的主要特点是什么?
22.答:少数刊载某一学科大量高质量专业论文的期刊称为核心期刊,其主要特点为:
(1)刊载专业文献密度高,信息含量高;
(2)水平较高,代表本学科的最新发展水平;
(3)出版相对稳定,所载文献寿命较长;
(4)利用率和被引率较高。
23.试述因特网搜索引擎的概念、类型。
23.答:搜索引擎是Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
根据检索内容分为:综合性搜索引擎和专业性搜索引擎;
根据检索功能分类:目录式搜索引擎、全文式搜索引擎、智能式搜索引擎;
根据检索范围分类:独立搜索引擎和元搜索引擎。
24.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
24.答:会议文献是指各种科学技术会议上所发表的论文、报告稿、讲演稿等与会议有关的文献。
会议文献的主要特点是:传播信息及时、论题集中、内容新颖、专业性强、质量较高,数量较大,出版类型多种多样,往往代表某一学科或专业领域内最新学术研究成果,基本上反映了该学科或专业的学术水平、研究动态和发展趋势。会议文献是科技查新中重要的信息源之一。
国外会议论文检索工具包括:ISI的Proceedings(ISTP+ISSHP);Papers First(OCLC first search的一个子库);IEEE/IEE Electronic Library;AIPCofference Proceedings
国内可以进行会议论文检索的系统包括:中国学术会议论文全文数据库(万方数据);中国重要会议论文全文数据库(CNKI)
25. 周红同学在检索一个课题时,第一次检索的结果有 172 条文献,你建议一下她采用何种方式来缩小检索范围?
25.答:缩小检索范围的方法包括:
(1)提高检索词的专指度,换用专指度较强的规范词或自由词。
(2)增加“与”连接,进一步限定主题概念。
(3)限定检索词所在的可检字段。
(4)用位置算符控制检索词的词间顺序与位置。
(5)限制输出文献的外部特征,如限制年限、语种、文献类型等。
(6)用逻辑“非”限制与提问不相关的文献的输出。
(7)用主题词检索,不用或少用自由词检索。
26.Medline和Pubmed有什么区别?
26.答:Pubmed和MEDLINE的区别主要体现在:
(1)文献的收录范围:Pubmed除了收录MEDLINE数据库之外,还收录了PREMEDLINE数据库,以及出版商直接提供给Pubmed的数据。
(2)数据库的更新时间:MEDLINE联机数据库为周更新,MEDLINE光盘的报道时差为1-3个月,而Pubmed为每天更新
(3)检索机理:MEDLINE的检索途径只有两个主题和作者,掌握Mesh表是检索的首要条件,而Pubmed具有词汇自动转换匹配功能和主题词自动扩展功能。
(4)连接功能:Pubmed具有与原文链接、相关文献链接、相关图书链接、相关分子生物学数据库链接的功能
(5)免费全文:Pubmed提供超过60中期刊的免费全文浏览和检索功能。
(6)费用:MEDLINE光盘需每年租赁数据库,Pubmed免费。
27.专利文献的概念及特点是什么?
27.答:专利文献是实行专利制度的国家及国际组织在审批专利过程中产生的官方文件及其出版物的总称。专利文献具有以下特点:
(1)专利文献集技术、法律和经济信息于一体,是一种数量巨大、内容广博的战略性信息资源;
(2)利文献传播最新技术信息;
(3)专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读;
(4)专利文献对发明创造的揭示完整详尽,技术内容相对可靠。
28.如果要查找有关“乙型肝炎流行病学”方面的中外文文献,可以选择哪些数据库?请选择其中一种数据库,简要检索策略。
28.答:查找“乙型肝炎的流行病学”的文献可选用的中文检索系统包括:CNKI、维普、万方、CBM等,
可选的外文检索系统包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其中,在CNKI中的检索策略为:
检索项:篇名;检索词:乙型肝炎;逻辑:或者
检索项:篇名;检索词:乙肝; 逻辑:并且
检索项:主题;检索词:流行病学
在CBM中的检索策略为:肝炎,乙型/[扩展全部树]流行病学
29.通过哪些检索系统可以查明济宁医学院图书馆是否有“computer communications”这本期刊?
29.答:可以选用的检索系统包括:图书馆联机检索系统、超星数字图书、书生数字图书馆
30. 请列出5个Google高级检索语法,并举例说明其用法。
30.答:可在下列语法中任选5个举例
(1)“link”运算符: 查找与某一特定网页建立链接的所有网页,亦可在高级检索模式下实现
(2)“related”运算符:自动查找与某一网页处于同一级别的相似网页,亦可通过高级检索模式及检索结果界面的“类似网页”实现
(3)“info”运算符:可获取Google库存的有关某一网页的全部信息
(4)“site”运算符: 将检索结果限制在某一网域中,也可以通过高级检索界面的“网域”选项来
(5)“Allintitle”运算符:要求提问词全部在网页标题中出现
(6)“allinurl”运算符:要求提问词全部在URL中出现
(7)“inurl”运算符:要求提问词部分在URL中出
(8)“filetype:”运算符是Google开发的非常强大实用的一个搜索语法。后面接文档类型,可限制获取某一文档类型的网页,后可接文献类型举例。
31. 在CBMWin4.0版中的查找某作者发表的文献有几种方式?分别是什么?
31. 答:有四种
“基本检索”中的着者检索有三种方式:
一是在“检索入口”下拉彩旦中选择“作者”字段,然后在检索提问框内输入着者姓名;
二是直接在检索提问框内输入着者姓名,后加“in au”;
三是直接在检索提问框内输入“au=”,后跟着者姓名,
“作者检索”方式:直接在检索提问框内输入着者姓名。
32. 循证医学证据的主要类型有哪些?
32.依据按质量和可靠程度大体可分为以下五级(可靠性依此降低):
一级:按照特定病种的特定疗法收集所有质量可靠的随机对照试验后所作的系统评价或Meta分析;
二级:单个的样本量足够的随机对照试验结果;
三级:设有对照组但未用随机方法分组的研究;
四级:无对照的系列病例观察;
五级:专家意见或基于生理、病理生理和基础研究的证据。
33. 列举6种可以检索引文的数据库。
33.答:可以检索引文的数据库有:(任写以下6种均可)
(1) SCI
(2) SSCI
(3) H&ACI
(4) 《中国科技论文与引文数据库》(CSTPC)
(5) 《中国科学引文数据库》
(6) 《中文社会科学引文索引》
(7) 《中文科技期刊引文数据库》
(8) 中国知识基础设施工程中的中国引文数据库
(9) 《中国生物医学文献数据库》
34.信息检索的类型及特点。
34.答(1)个人信息源:聚集大量从事某工作领域的个人信息及有关各种事物的发展动态信息。
(2)组织机构信息源:主要指组织机构中的内部信息源。
(3)实物型信息源:以实物如文物、产品样本、模型、雕塑等形式表现的信息资源。
(4)文献型信息源:以文字、图片、符号等各种方式记录在各种载体上的知识和信息资源。
1)图书:图书也称为书籍,是指内容比较成熟、资料比较系统、有完整定型装帧形式的出版物。
2)期刊:期刊也称杂志,是指那些定期或不定期出版,汇集了多位作者论着的连续出版物。
3)学位论文:是本科生、研究生为取得学位资格而撰写的专业性研究论文。
4)科技报告:是作为科研成果的正式报告。
5)专利文献:由政府专门机构出版、有创造发明的设计、制作工艺的详细说明,表明在一定时限内发明所有者享有制造、使用、销售占有权的法律性文献。
6)标准文献:由权威机构批准、颁发的、可供人们执行的技术规格的规范性文献。
7)产品样本:厂商为介绍推销其产品而印发的文献。
8)会议文献:是指在国际和各国国内专业学术会议上所发表的论文和报告。
9)政府出版物:由政府机构制作指定出版机构出版的文献。
(5)电子型信息源:主要是指通过使用电子技术实现信息存储和传播的信息。
35.数据库的组成。
35.答:数据库由文档、记录和字段组成。
(1)文档:是按一定结构组织的相关记录和结合。
(2)记录:是构成文档的基本数据单元。
(3)字段:是比记录更小的单元,是组成记录的基本单元。
36.分类语言。
36.答:分类语言是按文献的学科属性,给予相应的分类号,用分类号来表达文献的主题概念,根据分类表中的顺序编排成分类索引,提供分类途径共检索文献使用。
分类语言是运用逻辑分类原理,按文献内容的学科、专业集中文献,从知识分类的角度揭示各类文献在内容上的区别和联系。
分类语言较好地体现了学科和专业的系统性。
分类语言可分为体系分类语言和组配语言两种,目前国内普遍采用前者。
36.主题语言。
37.答:主题语言是以高度概括的语词解释文献的主题,并以此为标识组织检索系统的语言。
主题语言分为标题词、元词、关键词和叙词。
(1)标题词:是从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。
(2)元词:是指能够用以描述文献所论及主体的最小、最基本词汇。
(3)叙词:使用能表达文献主题并经过严格规范化的词语。
(4)关键词:是直接从文献的标题,文献或全文中抽选具有实质意义、能表达文献主题概念,未经规范化处理的自然词语词汇。
38.信息检索途径。
38.答:1.分类文献:是按文献内容所属的学科类别来检索文献的途径,通过分类号或类别进行检索。
2.主题途径:是通过反应文献内容主题的词语来检索文献的途径。
3.关键词途径:是用非规范化词语自由标引,直接取自原文中能够表达文献内容主题、起关键作用的词语。
4.着者途径:是指按文献的作者、编者、译者的姓名或机构团体名称字顺检索文献的途径。
5.题名途径:是指按书名、刊名或文章篇名的字顺进行检索的一种途径。
6.号码途径:是利用文献代码、序号编排成的“号码索引”的一种途径。
39.信息检索素养的内涵。
39.答:1.信息意识:指信息在人脑中的反应即人对各种信息的自觉心里反应,反应人在信息活动中对信息的认识、态度、价值趋向和一定需求。
2.信息知识:是指与信息有关的理论、知识和方法。
3.信息能力:是指有效利用信息技术和信息资源获取信息、加工处理信息以及创造和交流新信息的能力。
4.信息道德:是指在信息获取、使用、创造和传播过程中应该遵守一定的伦理规范。
40.信息检索策略。
40.答:1.分析检索课题,明确目的要求。
信息检索总是按照一定的课题需要进行的,每一项检索课题都有明确的目的和具体的要求,因此在进行检索之前,首先要对检索课题进行认真而细致的分析研究,明确检索的目的和要求。因为目的不同,要求也不同,选择连锁工具、连锁方法等就有所不同。
2.检索系统和数据库的选择。
信息检索和数据库的选择主要主要考虑其所收录的学科范围、存贮年限、更新周期、标引质量、独特性、所需费用、系统性能和辅助服务等方面考虑,还要注意综合性和专业性数据库配合使用。
3.选择检索途径、确定检索标识。
所谓检索途径也就是数据库中的检索项(字段),是指从哪个角度或哪个方向入手进行检索。
检索标识是指确切表达文献信息内容及外表特征使用的符号或词语,如分类号、主题词、关键词、作者姓名、期刊刊名等,检索时要求准确找出检索标识,以避免误检。
4.编辑检索表达、调整检索策略。
检索表达式是用来表达检索提问的逻辑检索表达式,有选择好的检索标识根据检索要求运用不同的运算符号进行组配,以达到较为理想的检索效果。
但是实际的检索过程中,用既定的检索表达式检出的结果往往不能一次就达到满意,这就需要根据检索情况分析原因及时调整检索策略。
5.获得原始文章。
(1)检索网上全文数据库。
(2)利用网上出版社、杂志。
(3)利用图书馆馆藏目录(馆藏联合目录)。
(4)利用“网上全文传递服务”。
(5)直接向着者索取。
通过上述步骤的查找获得的如不是文献全文,可通过以下方式获得。
⑵ 急急急~网络信息检索方法与应用 论文
我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。
好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
!2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁’时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[’“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔’3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词
……………………………………
太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。
⑶ 网络信息检索及其发展趋势是什么
一、智能化x0dx0ax0dx0a智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索()作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。x0dx0ax0dx0a二、可视化x0dx0ax0dx0a可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过雀大看来识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。x0dx0ax0dx0a三、简单化x0dx0ax0dx0a未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推镇磨拉等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。x0dx0ax0dx0a四、多样化x0dx0ax0dx0a多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的御岁斗检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。x0dx0ax0dx0a多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。x0dx0ax0dx0a多样化的第三个表现是网上检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费电子信箱,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。x0dx0ax0dx0a多样化还表现在网络信息检索可以间接地服务于其他行业。例如数据挖掘技x0dx0ax0dx0a术可用于分析历史数据的变化趋势,预测未来发展方向,发现大量数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据;还可以系统地、定量地分析目前较为热门的研究发展领域及查询频繁更新的文献资料种类,可使信息中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、收集工作,有的放矢,向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。x0dx0ax0dx0a五、个性化x0dx0ax0dx0a个性化指各网站注重内容的特色化和注重个性化的服务。x0dx0ax0dx0a网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜朋够或网站努力追求的对象。不同的打有消费者个人烙印的产品将成为某个消费者区别他人、感觉自我存在及独特的外在标志,个性化服务成功的实质在于提供了真正适应用户需要的产品,贯彻了以用户为中心的理念。x0dx0ax0dx0a六、商业化x0dx0ax0dx0a网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国着名的数字媒体评估公司JupiterMediaMetrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的。”
⑷ 信号与信息处理的研究方向
(1)实时信号与信息处理主要研究内容:消春嵌入式操作系统的分析、DSP的开发和设计、信号控制技术。信号的采集、压缩编码、传输、交互和控制技术,流媒体技术以及多人协同工作方式研究,从而实现在DSP和互联网上的视音频、文字等多种信息的实时交互和协同工作。
(2)语音与图像处理该研究方向主要负责研究和探索数字语音和图像处理领域的前沿技术及其应用。研究内容包括:语音的时频分析和算法、声场分析和目标跟踪、动态范围(HDR)图像处理技术和算法、图像加速硬件(GPU)的应用等。
(3)现代传感与测量技术该研究方向理论研究与应用研究并重:在理论上主要开展基础研究,以发现新现象,开发传感器的新材料和新工艺;在应用上主要结合电力系统的应用需求,开发各种传感与检测系统。
(4)信息系统与信息安全现代信息系统中的信息安全其核心问题是密码理论及其应用,其基础是可信信息系统的构作与评估。该方向主要研究与通信和信息系统中的信息安全有关的科学理论和关键技术,主要包括密码理论与技术、安全协议理论与技术、安全体系结构理论与技术、信息隐藏理论枝肢与技术、信息对抗理论与技猛桥世术、网络与信息系统安全研究。
(5)智能信息处理主要侧重于研究将现代智能信息处理的理论、技术和方法应用于现实的各类计算机信息处理系统设计与实现中。为企业培养掌握现代智能信息处理的理论、技术和方法,研究与开发各类智能信息处理系统的技术人才。其主要研究内容有:数字图象处理、视频信息的检测、分析、传输、存储、压缩、重建以及模式识别与协同信息处理;视觉计算与机器视觉、智能语音处理与理解、智能文本分类与信息检索、智能信息隐藏与识别。
(6)信息电力为信息科学与电力系统两学科的边缘新学科(筹),研究内容包括:数字电力系统,电力通信技术与规程,计算机软件与网络,电力生产和运营管理,信息技术及其在电力工业中的应用。
(7)现代电子系统现代电子系统研究方向主要研究使用当今最流行的电子系统设计工具,如嵌入式系统,可编程逻辑器件,DSP系统等实现诸如信息家电、通信、计算机等相关领域的硬件设计软件设计的设计方法。
(8)嵌入式系统与智能控制研究单片机、可编程序控制器(PLC)、DSP、ARM等在智能测量仪表、交通管理、信息家电、家庭智能管理系统、通信和信息处理等方面的应用。
(9)模式识别与人工智能该方向主要研究模式识别与人工智能的新理论与新方法,着重研究这些理论和技术在实际系统、尤其是在电力系统中的应用,解决应用中的关键技术问题,包括智能化信号处理、图像型非图像型目标识别,人工神经元网络、模糊信息处理、统计信号处理、多传感器信息融合以及信号的超高速多通道采集与实时处理技术等。
⑸ 找寻相关资料
WEB全文信息检索技术
李灿
(华南理工大学图书馆 510641)
摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。
关键词:信息检索 因特网 全文检索
一、 前言
Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。
因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。
二、 概述
网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。
全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。
要实现全文检索,首先必须对WEB信息进行预处正竖没理。
三、 WEB信息的预处理
信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。
(1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。
(2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。
(3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。
(4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
(5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的纤滑简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档.
(6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接举纳查询到该文档.
.
四、检索
检索包括文件信息表达和查询信息表达以及相关信息预测过程。
(1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。
(2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。
(3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。
(4)查询词的选择策略:
·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。
·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。
·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。
反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。
(5) 信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。
布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。
模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为〔0,1〕的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。
矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。
概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。
五、全文信息检索技术的发展
目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。
目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。
目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。
参考文献
1) WWW上的全文信息检索技术,金燕等,计算机应用研究,1999年第一期,P40-43
2) 全文数据库建库原理与应用技术,王兰成等,情报学报,1999年第4期
⑹ 20100803信息检索
1、信息素质的具体内容?
信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的制动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。
2、信息、知识、文献的概念和相互关系?
信息是物质的一种带有普遍性的关系属性,是物质存在方式及其运动规律、特点的外在表现。
知识是人们在改造世界的实践中所获得的认识和经验的饥悄高总和,是人的大脑通过思维重新组合的系统化的信息集合。
文献是记录有知识的一切载体。是以文字、图像、符号、声频、视频等作为记录手段,将信息记录或描述在一定的物质载体上,有其特定的表现形式,能起到存贮和传播信息情报与知识作用的载体。
通过上述对信息、知识与文献的分析,可以认为信息是宇宙间的一切运动状态及对其报导。宇宙间时时刻刻都在产生着信息,人们正是通过对这些不同信烂尺息的获取来认识不同事物,并由此生产新的知识。知识是经人脑思维加工而成为有序化的人类信息。文献则是被物化了的知识记录,是被人们所认知并可进行长期管理的信息。文献又是贮存传递知识和信息的介质,它们之间的逻辑关系是一种包含关系。
3、文献的组成要素?文献有哪些类型?
文献主要由信息内容、载体材料、信息符号和记录方式四个基本要素构成。
文献主要类型有:图书、报刊、特种文献、缩微资料、机读文献、视听资料、立体形象资料、光盘资料。
4、什么是信息检索?信息检索与文献检索关系?
信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
信息检索的意义和作用主要是能有效提高人们检索信息和利用信息的效率。对大学生来说,文献信息检索时培养学生能力的基本技能和方法之一,最主要的是自学能力、研究能力、思维能力、表达能力和组织管理能力的培养,是科学研究不可缺少的一项工作。
5、简述信息检索的原理。
以一定的规则和方式对信息单元进行标引,检索时用户选择一概念组构成检索式对所需信息进行特征描述,然后采用一定的技术将检索式与标引的信息单元进行比较、匹配,最后找出匹配度高的作为检索结果传递给用户。
6、什么是计算机信息检索系统,它由几个部分组成?
计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总合。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。
一个完整的信息检索系统,通常由信息源、信息组织管理、系统功能、用户接口和系统支持技术等几个有机部分组成。
7、计算机信息检索技术有哪些?
计算机检索技术:布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。
8、从外表特征与内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。运姿
(1)描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、着者姓名/单位名称、出版事项、代码/序号(如专利号、报告号、标准号)等等;如检索《水浒传》则为检索书名。
(2)描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言;如在搜索栏打“桥梁”则桥梁为关键词。
9、为什么要创建“检索语言”,它有哪些类型?比较分类语言和主题语言的优缺点。
检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。因此,编制检索语言的目的就是不但能够保证不同的标引人员描述文献特征的一致性,而且能够保证检索提问词与文献标引词的一致性。要把存储和检索联系一致,检索语言所表达的概念应该是唯一的。这就是说,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,要使其在该检索系统中具有单义性。
(一)按照标识的性质与原理划分 1). 分类语言 2).主题语言 3). 代码语言 (二)按照表达文献的特征划分 1). 表达文献外部特征的检索语言
比较优缺点:1分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。 以知识属性来描述和表达信息内容的信息处理方法称为分类法。着名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。 2.主题语言 主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词、元词、叙词、关键词。
10、传统检索技术与网络检索技术的主要区别体现在哪些方面?
区别:网络检索更加快捷,以互联网为媒介。信息量更大,网上的数据库容量几乎无限,更有前途
11、我国标准分为哪些等级?分别用哪些符号表示?
我国标准体制目前分为四级:国家标准、行业标准、地方标准和企业标准。
国标的代号是GB,推荐性的为GB/T,其他级别的推荐性标准类似。行业标准有70个左右,代号都是两个(拼音)字母。地方标准的代号是DBXX,企业标准代号的标准格式是 Q/XX,XX也可以是三位,建议不超过四位。
12、专利的新颖性、创造性和实用性各自含义,中国保护的专利类型?
专利的新颖性,是指申请日前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
专利的创造性:是指在有新颖性的情况下,不同的技术之间实际上是没有产生意想不到的技术效果,简单说,就是两者之间的差异不明显,而且效果无进步.
专利的实用性:指该理论或者观点的提出对实践的知道程度。
中国保护的专利类型有3种类型,分别是:发明专利、实用新型专利和外观设计专利。
13(14)、专利文献的特点、专利说明书的结构。
专利文献的特点:1) 专利文献集技术、法律、经济信息于一体,是一种数量巨大、内容广博的战略性信息资源。2)专利文献传播最新技术信息。3) 专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读和实现信息化。4) 专利文献对发明创造的揭示完整而详尽。
专利说明书的结构:a.发明或实用新型的名称。b.发明或实用新型所属的技术领域。c.现有技术和背景技术d.发明或实用新型的月的。e.发明或实用新型的技术方案。f.发明或实用新型与现有技术相比具有的优点、特点或积极效果。g.对附图的说明。h.实施例或者具体的实施方式。i.如果是涉及微生物方面的申请,文件中还应当写明该微生物的特征和分类命名,并注明拉丁文名称
15、专利文献的分类方法,分类号的结构组成,专利检索的目的。
专利文献采用功能(发明的基本作用)和应用(发明的用途)相结合,以功能为主的分类原则。采用等级形式,将技术内容按部(Section)、分部(Subsection)、大类(Class)、小类(Subclass)、主组(Main group)、分组(Subgroup)逐级分类,形成完整的分类体系。 分类号结构组成:部 类 小类 主组 分组。
专利检索目的:专利检索之目的,是为了有效率地搜集最新之专利资讯,以窥得目前相关技术的发展情况,并可参考他人研究成果来缩短研发经费与时间的投入,也能进行回避设计以避免侵犯他人之专利权。另外,可将所得到的专利技术情报用来判断其他企业的经营方向、技术水平、市场布局,并从而制定正确的因应策略,知己知彼正是商场竞争致胜的关键。一般而言专利检索可以帮助研发人员和企业,追踪技术发展动向,策划研发方向和研拟市场竞争策略。
16、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具?
1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
2、检索工具:中国知网《中国重要会议论文全文数据库》、万方数据《中国学术会议论文文摘数据库》中国学术会议在线因特网会议预告欧洲研究会议国际标准化组织的标准化会议预告医学会议查询
7、阐述我校图书馆引进或购置的外文数据库的类型及其收录特点。
类型:1)EBSCOhost系统全文数据库1、学术期刊集成全文数据库2、商业资源集成全文数据库3、传播和大众传媒数据库4、报纸资源数据库5、教育类全文期刊数据库
2)Springerlink电子期刊及图书 收录特点:EBSCOhost目前已拥有60多个数据库,10余各全文数据库以及其他数据库,内容涉及综合科学、商业、管理、财经、医学、教育学、军事、农业、人文等各个方面。其中学术期刊集成全文数据库和商业资源集成全文数据库是CALIS集团最早组织的数据库品种之一,已经为国内多所高校熟悉和使用。 Springerlink可访问的期刊种数有1850余种,其中可访问的全文刊为1150多种,其中95%以上的期刊为英文,其中许多为英文核心期刊,被着名的二次文献服务收录并在ISI的SCI里有很高的影响因子。
18、网络资源的特点与种类?搜索引擎的功能。
特点: 从内容上界定 数量上的海量性。种类上的繁多性。分布上开放性。内容上的关联性。从形式上界定 编排上的非线性。使用上的交互性。更新上的动态性。 从效用上界定资源的共享性。资源的时效性。资源的转移性。资源的选择性。资源的增值性。
种类: 资源中心模式。 分布式资源系统。 学科资源库模式。
搜索引擎的功能: A、基本的检索功能 a、布尔逻辑算符 b、截词算符 c、词位算符 d、限制检索 B、其他的检索功能 a、自然语言检索 b、多语种检索 c、概念检索 d、过滤检索
19、写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式。
(1)专利文献:序号专利申请者.专利国别,专利文献种类,专利号.出版日期
(2)技术标准:序号 起草责任者.标准代号标准序号-发布年标准名称.出版地:出版者,出版年
(3)学位论文:序号 作者. 题名:[学位论文].保存地:保存着,年份
(4)会议论文:序号 作者. 题名.会议名称,会址,会议年份
20、学术论文一般由哪几部分构成?各部分的写作规范分别是什么?
(一)题名(Title,Topic)对论文题目的要求是:准确得体、简短精炼、外延和内涵恰如其分、醒目。
(二)作者姓名和单位(Author and department) 大致分为二种情形,即:单个作者论文和多作者论文。后者按署名顺序列为第一作者、第二作者。重要的是坚持实事求是的态度,对研究工作与论文撰写实际贡献最大的列为第一作者,贡献次之的,列为第二作者,余类推。注明作者所在单位同样是为了便于读者与作者的联系。
(三)摘要(Abstract) 文字必须十分简炼,内容亦需充分概括,篇幅大小一般限制其字数不超过论文字数的5%。例如,对于6000字的一篇论文,其摘要一般不超出300字。 论文摘要不要列举例证,不讲研究过程,不用图表,不给化学结构式,也不要作自我评价
(四)关键词(Key words) 关键词属于主题词中的一类。主题词除关键词外,还包含有单元词、标题词的叙词。 主题词是指以概念的特性关系来区分事物,用自然语言来表达,并且具有组配功能,用以准确显示词与词之间的语义概念关系的动态性的词或词组。
(五)引言(Intorction) 引言的文字不可冗长,内容选择不必过于分散、琐碎,措词要精炼,要吸引读者读下去。引言的篇幅大小,并无硬性的统一规定,需视整篇论文篇幅的大小及论文内容的需要来确定,长的可达700~800字或1000字左右,短的可不到100字。
(六)正文(Main body) 要求这一部分内容充实,论据充分、可靠,论证有力,主题明确。为了满足这一系列要求,同时也为了做到层次分明、脉络清晰,常常将正文部分人成几个大的段落。这些段落即所谓逻辑段,一个逻辑段可包含几个自然段。每一逻辑段落可冠以适当标题(分标题或小标题)。
(七)结论(Conclusion) "结论"部分的写作要求是:措词严谨,逻辑严密,文字具体,常象法律条文一样,按顺序1、2、3……列成条文,用语暂钉截铁,且只能作一种解释,不能模棱两可、含糊其词。文字上也不应夸大,对尚不能完全肯定的内容注意留有余地。
(八)致谢(Acknowledgment) 致谢语句可以放在正文后
(九)参考文献(Reference)专论正文部分引用的文献的标注方法可以采用顺序编码制,也可采用"着者-出版年"制。
21、简要回答:三大检索工具SCI、Ei和ISTP的内涵。
SCI是美国《科学引文索引》的英文简称,其全称为: Science Citation Index,它是世界三大检索系统(EI,SCI,ISTP)之一,是由美国科学情报研究所(Institute for Scientific Information,简称ISI)1961创立并出版的一部世界着名的期刊文献检索工具,它是根据现代情报学家加菲尔德(Engene Garfield)1953年提出的引文思想而创立的。 SCI中的所有论文都是从ISI巨大的自然科学资料库(SCI date base)中选取的,这个资料库的文献源主要是期刊。收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科。所选用的刊物来源于94个类、40多个国家、多种文字,这些国家主要有美国、英国、荷兰、德国、俄罗斯、法国、日本、加拿大等,也收录一定数量的中国刊物,并包括少量的专着。
EI《工程索引》(EngineeringIndex,EI),1884年创刊,由美国工程信息公司出版,报道工程技术各学科的期刊、会议论文、科技报告等文献。
ISTP《科技会议录索引》(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年创刊,报导世界上每年召开的科技会议的会议论文
22、科技报告的主要类型和特点?
科技报告的主要类型:
1) 按内容可分为:基础理论研究和工程技术两大类。
2) 按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memoranm,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料).
3)按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
4)按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果。
科技报告的特点
一. 反映新的科技成果迅速:由于有专门的出版机构和发行渠道,科研成果通过科技报告的形式发表通常比期刊早一年左右。
二. 内容新颖、专深具体:科技报告报道的题目大都涉及尖端科学的最新研究成果,对问题研究的论述包括各种研究方案的选择和比较,各种可供参考的数据和图表、成功与失败的实践经验等,内容很具体。
三. 种类多、数量大:科技报告几乎涉及整个科学、技术领域以及社会科学、行为科学和部分人文科学。据统计,全世界每年出版的科技报告数量达100万件以上。其中,最多的是美国,约占83.5%,其次为英国,占5%,德国、法国各占1.5%。此外,日、苏、加等国也都有一定数量的科技报告。
四. 出版形式独特:每篇科技报告都是独立的、特定专题的技术文献,独自成册,以单行本形式出版发行。但是,同一单位、同一系统或同一类型的科技报告,都有连续编号,每篇报告一个号码。科技报告一般无固定出版周期,报告的页数多少不等,多至八、九百页,少至几页。除一部分技术报告可直接订购外,多数不公开发行
23、所谓知识产权和专利文献?专利说明书的格式是什么?
知识产权是指:公民或法人等主体依据法律的规定,对其从事智力创作或创新活动所产生的知识产品所享有的专有权利,又称为“智力成果权”、“无形财产权”,主要包括发明专利、商标以及工业品外观设计等方面组成的工业产权和自然科学、社会科学以及文学、音乐、戏剧、绘画、雕塑、摄影和电影摄影等方面的作品组成的版权(着作权)两部分。
专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文件(或摘要)的总称。
格式:1、中国专利申请号,不加前缀CN,可以省略小数点后数字。2、中国专利公开( 公告)号,含前缀CN,不加最后一位类别码字母。以上格式与国家知识产权局专利网站完全一致。
24、专利有哪几种类型?发明专利应具备的基本条件是什么?
类型:分为发明专利,实用新型专利,外观专利三种
发明专利应具备的基本条件是你申请的东西没有人申请过,市面上没有你要申请相类似的东西,必须是没有过的东西.是新的东西
25、有一个专利(专利号:ZL94109488.X),上网查一查。看能否获取全文。
申请(专利)号:94109488.X
大中小
窗体顶端
窗体底端
申请公开说明书(15)页
审定授权说明书(15)页
申请号: 94109488.X 申 请 日: 1994.08.24
名称: 一种便携式痕量元素智能分析仪
公开(公告)号: CN1118067 公开(公告)日: 1996.03.06
主 分 类 号: G01N27/27 分案原申请号:
分 类 号: G01N27/27
颁证 日: 优先权:
申请(专利权)人: 中国地质大学(武汉)
地 址: 湖北省武汉市
发明(设计)人: 李四福; 应晓建 国 际 申 请:
国际公布: 进入国家日期:
专利代理机构: 中国地质大学(武汉)专利事务所 代理人: 吕建军摘要
一种便携式痕量元素智能分析仪,它由单片机控制系统1、程控电压发生器2、恒电位器3、恒电流器4、前置放大器5、模/数转换电路6、电子开关电路7等组成。其特征是以单片机作为智能核心组成控制及测量系统,它还可以包括通讯电路8实现与PC机联机通讯,实现现场样品实时检测及分析,功能强,测量精度高(可达PPb级)。
26、我校图书馆对特种科技文献有哪些数据库可供检索?
万方CNKI 中国科技论文在线 维普中文科技期刊 慧科报刊库 超星数学图书馆 超星名师讲坛 新东方多媒体学习库 国道外文专题数据库 银符考试模拟题库
27、说使用“逻辑与”可以缩小检索范围,而使用“逻辑或”可以扩大检索范围?
A与B:同时具有A和B的内容
A或B:第一种情况是只具有A ;第二种情况是只具有B;第三种情况是同时具有A、B
所以说使用“逻辑与”可以缩小检索范围,而使用“逻辑或”可以扩大检索范围
28、什么是查全率和查准率?怎样提高查全率和查准率?
查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。
查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降.
使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降。
29、按照信息内容的加工深度和出版形式,文献有哪些类型?它们之间的关系是什么?
按照文献的出版形式可以分为图书、期刊、报纸、特种文献(政府出版物、学位论文、科技报告、专利、标准、档案、会议文献、产品样本等)。
按照文献的载体形式,可以分为手写型文献、印刷型文献、缩微型文献、视听型文献与机读型文献。
关系
⑺ 现在计算机方向研究生阶段有哪些热门的研究领域
计算机考研方向有计算机系统结构,计算机与理论,计算机应用技术,信息安全和工程等。
计算机系统结构是计算机科学与技术专业的重要学科之一,主要研究计算机硬件与的功能分配、软硬件界面的划分、计算机硬件结构组成与实现方法及技术,其中嵌入式系统无疑是当前最热门、最有发展前途的方向之一。计算机系统结构专业要求学生具有扎实的计算机软硬件基础,不仅能对计算机系统进行研究与设计,还要具有计算机应用、开发的能力。相对而言,该专业的毕业生还是比较好找工作的,适合于从事计算机网络、嵌入式技术、高性能计算、网络信息安全和多媒体信息处理等研究领域或工程技术领域的工作。
计算机与理论专业主要研究设计、开发、维护和使用过程中涉及的理论、方法和技术,探讨计算机科学与技术发展的理论基础。该专业竞争比较激烈,大部分研究方向如信息安全理论及应用、嵌入式系统、计算智能、信息安全、新型程序设计与方法学、自动化、分布计算与并行处理、工程、先进操作系统、计算机系统信息安全都是当今IT市场比较热门的方向。
计算机应用技术的研梁毕究方向非常广泛,包括网络攻防技术、网络与数据库技术的应用、数据仓库与数据挖掘、多媒体与智能信息检索、数据网格与知识网格、计算机视觉与虚拟现实、模式识别与图像处理等。随着国内信息化产业的迅速唯如推进及互联网的蓬勃发展,市场对网络工程师、网络管理员等技术人才的需求日渐看涨。
信息安全培养培养能够从事计算机、通信、电子商务、电子政务、电子金融等领域的信息安全高级专门人才。
工程涉及到程序设计语言、数据库、开发工具、系统、标准、设计模式等方面。在现代社会中,应用于多个方面,促进了经济和社会的发展,使得橡山芹人们的工作更加高效,同时提高了生活质量。
⑻ 计算机研究生专业方向
主要分为四个大方向分别是:AI(人工智能)、Systems(计算机系统)、Theory(计算机理论)、Interdisciplinary Areas(交叉领域)。
4.自然语言处理(Natural language Processing)
自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
5.信息检索(The Web & information retrieval )
信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出行毕胡有关信息的过程。
⑼ 计算机科学与技术研究方向
计算机科学与技术的研究方向是数据挖掘、信息检索、语义分析。
计算机科学与技术简介:
计算机科学与技术,亦即计算机科学与技术专业。下属三个二级学科,本专业培养具有良好的科学素养,系统地、较好地掌握计算机科学与技术包括计算机硬件、软件与应用的基本理论、基本知识和基本技能与方法,能在科研部门、教育单位、企业、事业、技术和行政管理部门等单位从事计算机教学、科学研究和应用的计算机科学与技术学科的高级科学技术陵灶人才。
计算机科学与技术主要课程,电路原理、模拟电子技术、数字逻辑、数值分析、计算机原理、微型计算机技术、计算机系统结构、计算机网络、高级语言、汇编语言、数据结构、操作系统、数据库原理、编译原理、图形学、腊租人工智能、计算方法、离散数学、概率统计、线性代数以及算法设计与分析、人机交互、面向对象方法、计算机英语等。