❶ 截词检索的分类
在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。
截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。
不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举猛蔽渣例枝悄说明:
(1)后截断,前方一致。如:comput?表示computer,computers,computing等。
(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。
(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。
截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。 是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括:
(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此,book?可检索出包含有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录。
(2)无限后截词 主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个?,表示无限截词符号。 中截词也称屏蔽词。一般并弯来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为?,即用?代替那个不同拼写的字符。
从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。
❷ 元搜索引擎有哪些
1、搜魅网(someta):集合了百橡轮度、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。另外,搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。 ·
2、马虎聚搜:集合了google和网络的搜索结果,提供一些有用的热点排行。
3、佐意综合搜索(chinazss):佐意网提供的综合搜索,结合了Google\Bai\yahoo\等知名搜索引擎,更细分了不同的搜索类别,如软件搜索,游戏搜索,视频搜索,新闻搜索,网页搜索,地图搜索,音乐搜索,企业搜索等。看似页面简单,却搜索功能却很强大。佐意综合搜索可以说是元搜索中的一个典范。 该搜索引擎还可直接查询手机号码归属地,IP查询等。
3、比比猫 (bbmao):综合了网络,谷歌,搜狐,雅虎,搜狗等搜索引擎的搜索结果,并建立了自动分类,是目前最好的一款产品。速度还可以。
元搜索引擎(META Search Engine)一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。 4、115聚合搜索:一个基于聚类的个性化元搜索引擎,实现搜索定制聚合模块化,给用户良好的搜索体验;同时提供个性化网址导航服务,将信息聚合和网址导航结合在一起,通过新增插件的模块化功能组合,不断加入社会化服务的新元素,从而灵活方便地满足不同用户的个性需求,是一个全方位网罗的多元化和个性化的中文元搜索引擎。
5、觅搜 (MetaSoo):最近发现的一个使用了Ajax技术的中文元搜索引擎,可搜索谷歌、网络、雅虎一搜、搜狗、有道等。用户可以自行设置各搜索引擎的可信度(权重),觅搜会根据各搜索引擎重复等情况计算得分,最高100分,然后按照得分排序。这是Ajax技术在元搜索引擎中的第一次应用。
6、抓虾网聚搜 :就是将网络、Google两家算法各异的搜索巨头的搜索结果,去重,然后呈现到用户面前。方便用户使用。
通过抓虾聚搜的搜索框,还可以方便的进行下列查询,例如:天气预报查询、手机归属地查询、网页计算器、 ip地址查询、邮编区号查询、实时汇率转换、网站PR值、ALexa排名速查 、网站快速预览、检索纠正功能、字典查询、诗词查询、成语词典、百家姓速查、快递单号查询等等。 致力快捷生活。
7、万纬搜索:据说是最早的中文元搜索引擎,还有学术论文以其作代表论述元搜索引擎。但现在貌似不可用了,速度慢且不说,搜索完成后, 出来一句话:共查到 N 条记录符合字符串 X 本次取出 1 - 0 条 没有结果,怎么玩!
8、壹家搜 :速度慢,动不动就宕掉了;标题都显示是“网络快照”。
9、知合网的网页搜索 :速度较慢,这个知合网的网页搜索,我记得以前是综合网络、Google搜索结果的,但现在跟网络的结果完全相同。这样的话,有什么意义呢!
10、MMGOOGLE图片搜索:MMGOOGLE图片搜索提指如谨供专门的图片搜索.原来功能还比较强大,现在就是Google搜索结果的了.
11、我要搜搜你 :首页上介绍说“综合了Bai,Google,Yahoo的搜索结果” “结果比他们好一些”,但随意搜索几个词,很明显是比他们差很多。 搜“Google”,Bai,Google,Yahoo排第一的都是Google的主站,而我要搜搜你排第一的是 下载 Google 桌面,这个结果仅仅在网络排第五,Google、Yahoo前十项中都没有;真不知它是什么算出来的。
12、deyeb 社会化搜索引擎 :上一篇文章《中文元搜索引擎(欢迎补充)》发表后,bookye说“最知名的deyeb社会化搜索,你怎么落下了呢”。使用deyeb 后,发现仅仅热门词唯基有结果,稍微冷一些的词,就无结果了。搜“李宇春”,有97个结果;搜“何洁”, 就只有一项指向网络贴吧_何洁吧。更别说普通的词了,多数是无结果。deyeb不能算是搜索引擎。
13、北斗搜索 :跟前面地比较,北斗是目前唯一能用的元搜索引擎,当然也是最好的了。速度还可以;结果来自网络、搜狗、雅虎;左侧有深入搜索、相关搜索; 缩略图功能很cool;可以评价结果。
14、Jopee元搜索: 唯一以.CN结尾,而且还正在运行着的元搜索引擎。它提供的是各自独立的搜索,只是方便切换不同的搜索引擎,以便于能找到更适合的结果。在搜索结果排列方面,直接按来源引擎排列搜索结果.所以不存在手动变动搜索结果的操作。排名跟原来搜索引擎有关。
编辑本段国外的主要搜索引擎
15、MetaCrawler:提供涵盖近2 0个主题的目录检索服务, 包括常规检索、高级检索、定制检索、国家或地区的资源检索等。其中, 高级检索模式可实现搜索引擎的选择调用, 基于域名、地区或国家的检索结果过滤, 最长检索时间设置, 每页可显示的和允许每个搜索引擎返回的检索结果数量的设定, 检索结果排序依据(包括相关度、域名、源搜索引擎)设定等。
16、Dogpile:它首先并行地调用Google、Yahoo、MSN、Ask Jeeves等4个源搜索引擎, 如果没有得到1 0 个以上的结果, 再调用另外的搜索引擎。但Dogpile不提供可调用的源搜索引擎列表,不支持对各个源搜索引擎的自行指定和选择。
17、Mamma:Mamma是并行式元搜索引擎,自称为“搜索引擎之母”。可同时调用7个最常用的独立搜索引擎, 并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好, 检索选项丰富,主要包括可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。
18、Ixquick:Ixquick 最大优点是支持中文检索。支持各种基本的和高级的检索功能, 包括关键词检索、短语检索、截词检索、布尔逻辑检索、概念检索、自然语言检索、指定字段检索、包含(+ )或排除(一)检索等。
❸ 网络信息的检索方法有哪几种
网络信息检索方法主要有以下四种:1、漫游法2、直接查找法3、搜索引擎法4、网络资源指南法。
1.漫游法
(1)偶然发现。这是在因特网上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,具不可预见性和偶然性。
(2)顺“链”而行。指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。此方法类似于传统手工检索中的“追溯检索”,即根据文献后所附的参考文献追溯查找相关的文献,从而不断扩大检索范围。这种方法可能在较短的时间内检出大量相关信息,也可能偏离检索目标而一无所获。
2.直接查找法
直接查找法是已经知道要查找的信息可能存在的地址,而直接在浏览器的地址栏中输入其网址进行浏览查找的方法。此方法适合于经常上网漫游的用户。其优点是节省时间、目的性强、节省费用,缺点是信息量少。
3.搜索引穆检索法
此方法是最为常规、普遍的网络信息检索方法。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持布尔检索、词组检索、截词检索、字段检索等功能。利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。
其缺点是:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。
4.网络资源指南检索法
此方法是利用网络资源指南进行查找相关信息的方法。网络资源指南类似于传统的文献检索工具————书目之书目(bibliography of bibliographies),或专题书目,国外有人称之为web of webs,webliographies,其目的是可实现对网络信息资源的智能性查找。它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息检索具有重要的指导作用。
其局限性在于:由于其管理、维护跟不上网络信息的增长速度,使得其收录范围不够全面,新颖性、及时性不够强,且用户还要受标引者分类思想的限制。
❹ 截词检索有哪三种方式
截词检索三种方式:有限截词、无限截词和中间截词。
1、 截词截得词的检索方法可以分为有限词、无限词和中间词。
2、 限定词,限定词主要用于单复数,动词词尾变化等。在搜索词(关键词、主题词)的词干或后缀可能发生变化的位置放置“n”个词拦截器。
分词检索一般是指右分词,部分支持中间分词。截取词检索有助于提高检索的召回率。在分词检索技术中,常用的有两种方法:后分词和中分词。根据截断字符的数量,分为无限词和有限词两种。文字运算符在不同的系统中有不同的表达方式。需要注意的是,并不是所判高有的搜索引擎都支持这项技术。
❺ 搜索引擎通常具备哪些基本的检索功能
现有的搜索引擎基本上分为三类:
1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。
1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成
用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.
网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。
索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。
搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。
3 搜索引擎的主要性能评价指标
3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。
3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。
3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。
3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。
另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4 搜索引擎检索信息的局限
2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。
4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。
4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。
4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。
4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5 搜索引擎未来的发展趋势
新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。
<strong>答案补充</strong>
5.1 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。
5.2 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更
加准确。
5.3 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。<strong>答案补充</strong>
5.4 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。
5.5 结构化搜索 所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。
5.6 本土化的搜索 世界上许多着名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。
5.7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。
❻ 是不是所有数据库和搜索引擎都支持截词检索
检索词尾有变化的镇雀词干相同、词档旅渣义相近词,扩大检索范围词与截词符之间不能有“”、{ }、onear/0 EBSCO数据库: “”(双印号)、空格 网络搜行悄索引擎:,mTAXmz