导航:首页 > 信息系统 > 信息检索简明一共多少章

信息检索简明一共多少章

发布时间:2022-10-16 11:42:28

❶ 信息检索是什么

《信息检索》是在2006年科学出版社出版的图书,作者是徐天秀。

内容简介
本书立足于介绍现代信息检索的方法与技术,在对信息检索基本知识、信息检索工具及系统进行了全面阐述的基础上,重点介绍了国内外重要电子信息资源、网络信息资源的检索与利用,也对部分重要的印刷型检索工具书进行了介绍,为读者提供了较全面的信息检索知识。
本书是一本工具型书籍,提供的信息检索学科范围广,内容尽量以最新版本为主,是一本适用性强的学习信息检索方法和技巧的专着。
本书既可作为师范院校、综合性院校及理工科院校的本科生、研究生的教材,又可作为教学、科研及各界信息用户的参考工具书。
前言
信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。一个国家的科技进步和社会发展越来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。
社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。
1984年,教育部就提出在大学生中开设"文献检索与利用"课程,"信息检索"是该课程的延续和发展,其目的就是培养学生的信息素质,使学生在增强信息意识的基础上,熟悉检索工具和系统,掌握信息检索的方法和技巧,提高自学能力,激发创新能力。为此,我们在长期信息检索课教学的基础上总结经验,并博采各类相关教材之精华,编写了《信息检索》一书。
本教材以师范类专业为主要介绍对象,并兼顾其他各学科专业,因此,所介绍的专业信息检索,学科门类较齐全。其特点如下:
(1)根据师范院校综合性和多学科特点,注意介绍了师范专业所涉及的绝大部分学科和专业的信息检索。
(2)电子版检索工具具有方便、快捷地获取信息的优点,深受用户喜欢。电子版检索系统和工具越来越多,各个学科都出版了不少数据库,为了突出电子版检索工具,本教材特意把"综合性电子信息资源的利用"设为一章。
(3)相对而言,社会科学信息检索部分的电子信息资源出版物不多,该章节电子信息资源的利用部分就置于检索工具书之后介绍;自然科学部分介绍的几种常用的检索工具书都有其对应的电子版,为达到推荐电子资源的作用,故先介绍电子版,然后是相对应的印刷型检索工具。
(4)中国绝大多数图书馆已经实现了管理自动化和网络化,为帮助读者有效地利用现代化图书馆资源,我们专门以"现代化图书馆及其利用介绍"为一章,帮助读者了解现代化图书馆,达到有效利用馆藏文献资源的目的。

❷ 文献信息检索的目录

第1章 绪论
第2章 中文全文数据库检索
第3章 常用中文电子图书及电子报纸
第4章 常用国外全文数据库
第5章 常用外文文摘数据库
第6章 特种文献检索
第7章 网络信息检索与利用
参考文献
……

❸ ‘IR 信息检索入门必看’#5 检索系统评价(简明)

前述文章介绍了几种基本信息检索模型,本文将介绍如何评价一个现有的文档检索系统。

一个检索系统的好坏,通常取决于其检索结果与用户查询的相关性,此外还有检索用时、检索范围等等。这里仅针对评价相关性展开讨论。

如何度量相关性?考虑如下三个待实现的要素:

当然,这个“打分标准”可能会随每个人的 信息需求 而变化(the information need is translated into a query),因此这个指标不是确定的(more than binary)。

有了以上三个基本要素,我们就可以构造出一个合理的 测试集 :包含文档集、查询集和有关评价机制。

在制定测试集的时候,往往要先标注好相关的“查询-文档”对。对于小的测试,可以采用人工标注(遍历文档集和查询集)。

但对于较大的测试集则不行(如 TREC 测试集)。此时,可以采用如下方法:

直接用已有的几个检索系统在“总的基准文档集”中检索,取出每个检索的前 n 个结果,取 并集 ,用这个“新的集合”作为“模拟基准文档集”进行标注,这样就可以大大减少范围。

可以通过随机抽样估计真实相关集的大小。

与其阅读所有的文档,不如人工用较宽泛的 Query 先得到一些检索结果,再在这些结果中标记。

有了合理的测试集,只需要用待测试 IR 查询“基准查询集”的内容,对查询结果与“查询-文档”对比较,即可得到有效性度量。

以下介绍两个在度量有效性过程中常用的变量。

在检索结果的 Top n 中,我们定义如下变量:

Precision (精度): Proportion of a retrieved set that is relevant.

Recall (召回率): Proportion of all relevant documents in the collection included in the retrieved set.

与这两个概念相关的还有 Miss (漏识率) 和 Fallout (误报率)。

对应的混淆矩阵(Confusion Matrix)如下表:

这样的计算过程没有考虑到检索结果的顺序,事实上相关文档排在前列的搜索引擎才是我们最需要的。

考虑搜索引擎返回的结果是有序的,取 Top n,则计算 P/R 的方法可以加以修正:

对检索到的文档按照 ranking 排列,顺次计算 P/R,每次计算时考虑前 k 个文档。最后会得到一组 n 个 P/R 值,再对 Top n 中的“相关文档”对应的 Precision 取平均。

上图中,我们对搜索引擎 A 和搜索引擎 B 查询了同一关键词,并取了 Top 10 的查询结果,其中各有 5 篇相关文档,经过计算可发现,A 的检索结果更优。

但是,如果我们要对同一个搜索引擎 A 用不同的关键词来查询呢?

对于不同的 query 可能 Top n 中有数量不同的相关文档,此时的 Recall 就会不一致。如果我们要计算同一 Recall 值处的精度,则需要用到插值方法。

仅用个别的 query 难以在数据巨大的文档集中得到准确的 P/R 值。因此需要考虑更多的 query,并对结果再次平均。

由此,引出两种平均的思想:

做宏平均的过程中,最重要的是将所有 query 视作平等的点。因为在微平均的过程中,我们往往只关注一些大样本、常见样本,而这些样本并不能完全体现搜索引擎的性能。而宏平均关注其他小样本、偏僻样本,这些样本的检索结果体现了搜索引擎内部的类别分布是否均匀。

这种方法也称作 MAP ( Mean Average Precision ),平均之上的平均。

如果只关注平均精度,则会隐藏检索结果的一些有效信息。如果用图表的形式呈现,则更能观察到趋势。

如果直接把 ranked retrieval 的结果画在图中,会得到一条“ 锯齿状 ”的曲线。因为在同一个召回率下,随着结果数的增长,精度是垂直向下的。

此时,如果我们想要关注曲线中的:

由于各个 query 对应的相关文档总数不同,观测到的召回率点也不同。此时就需要对离散的点用 interpolate (插值),做出连续的曲线,才能确定这些点的精度。接下来讨论如何选取适合的插值方法。

基本原则 :从 平均 来看,随着召回率的增加,精度应该是单调递减的。

基于这个原则,可以得到

即:选取“当前区间”最大的精度点,再以“召回率大于该点的区间”为“新区间”,选取最大的精度点,迭代至 100%。

最后用“ 阶梯状 ”曲线连接以上各点,可以得到单调递减的曲线。

综合考虑 P/R 值,可以计算出如下 单值评价指标

用于强调精度或召回率中的某一个指标,同时兼顾另一个指标。


根据 的取值,增大 代表强调精度的重要性,反之强调召回率。

令 ,可以得到

当 时可得到二者相同重要性的效果,此时的 具有的 物理意义 是所有相关文档 和所有检索到文档 的集合的 对称差 的基数除以两个集合的基数。

将 取补,可以得到

其中 分数则是 P/R 值的调和平均,较为平均的兼顾了二者。这是分类与信息检索中最常用的指标之一。

之所以使用 调和平均 而不是算术平均,是因为在 算术平均 中,任何一方对数值增长的贡献相当,任何一方对数值下降的责任也相当;而 调和平均 在增长的时候会偏袒较小值,也会惩罚精确率和召回率相差巨大的极端情况,很好地兼顾了精确率和召回率。

类似 和 这样的单值评价指标之所以重要,是因为这样能够更好的优化度量。此外,在文档评价中,我们还有如下指标:

定义在弱顺序文档,量化的用户查找 K 个相关文档所需工作量。这项指标计算预期用户在找到第 K 个相关文档之前,按顺序浏览搜索结果列表将要看到的非相关文档的数量。

寻找 Precision 等于 Recall 的点,通常在分类任务中用到。

对于某些 IR 系统(如问答系统或主页发现系统),只关心第一个标准答案返回的 rank,越前越好,这个位置的倒数称为 Reciprocal Rank (RR) ,对问题集合求平均,则得到 MRR。即,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。

❹ 信息检索

信息检索的作用:节省查找文献的时间
有利于查全专题文献
克服语言障碍
信息的特征 1)普遍性 客观性 抽象性 依附性 可加工性 传递性 共享性
信息的作用 (1)信息是人类社会生存的条件,信息是人类社会发展的资源
2)信息是主客体的中介,信息是思维的材料
(3)信息是组织的保证,信息的管理的基础
4)信息是决策的依据,信息是控制灵魂
1、文献的定义
记录有知识的一切载体,凡是用文字、图形、符号、声频、视频记录下来,具有存贮和传递知识功能的一切载体都称为文献。
2、文献的构成要素
(1)信息:内容
(2)载体:物质形式
(3)记录方式:将内容固定在载体上的手段
根据载体不同:印刷型,缩微型,机读型,视听型
3、文献的主要特点
(1)数量急剧增长 (2)内容交叉重复 (3)专业文献出版分散 (4)文献老化加快 (5)文献语种繁多 (6)文献载体形态增加
文献的定义:依据检索语言把大量毫无规律的一次文献系统组织起来,对文献进行报道和供人们进行文献检索的工具。
。信息检索(Information Retrieval)——是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关的信息的过程和技术。
三、检索方法
(一) 常用法1、顺查法:2、倒查法 3、抽查法:
(二)回溯方式(引文法)
三)循环法(分段法

❺ ‘IR 信息检索入门必看’#10 查询相关反馈(简明)

用户在检索信息时,通常会以一个简短的 query 开始,这样的查询往往得不到其最想要的结果。而用户会在得到结果后优化自己的 query,如:增删词项、重新赋权、加入布尔运算符等。

相关反馈 (Relevance Feedback)的主要思想就是:在信息检索的过程中通过用户交互来优化查询,从而提高最终的检索效果。我们的目的是实现一个良好的 反馈机制

为了使反馈能让 query 真正往“更好”的方向演变,需要定义评价 query 的一个指标。通常我们在 向量空间模型 中评价之,因为可以较好地表达相似度。

假设我们要找一个最优查询向量 ,它与相关文档之间的相似度最大,和不相关文档之间的相似度最小。若 表示相关文档集, 表示不相关文档集,我们希望找到的最优的是 应当满足:

其中 函数是返回使 最大的变量,相似度 的求法则采用余弦夹角, 和 采用归一化后的 单位向量 。此外,我们令:

若使 最大, 需要与 平行,且 为单位向量,故有最佳查询:

这就是说,最优的查询向量等于相关文档的质心向量和不相关文档的质心向量的差,相当于是最接近相关文档,同时最远离不相关文档。

然而,即使有了上述最佳查询的表示方法,也无法直接求出来——因为检索本来的目的就是要找相关文档,而所有的相关文档事先是未知的。

Rocchio 提出在真实的检索情景中,我们可以利用已检索到的部分相关文档 和不相关文档 ,逐步修改原始的查询向量:

修改后的新查询从 开始,向着相关文档的质心向量靠近了一段距离,而同时又与不相关文档的质心向量远离了一段距离——更加接近最优查询了。通过不断迭代,可以观察到查询效果确实有显着的提升。

通常情况下,反馈可分为以下两种:

在真实相关反馈中,用户往往不愿意主动提供反馈信息(如标记相关或不相关文档),于是搜索引擎收集用户的 间接反馈

而点击流数据则是这个领域最常用的一种反馈,可以在不干扰用户的情况下大量收集(此外还有一种补充用户行为信息的方法是眼动追踪)。

同一搜索结果中,用户进行点击浏览的结果被认为是相关的,或者说是“用户更 偏好 的”。如果用户查看了每个搜索引擎下面显示的文本短摘要后,决定跳过它并点击在排序中低于它的结果,就可以说用户相对更喜欢这个被点击的结果。

在假设相关反馈中,还可分为两种基本方法:

同义词典构建的代价十分昂贵,通常考虑用 上下文和短语结构 进行分析获得。而如果把这个思想用于局部分析,则诞生了 LCA 方法:一种聚焦于从反馈结果中筛选出与 query 相关性更高的 term,再用这些 term 扩展 query 重新检索的方法。

大致的步骤如下:

相关反馈信息,包括前述文章中提到的相关度、重要度,其实只是 IR 中许多因子的冰山一角。实际中可能还有若干、数十个因子,这些因子最后会加权构成一个统一的 指标函数

这个指标函数的输入是数据集(包括查询和文档集),输出是最终检索出的 ranklist。如何构造这样一个复杂的函数呢?

对于构造函数,人们最原始的想法通常是拟合所有 <query, ranklist> 点,但是这显然不适用于这种规模的问题。

过去的 IR 系统较少用到机器学习,是因为缺乏训练集,特别是在真实世界中得到的数据集(而不是学术论文中),因为很难收集到用户检索的真实需求和对返回文档的相关反馈。

此外,过去的 IR 系统往往只使用少量的 特征 (feature),如词项频率、逆文档频率、term 出现的位置等。

少量的特征带来的是构造函数的便利。而随着现在网络的发展、算力的提升,大家开始关注数据集中大量的特征,并尝试用机器学习使用这些特征。

定义 loss function ,其中 是基于用户反馈得到的“标准排名”, 是通过拟合的排序函数 F 计算出的“模拟排名”。我们要寻找到一个 F 使得损失最小——这就是机器学习的目标。

下面以一个例子说明机器学习在 IR 中的应用。考虑查询中的 term 出现在文档的 title (标题) 或 body (正文) 中对返回结果排名的影响。

为此,我们需要对 term 出现的四种情况分别打分:

其中 和 函数是关于 term 是否存在于文档对应位置的布尔函数(0/1),故 score 的结果只有 0, g , 1- g , 1 四种。我们要求的就是权重 g

在第 j 个查询中,我们对检索结果中的文档 i 定义如下 损失函数

这里简单的定义 r 函数是关于二者是否相关的布尔函数(0/1),使用平方误差是为了让结果更连续。

在训练集中,我们标注出所有结果的 、 和 r 函数的取值——八种情况,并分别统计其次数。例如, 表示 且相关的例子, 表示 且不相关的例子,其平方误差之和为:

同样的,我们对其他三组也进行计算后相加,化简可得:

要求这个函数的极小值,只需用对关于 g 的导数求零点即可。如果考虑更多的变量,则需要求 偏导 ,再用拉格朗日常数法等数值分析方法。

❻ 如何利用信息检索省钱论文

可以利用信息检索省钱论文关键词搜索,口语化搜索转化为关键词搜索口语化来搜索省钱论文。

限定特定网站(site),site:将搜索范围限定在特定站点中,你如果知道某个站点中有自己需要的东西,就可以把搜索范围限定在这个站点中,提高查询效率。

限定文件类型(filetype),这个命令在搜索专业文档、资料时很好用如:很多专业文档都是pdf、ppt、doc、jpg格式。

限定时间(20XX..20XX),用时间语句20xx—20xx实现特定时间内的关键词搜索。减去某关键词(减号-),用“—”排除特定关键词。

将关键词限定在标题中(intitle),这样可以避免网络找到许多零零散散,相关度很低的内容,大大提高搜索效率。

信息检索(Information Retrieval),是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。

信息检索起源于图书馆的参考咨询和文摘索引工作。信息检索方法包括,普通法、追溯法和分段法。

网络信息搜索

信息是当今社会的重要资源,网络信息搜索是当代人的一项重要信息能力。《网络信息搜索》是北京市朝阳区教育研究中心所承担课题的阶段性成果,作者结合多年的基层教学经验,针对青少年的知识需求和能力培养,系统介绍网络信息搜索的知识与技巧。

《网络信息搜索》分为9章,由浅入深、循序渐进地介绍文字、图像、日常生活等各类信息的搜索方法。《网络信息搜索》注重解决问题的思路分析,配有精心设计的学习任务和练习题,教学任务力求从解决实际问题出发,以培养学生进行网络信息搜索的综合实践能力。

《网络信息搜索》是中国儿童青少年计算机表演赛配套辅导用书,在每章“竞赛链接”部分配有表演赛精选试题,同时可作为中小学信息技术等相关课程的教材和参考书。

以上内容参考 网络-网络信息搜索

❼ 信息检索

第一章
信息:信息是事物存在的方式,运动状态及其特征的反映,是事物发出的信号,消息
信息的特征:载体依附性 无线共享性 永不枯竭性 开发增值性 应用时效性 存在普遍性
知识:知识是信息的升华和结果,系统化理论化的的信息就称为就称为知识
文献:用一定的方式记录在一定的载体上的知识都称之为文献
信息源:个人为满足信息的需要而获得信息来源称之为信息源
文献信息源分为:图书 期刊 学位论文 科技报告 专利文献 标准文献 产品样本 会议文献 政府出版物
零次文献:未经出版发行或者未进入社会交流的最原始的文献
一次文献:以作者本人取得的成果为依据而创作的作文 报告等公开发表或出版的各种文献
二次文献:按照特定的目的进行筛选,即所谓用一定的检索工具进行过加工的文献
三次文献:根据二次文献提供的线索,选用大量一次文献的内容,经过筛选 分类 综合和浓缩而再度出版的文献
信息素养:能认识到何时需要信息和有效的搜索 评估和使用所需要信息的能力
医学信息素养包括: 信息意识 信息知识 信息能力 信息道德
信息检索:信息检索包括信息储存和信息获取两个过程
信息检索的类型:文献检索 事实检索 数据检索

第二章

数据库由文档 记录和字段组成
信息检索的途径:分类途径 主题途径 关键词途径 着者途径 题名途径 号码途径
信息检索技术:布尔逻辑检索 截词检索 位置检索 限定字段检索
信息检索的策略:一分析检索课题,明白目的和要求 二,检索系统和数据库的选择 三选择检索途径 确定检索标识 四 编制检索表达式 调整检索策略 五 获取原始文献
信息检索的基本要求:全面 准确 快速
查全率与查准率是评价检索效果的两项重要指标

提高检索效果的措施:
查准率:表示检出的文献中所需要相关文献所占的比例。查全率:表示检出的相关的文献与全部文献库中实际存储的相关文献的比例
1.提高查全率的措施:尽量采取主题词语关键词相结合进行检索 主题词检索时要进行扩展检索和使用全部副主题词检索 分类检索时要进行扩展检索和全部复分检索 删除某个不甚重要的概念组面,减少AND运算 多用同义词进行“OR”运算检索 采用截词检索
2.提高查准率的的措施:采用规范化的主题词与副主题词组配进行检索,少用或不用自由词 采用限定主要概念主题词字段的加权方式进行检索 增加概念组面,用AND运算符进行连接 用NOT算符排除无关概念 限制检索字段 如文献类型 语种 作者 刊名等 调整放宽位置算符等

3信息检索的作用
信息检索是信息素养教育的主要内容
信息检索是创新型人才的基本技能
信息检索是科学研究的重要环节
信息检索是开发信息资源的重要途径
信息检索是科学决策的重要前提。

阅读全文

与信息检索简明一共多少章相关的资料

热点内容
易语言程序报毒怎么解决不报毒 浏览:369
二手书交易软件有哪些 浏览:78
北京有什么事业单位招聘的信息 浏览:492
车床程序启动不了怎么回事 浏览:292
为什么有交易系统还不能盈利 浏览:683
教师口语的技术技巧有哪些 浏览:477
现货交易一千块能赚多少 浏览:464
现在学个什么技术不错 浏览:104
一个产品多种状态怎么体现 浏览:990
巧人秀产品如何 浏览:368
泰尔制药的产品有哪些 浏览:428
北京果蔬消毒器代理商有哪些 浏览:786
it技术教育哪里好 浏览:849
资质和信用信息系统怎么下载 浏览:405
如何做一个物流信息部 浏览:873
审核中的小程序在哪里 浏览:399
友爱职业技术学院多少个班 浏览:515
代理商是怎么工作的 浏览:638
哪里能查业主信息 浏览:271
程序员吃什么提升自己 浏览:295