❶ 信息檢索是什麼
《信息檢索》是在2006年科學出版社出版的圖書,作者是徐天秀。
內容簡介
本書立足於介紹現代信息檢索的方法與技術,在對信息檢索基本知識、信息檢索工具及系統進行了全面闡述的基礎上,重點介紹了國內外重要電子信息資源、網路信息資源的檢索與利用,也對部分重要的印刷型檢索工具書進行了介紹,為讀者提供了較全面的信息檢索知識。
本書是一本工具型書籍,提供的信息檢索學科範圍廣,內容盡量以最新版本為主,是一本適用性強的學習信息檢索方法和技巧的專著。
本書既可作為師范院校、綜合性院校及理工科院校的本科生、研究生的教材,又可作為教學、科研及各界信息用戶的參考工具書。
前言
信息社會,人們把信息、物質與能量一起稱為人類社會賴以生存發展的三大要素。信息是促進社會經濟、科學技術以及人類生活向前發展的重要因素。一個國家的科技進步和社會發展越來越取決於對信息的開發與利用,誰能充分開發和有效地利用信息資源,誰就能搶占科學技術發展的制高點。
社會的信息化環境使社會對人才的要求更高,信息素質成為現代化人才必備的基本素質之一。當今,信息呈爆炸式增長,不僅如此,信息載體也發生了巨大的變化,除傳統紙介質信息外,每天都有大量的磁載體信息、電子版信息及各類網上信息涌現出來,這些浩如煙海的信息的多樣性、離散性與無序性及其復雜的檢索界面和使用方法,增加了信息利用的難度,極大地影響了人們獲取信息的質量與效率。
1984年,教育部就提出在大學生中開設"文獻檢索與利用"課程,"信息檢索"是該課程的延續和發展,其目的就是培養學生的信息素質,使學生在增強信息意識的基礎上,熟悉檢索工具和系統,掌握信息檢索的方法和技巧,提高自學能力,激發創新能力。為此,我們在長期信息檢索課教學的基礎上總結經驗,並博採各類相關教材之精華,編寫了《信息檢索》一書。
本教材以師范類專業為主要介紹對象,並兼顧其他各學科專業,因此,所介紹的專業信息檢索,學科門類較齊全。其特點如下:
(1)根據師范院校綜合性和多學科特點,注意介紹了師范專業所涉及的絕大部分學科和專業的信息檢索。
(2)電子版檢索工具具有方便、快捷地獲取信息的優點,深受用戶喜歡。電子版檢索系統和工具越來越多,各個學科都出版了不少資料庫,為了突出電子版檢索工具,本教材特意把"綜合性電子信息資源的利用"設為一章。
(3)相對而言,社會科學信息檢索部分的電子信息資源出版物不多,該章節電子信息資源的利用部分就置於檢索工具書之後介紹;自然科學部分介紹的幾種常用的檢索工具書都有其對應的電子版,為達到推薦電子資源的作用,故先介紹電子版,然後是相對應的印刷型檢索工具。
(4)中國絕大多數圖書館已經實現了管理自動化和網路化,為幫助讀者有效地利用現代化圖書館資源,我們專門以"現代化圖書館及其利用介紹"為一章,幫助讀者了解現代化圖書館,達到有效利用館藏文獻資源的目的。
❷ 文獻信息檢索的目錄
第1章 緒論
第2章 中文全文資料庫檢索
第3章 常用中文電子圖書及電子報紙
第4章 常用國外全文資料庫
第5章 常用外文文摘資料庫
第6章 特種文獻檢索
第7章 網路信息檢索與利用
參考文獻
……
❸ 『IR 信息檢索入門必看』#5 檢索系統評價(簡明)
前述文章介紹了幾種基本信息檢索模型,本文將介紹如何評價一個現有的文檔檢索系統。
一個檢索系統的好壞,通常取決於其檢索結果與用戶查詢的相關性,此外還有檢索用時、檢索范圍等等。這里僅針對評價相關性展開討論。
如何度量相關性?考慮如下三個待實現的要素:
當然,這個「打分標准」可能會隨每個人的 信息需求 而變化(the information need is translated into a query),因此這個指標不是確定的(more than binary)。
有了以上三個基本要素,我們就可以構造出一個合理的 測試集 :包含文檔集、查詢集和有關評價機制。
在制定測試集的時候,往往要先標注好相關的「查詢-文檔」對。對於小的測試,可以採用人工標注(遍歷文檔集和查詢集)。
但對於較大的測試集則不行(如 TREC 測試集)。此時,可以採用如下方法:
直接用已有的幾個檢索系統在「總的基準文檔集」中檢索,取出每個檢索的前 n 個結果,取 並集 ,用這個「新的集合」作為「模擬基準文檔集」進行標注,這樣就可以大大減少范圍。
可以通過隨機抽樣估計真實相關集的大小。
與其閱讀所有的文檔,不如人工用較寬泛的 Query 先得到一些檢索結果,再在這些結果中標記。
有了合理的測試集,只需要用待測試 IR 查詢「基準查詢集」的內容,對查詢結果與「查詢-文檔」對比較,即可得到有效性度量。
以下介紹兩個在度量有效性過程中常用的變數。
在檢索結果的 Top n 中,我們定義如下變數:
Precision (精度): Proportion of a retrieved set that is relevant.
Recall (召回率): Proportion of all relevant documents in the collection included in the retrieved set.
與這兩個概念相關的還有 Miss (漏識率) 和 Fallout (誤報率)。
對應的混淆矩陣(Confusion Matrix)如下表:
這樣的計算過程沒有考慮到檢索結果的順序,事實上相關文檔排在前列的搜索引擎才是我們最需要的。
考慮搜索引擎返回的結果是有序的,取 Top n,則計算 P/R 的方法可以加以修正:
對檢索到的文檔按照 ranking 排列,順次計算 P/R,每次計算時考慮前 k 個文檔。最後會得到一組 n 個 P/R 值,再對 Top n 中的「相關文檔」對應的 Precision 取平均。
上圖中,我們對搜索引擎 A 和搜索引擎 B 查詢了同一關鍵詞,並取了 Top 10 的查詢結果,其中各有 5 篇相關文檔,經過計算可發現,A 的檢索結果更優。
但是,如果我們要對同一個搜索引擎 A 用不同的關鍵詞來查詢呢?
對於不同的 query 可能 Top n 中有數量不同的相關文檔,此時的 Recall 就會不一致。如果我們要計算同一 Recall 值處的精度,則需要用到插值方法。
僅用個別的 query 難以在數據巨大的文檔集中得到准確的 P/R 值。因此需要考慮更多的 query,並對結果再次平均。
由此,引出兩種平均的思想:
做宏平均的過程中,最重要的是將所有 query 視作平等的點。因為在微平均的過程中,我們往往只關注一些大樣本、常見樣本,而這些樣本並不能完全體現搜索引擎的性能。而宏平均關注其他小樣本、偏僻樣本,這些樣本的檢索結果體現了搜索引擎內部的類別分布是否均勻。
這種方法也稱作 MAP ( Mean Average Precision ),平均之上的平均。
如果只關注平均精度,則會隱藏檢索結果的一些有效信息。如果用圖表的形式呈現,則更能觀察到趨勢。
如果直接把 ranked retrieval 的結果畫在圖中,會得到一條「 鋸齒狀 」的曲線。因為在同一個召回率下,隨著結果數的增長,精度是垂直向下的。
此時,如果我們想要關注曲線中的:
由於各個 query 對應的相關文檔總數不同,觀測到的召回率點也不同。此時就需要對離散的點用 interpolate (插值),做出連續的曲線,才能確定這些點的精度。接下來討論如何選取適合的插值方法。
基本原則 :從 平均 來看,隨著召回率的增加,精度應該是單調遞減的。
基於這個原則,可以得到
即:選取「當前區間」最大的精度點,再以「召回率大於該點的區間」為「新區間」,選取最大的精度點,迭代至 100%。
最後用「 階梯狀 」曲線連接以上各點,可以得到單調遞減的曲線。
綜合考慮 P/R 值,可以計算出如下 單值評價指標 。
用於強調精度或召回率中的某一個指標,同時兼顧另一個指標。
根據 的取值,增大 代表強調精度的重要性,反之強調召回率。
令 ,可以得到
當 時可得到二者相同重要性的效果,此時的 具有的 物理意義 是所有相關文檔 和所有檢索到文檔 的集合的 對稱差 的基數除以兩個集合的基數。
將 取補,可以得到
其中 分數則是 P/R 值的調和平均,較為平均的兼顧了二者。這是分類與信息檢索中最常用的指標之一。
之所以使用 調和平均 而不是算術平均,是因為在 算術平均 中,任何一方對數值增長的貢獻相當,任何一方對數值下降的責任也相當;而 調和平均 在增長的時候會偏袒較小值,也會懲罰精確率和召回率相差巨大的極端情況,很好地兼顧了精確率和召回率。
類似 和 這樣的單值評價指標之所以重要,是因為這樣能夠更好的優化度量。此外,在文檔評價中,我們還有如下指標:
定義在弱順序文檔,量化的用戶查找 K 個相關文檔所需工作量。這項指標計算預期用戶在找到第 K 個相關文檔之前,按順序瀏覽搜索結果列表將要看到的非相關文檔的數量。
尋找 Precision 等於 Recall 的點,通常在分類任務中用到。
對於某些 IR 系統(如問答系統或主頁發現系統),只關心第一個標准答案返回的 rank,越前越好,這個位置的倒數稱為 Reciprocal Rank (RR) ,對問題集合求平均,則得到 MRR。即,把標准答案在被評價系統給出結果中的排序取倒數作為它的准確度,再對所有的問題取平均。
❹ 信息檢索
信息檢索的作用:節省查找文獻的時間
有利於查全專題文獻
克服語言障礙
信息的特徵 1)普遍性 客觀性 抽象性 依附性 可加工性 傳遞性 共享性
信息的作用 (1)信息是人類社會生存的條件,信息是人類社會發展的資源
2)信息是主客體的中介,信息是思維的材料
(3)信息是組織的保證,信息的管理的基礎
4)信息是決策的依據,信息是控制靈魂
1、文獻的定義
記錄有知識的一切載體,凡是用文字、圖形、符號、聲頻、視頻記錄下來,具有存貯和傳遞知識功能的一切載體都稱為文獻。
2、文獻的構成要素
(1)信息:內容
(2)載體:物質形式
(3)記錄方式:將內容固定在載體上的手段
根據載體不同:印刷型,縮微型,機讀型,視聽型
3、文獻的主要特點
(1)數量急劇增長 (2)內容交叉重復 (3)專業文獻出版分散 (4)文獻老化加快 (5)文獻語種繁多 (6)文獻載體形態增加
文獻的定義:依據檢索語言把大量毫無規律的一次文獻系統組織起來,對文獻進行報道和供人們進行文獻檢索的工具。
。信息檢索(Information Retrieval)——是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需求找出相關的信息的過程和技術。
三、檢索方法
(一) 常用法1、順查法:2、倒查法 3、抽查法:
(二)回溯方式(引文法)
三)循環法(分段法
❺ 『IR 信息檢索入門必看』#10 查詢相關反饋(簡明)
用戶在檢索信息時,通常會以一個簡短的 query 開始,這樣的查詢往往得不到其最想要的結果。而用戶會在得到結果後優化自己的 query,如:增刪詞項、重新賦權、加入布爾運算符等。
相關反饋 (Relevance Feedback)的主要思想就是:在信息檢索的過程中通過用戶交互來優化查詢,從而提高最終的檢索效果。我們的目的是實現一個良好的 反饋機制 。
為了使反饋能讓 query 真正往「更好」的方向演變,需要定義評價 query 的一個指標。通常我們在 向量空間模型 中評價之,因為可以較好地表達相似度。
假設我們要找一個最優查詢向量 ,它與相關文檔之間的相似度最大,和不相關文檔之間的相似度最小。若 表示相關文檔集, 表示不相關文檔集,我們希望找到的最優的是 應當滿足:
其中 函數是返回使 最大的變數,相似度 的求法則採用餘弦夾角, 和 採用歸一化後的 單位向量 。此外,我們令:
若使 最大, 需要與 平行,且 為單位向量,故有最佳查詢:
這就是說,最優的查詢向量等於相關文檔的質心向量和不相關文檔的質心向量的差,相當於是最接近相關文檔,同時最遠離不相關文檔。
然而,即使有了上述最佳查詢的表示方法,也無法直接求出來——因為檢索本來的目的就是要找相關文檔,而所有的相關文檔事先是未知的。
Rocchio 提出在真實的檢索情景中,我們可以利用已檢索到的部分相關文檔 和不相關文檔 ,逐步修改原始的查詢向量:
修改後的新查詢從 開始,向著相關文檔的質心向量靠近了一段距離,而同時又與不相關文檔的質心向量遠離了一段距離——更加接近最優查詢了。通過不斷迭代,可以觀察到查詢效果確實有顯著的提升。
通常情況下,反饋可分為以下兩種:
在真實相關反饋中,用戶往往不願意主動提供反饋信息(如標記相關或不相關文檔),於是搜索引擎收集用戶的 間接反饋 。
而點擊流數據則是這個領域最常用的一種反饋,可以在不幹擾用戶的情況下大量收集(此外還有一種補充用戶行為信息的方法是眼動追蹤)。
同一搜索結果中,用戶進行點擊瀏覽的結果被認為是相關的,或者說是「用戶更 偏好 的」。如果用戶查看了每個搜索引擎下面顯示的文本短摘要後,決定跳過它並點擊在排序中低於它的結果,就可以說用戶相對更喜歡這個被點擊的結果。
在假設相關反饋中,還可分為兩種基本方法:
同義詞典構建的代價十分昂貴,通常考慮用 上下文和短語結構 進行分析獲得。而如果把這個思想用於局部分析,則誕生了 LCA 方法:一種聚焦於從反饋結果中篩選出與 query 相關性更高的 term,再用這些 term 擴展 query 重新檢索的方法。
大致的步驟如下:
相關反饋信息,包括前述文章中提到的相關度、重要度,其實只是 IR 中許多因子的冰山一角。實際中可能還有若干、數十個因子,這些因子最後會加權構成一個統一的 指標函數 。
這個指標函數的輸入是數據集(包括查詢和文檔集),輸出是最終檢索出的 ranklist。如何構造這樣一個復雜的函數呢?
對於構造函數,人們最原始的想法通常是擬合所有 <query, ranklist> 點,但是這顯然不適用於這種規模的問題。
過去的 IR 系統較少用到機器學習,是因為缺乏訓練集,特別是在真實世界中得到的數據集(而不是學術論文中),因為很難收集到用戶檢索的真實需求和對返迴文檔的相關反饋。
此外,過去的 IR 系統往往只使用少量的 特徵 (feature),如詞項頻率、逆文檔頻率、term 出現的位置等。
少量的特徵帶來的是構造函數的便利。而隨著現在網路的發展、算力的提升,大家開始關注數據集中大量的特徵,並嘗試用機器學習使用這些特徵。
定義 loss function ,其中 是基於用戶反饋得到的「標准排名」, 是通過擬合的排序函數 F 計算出的「模擬排名」。我們要尋找到一個 F 使得損失最小——這就是機器學習的目標。
下面以一個例子說明機器學習在 IR 中的應用。考慮查詢中的 term 出現在文檔的 title (標題) 或 body (正文) 中對返回結果排名的影響。
為此,我們需要對 term 出現的四種情況分別打分:
其中 和 函數是關於 term 是否存在於文檔對應位置的布爾函數(0/1),故 score 的結果只有 0, g , 1- g , 1 四種。我們要求的就是權重 g 。
在第 j 個查詢中,我們對檢索結果中的文檔 i 定義如下 損失函數 :
這里簡單的定義 r 函數是關於二者是否相關的布爾函數(0/1),使用平方誤差是為了讓結果更連續。
在訓練集中,我們標注出所有結果的 、 和 r 函數的取值——八種情況,並分別統計其次數。例如, 表示 且相關的例子, 表示 且不相關的例子,其平方誤差之和為:
同樣的,我們對其他三組也進行計算後相加,化簡可得:
要求這個函數的極小值,只需用對關於 g 的導數求零點即可。如果考慮更多的變數,則需要求 偏導 ,再用拉格朗日常數法等數值分析方法。
❻ 如何利用信息檢索省錢論文
可以利用信息檢索省錢論文關鍵詞搜索,口語化搜索轉化為關鍵詞搜索口語化來搜索省錢論文。
限定特定網站(site),site:將搜索范圍限定在特定站點中,你如果知道某個站點中有自己需要的東西,就可以把搜索范圍限定在這個站點中,提高查詢效率。
限定文件類型(filetype),這個命令在搜索專業文檔、資料時很好用如:很多專業文檔都是pdf、ppt、doc、jpg格式。
限定時間(20XX..20XX),用時間語句20xx—20xx實現特定時間內的關鍵詞搜索。減去某關鍵詞(減號-),用「—」排除特定關鍵詞。
將關鍵詞限定在標題中(intitle),這樣可以避免網路找到許多零零散散,相關度很低的內容,大大提高搜索效率。
信息檢索(Information Retrieval),是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。
信息檢索起源於圖書館的參考咨詢和文摘索引工作。信息檢索方法包括,普通法、追溯法和分段法。
網路信息搜索
信息是當今社會的重要資源,網路信息搜索是當代人的一項重要信息能力。《網路信息搜索》是北京市朝陽區教育研究中心所承擔課題的階段性成果,作者結合多年的基層教學經驗,針對青少年的知識需求和能力培養,系統介紹網路信息搜索的知識與技巧。
《網路信息搜索》分為9章,由淺入深、循序漸進地介紹文字、圖像、日常生活等各類信息的搜索方法。《網路信息搜索》注重解決問題的思路分析,配有精心設計的學習任務和練習題,教學任務力求從解決實際問題出發,以培養學生進行網路信息搜索的綜合實踐能力。
《網路信息搜索》是中國兒童青少年計算機表演賽配套輔導用書,在每章「競賽鏈接」部分配有表演賽精選試題,同時可作為中小學信息技術等相關課程的教材和參考書。
以上內容參考 網路-網路信息搜索
❼ 信息檢索
第一章
信息:信息是事物存在的方式,運動狀態及其特徵的反映,是事物發出的信號,消息
信息的特徵:載體依附性 無線共享性 永不枯竭性 開發增值性 應用時效性 存在普遍性
知識:知識是信息的升華和結果,系統化理論化的的信息就稱為就稱為知識
文獻:用一定的方式記錄在一定的載體上的知識都稱之為文獻
信息源:個人為滿足信息的需要而獲得信息來源稱之為信息源
文獻信息源分為:圖書 期刊 學位論文 科技報告 專利文獻 標准文獻 產品樣本 會議文獻 政府出版物
零次文獻:未經出版發行或者未進入社會交流的最原始的文獻
一次文獻:以作者本人取得的成果為依據而創作的作文 報告等公開發表或出版的各種文獻
二次文獻:按照特定的目的進行篩選,即所謂用一定的檢索工具進行過加工的文獻
三次文獻:根據二次文獻提供的線索,選用大量一次文獻的內容,經過篩選 分類 綜合和濃縮而再度出版的文獻
信息素養:能認識到何時需要信息和有效的搜索 評估和使用所需要信息的能力
醫學信息素養包括: 信息意識 信息知識 信息能力 信息道德
信息檢索:信息檢索包括信息儲存和信息獲取兩個過程
信息檢索的類型:文獻檢索 事實檢索 數據檢索
第二章
資料庫由文檔 記錄和欄位組成
信息檢索的途徑:分類途徑 主題途徑 關鍵詞途徑 著者途徑 題名途徑 號碼途徑
信息檢索技術:布爾邏輯檢索 截詞檢索 位置檢索 限定欄位檢索
信息檢索的策略:一分析檢索課題,明白目的和要求 二,檢索系統和資料庫的選擇 三選擇檢索途徑 確定檢索標識 四 編制檢索表達式 調整檢索策略 五 獲取原始文獻
信息檢索的基本要求:全面 准確 快速
查全率與查准率是評價檢索效果的兩項重要指標
提高檢索效果的措施:
查准率:表示檢出的文獻中所需要相關文獻所佔的比例。查全率:表示檢出的相關的文獻與全部文獻庫中實際存儲的相關文獻的比例
1.提高查全率的措施:盡量採取主題詞語關鍵詞相結合進行檢索 主題詞檢索時要進行擴展檢索和使用全部副主題詞檢索 分類檢索時要進行擴展檢索和全部復分檢索 刪除某個不甚重要的概念組面,減少AND運算 多用同義詞進行「OR」運算檢索 採用截詞檢索
2.提高查准率的的措施:採用規范化的主題詞與副主題片語配進行檢索,少用或不用自由詞 採用限定主要概念主題詞欄位的加權方式進行檢索 增加概念組面,用AND運算符進行連接 用NOT算符排除無關概念 限制檢索欄位 如文獻類型 語種 作者 刊名等 調整放寬位置算符等
3信息檢索的作用
信息檢索是信息素養教育的主要內容
信息檢索是創新型人才的基本技能
信息檢索是科學研究的重要環節
信息檢索是開發信息資源的重要途徑
信息檢索是科學決策的重要前提。