導航:首頁 > 信息系統 > 什麼是存儲和檢索信息的核心

什麼是存儲和檢索信息的核心

發布時間:2023-08-10 16:55:08

⑴ 信息檢索重點

問答題

1.簡述信息、知識、文獻的概念及其三者之間的關系。
1.答:信息:是事物存在方式、運動狀態及其特徵的反映,是事物發出的信號、消息。
知識:是人類對自然界、人類社會中各種現象、規律的信息反映進行思維分析,加工提煉,經過系統化、理論化的結果。
文獻:記錄有知識的一切載體
三者從概念范疇上看,信息大於知識大於文獻,知識是信息的一部分,是理論化系統化的信息,文獻是知識中記載下來的那部分。

2.文獻按載體形式不同分為哪幾種類型,並舉例說明。
2.答:文獻按載體形式的不同分為:
手寫型文獻,如甲骨文、金文
印刷型文獻,如圖書、期刊
縮微型文獻,如縮微膠卷、縮微膠片
視聽型文獻,如錄像帶、錄音帶、科技電影
電子型文獻,如資料庫文獻和網路文獻

3.文獻的級別及其相互關系。
3.答:文獻按照加工程度不同分為零次、一次、二次和三次文獻四種。
其中零次文獻是指未公開出版的實驗記錄、原始錄音(像)、書信、手稿、口頭交流的信息或實物等;零次文獻在作者的加工處理後公開出版進入社會流通領域就變成一次文獻;根據一次文獻的各種特徵按照一定的規則和方法對其進行整理、加工、濃縮,後形成的文獻就是二次文獻;利用二次文獻線索對大量的一次文獻內容進行綜合、分析、加工、提煉後形成的文獻就是三次文獻。

4.在計算機檢索中,如何縮小檢索范圍?
4.答:在計算機檢索中,縮小檢索范圍的方法包括:
(1)增加用and連接的檢索詞,或用「二次檢索」
(2)用特定的副主題詞進行限定
(3)用欄位限定檢索,如標題詞檢索、主題詞檢索、加權檢索等
(4)進行文獻類型、語種、重要期刊、臨床核心期刊、年份等的限定檢索
(5)進入更專指的分類范圍內輸詞檢索

5.獲取文獻全文的方法有哪些?
5.答:獲取全文的方法包括:
(1)檢索網上全文資料庫
(2)利用網上出版社、雜志
(3)利用圖書館館藏目錄(館藏聯合目錄)
(4)利用「網上全文傳遞服務」
(5)向著者索取

6.常用的檢索途徑有哪些?
6.答:常用的檢索途徑包括:
自由詞檢索、主題詞檢索、分類檢索、著者檢索、機構檢索、引文檢索、限定檢索等

7.簡述信息檢索的原理
7.答:信息檢索的原理是:將描述特定用戶所需信息的提問特徵,與信息存儲的檢索標識進行異同的比較,從中找出與提問特徵一致或基本一致的信息。本質是用戶的信息需求與存儲在信息集合中的信息進行比較和選擇, 即匹配的過程。

8.計算機檢索通常包括哪些步驟?
8.答:信息檢索的步驟包括:
(1)分析檢索課題,明確目的和要求
(2)選擇合適的檢索工具
(3)選擇檢索途徑,確定檢索標識。
(4)查找文獻線索。
(5)瀏覽檢索結果,獲取原始文獻。

9. 簡述IM主題索引的編排規則。
9.答:主題索引的排列規則如下
(1)整個索引按主題詞字順排
(2)同一主題詞下按副主題詞字順排
(3)相關內容的文獻題錄分別納入相應的主題詞或者主題詞/副主題詞之下;一般總論性文獻直接入主題詞下,專指性文獻入相應的副主題詞下;同一文獻題錄可入多個主題詞之下
(4)同一主題詞或副主題詞下的文獻題錄,先排列英文文獻,後排列非英文文獻,非英文文獻的英譯標題用"[ ]"括起,以示區別
(5)英文文獻按刊名縮寫字順排
(6)非英文文獻先按文種縮寫字順排,同一文種下按刊名縮寫字順排。

10.《醫學主題詞表》(MeSH)字順表的參照系統有哪幾種?舉例說明其意義。
10.答:第一組:用代參照,用於處理詞與詞間的等同關系。在MeSH詞表中,對於多個同義詞只採用其中一個比較科學而通用的詞作規范化主題詞,其它的詞作為非主題詞(即款目詞)。用「款目詞see主題詞」和「主題詞X款目詞」表示。如:Cancer see Neoplasms Neoplasms X Cancer
第二組:屬分參照,用於處理詞與詞之間的等級關系,即整體與部分,上位概念與下位概念之間的關系。如某些范疇較小的主題概念主題詞,包含在某些范疇較大的主題詞之下,內容範圍較廣的詞是主題詞,其下的內容範圍較窄的詞不作主題詞,只作為次要主題詞。用「次要主題詞see under 主題詞」和「主題詞XU 次要主題詞」表示。如:Health Priorities see under Health Planning Health Planning XU Health Priorities 從1991年開始取消此種參照關系,所有次要主題詞升格為主題詞。
第三組:相關參照,用於處理詞間的相關關系,達到擴大檢索,提高查全率的目的。用「主題詞see related 主題詞」和「主題詞XR主題詞」表示。如:Population Control see related Family Planning Family Planning XR Population Control
為提高查全率和方便檢索,MeSH詞表於1991年和1992年又先後增設了「還應考慮參照(consider also)」和「主題詞/副主題片語配參照」。

11.按照存儲內容的不同,資料庫通常分為哪些類型?
11.答:書目資料庫、事實資料庫、數值資料庫、全文資料庫、圖像資料庫

12.什麼叫主題詞的擴展檢索,它的優越性何在?
12.答:選擇主題詞的擴展功能可以同時檢索主題詞和它的所有下位詞,這樣就可檢出用所選主題詞和更專指主題詞標引的所有文獻,可以更好的提高檢索的查全率。不擴展的情況下只會檢出用所選主題詞標引的文獻,不會檢出它的下位詞,即那些更專指主題詞標引的文獻。

13.什麼是查全率和查准率,二者之間有何關系?
13.答:查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實用的相關文獻量在多大程度上被檢索出來。
查全率=【檢出相關文獻量/文獻庫內相關文獻總量】×100%
查准率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。
查准率=【檢出相關文獻量/檢出文獻總量】×100%
查全率與查准率是呈互逆關系的。要想做到查全,勢必會要對檢索范圍和限制逐步放寬,則結果是會把很多不相關的文獻也帶進來,影響了查准率。企圖是查全率和查准率都同時提高,不是很容易的。強調一方面,忽視另一方面,也是不妥當的。應當根據具體課題的要求,合理調節查全率和查准率,保證檢索效果。

14.影響查全率和查准率的因素有哪些?
14.答:(1)影響查全率的因素
影響查全率的因素從文獻存儲上來看,主要有:文獻庫收錄文獻不全;索引詞彙缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前後不一致;標引人員遺漏了原文的重要概念和用詞不當等。此外,從情報檢索來看,主要有:檢索策略過於簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟悉和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。
(2)影響查准率的因素
影響查准率的因素主要有:索引詞不能准確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關系不正確;標引過於詳盡;組配錯誤;檢索時所使用檢索詞專指度不夠,檢索麵寬於檢索要求;檢索系統不具備邏輯「非」功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯「或」不當等。

15.獨立型搜索引擎的工作原理是什麼?
15.答:獨立式搜索引擎的工作原理是:
定期運行搜索軟體(或人工),搜集網路信息。
利用索引軟體進行自動標引,建立資料庫。
以Web頁面形式向用戶提供有關的信息資源導航、目錄索引及檢索界面,由用戶輸入檢索式。
通過檢索軟體進行檢索,匹配,按相關度排序輸出。

16.如何提高檢索的查全率?
16.答:提高查全率的方法:
(1)降低檢索詞的專指度,選出一些上位詞和相關詞補充到檢索式中。
(2)調節檢索式的網羅度,減少邏輯「與」的組配面。
(3)進行族性檢索,可採用分類檢索,或用一組同義詞、近義詞和相關詞,用「或」連接在檢索式中。
(4)採用截詞技術,取消某些限制過嚴的限制符。

17.如何提高檢索的查准率?
17.答:提高查准率的方法:
(1)提高檢索詞的專指度,換用專指度較強的規范詞或自由詞。
(2)增加「與」連接,進一步限定主題概念。
(3)限定檢索詞所在的可檢欄位,用位置算符控制檢索詞的詞間順序與位置。
(4)限制輸出文獻的外部特徵,如限制年限、語種、文獻類型等。
(5)用邏輯「非」限制與提問不相關的文獻的輸出。
(6)用主題詞檢索,不用或少用自由詞檢索。

18.依據我國專利法專利有哪幾種類型 各種類型的專利有效期為多長?
18.答:依據專利法保護對象分三種類型:發明專利、實用新型專利、外觀設計專利
發明專利,是專利法主要的保護對象。發明專利權有效期各國不同,我國為自申請之日起20年。
實用新型專利,在我國實用新型專利權有效期為自申請之日起10年。
外觀設計專利,在我國外觀設計專利權有效期為自申請之日起10年。

19.信息檢索系統的基本要素是什麼?
19.答:信息檢索系統的構成包括:
(1)檢索文檔,即文獻檢索標識的有機集合。
(2)技術設備,即能存儲信息及其標識,並實現存儲和檢索操作的各種技術設備。
(3)作用於系統的人如:文獻加工者、用戶、系統維護人員、管理人員。
(4)檢索工具如:檢索語言、文獻標引規則、輸入輸出標准等。

20.何謂資料庫的順排文擋和倒排文擋?
20.答:順序文檔(Sequential file)是以文獻記錄作為信息存儲單元,按文獻記錄入藏的存取號從小到大順序排列而形成的目錄式文檔,由於它存儲有關於每篇文獻的最完整信息,所以通常又把它稱為主文檔(Master File),相當於印刷型檢索工具的正文部分。倒排文檔(Inverted file)就是把記錄中一切可檢欄位或屬性值抽出,按某種順序重新加以組織後所得到的一種文檔。倒排檔從主文檔中派生出來,所以,又叫做輔助文檔。

21.獲取網路信息資源的主要工具有哪些?
21.答:獲取網路信息資源的主要工具包括:
(1)電子郵件
(2)FTP
(3)Archie
(4)Telnet
(5)Gopher
(6)Usenet
(7)www瀏覽器
(8)搜索引擎

22. 核心期刊的主要特點是什麼?
22.答:少數刊載某一學科大量高質量專業論文的期刊稱為核心期刊,其主要特點為:
(1)刊載專業文獻密度高,信息含量高;
(2)水平較高,代表本學科的最新發展水平;
(3)出版相對穩定,所載文獻壽命較長;
(4)利用率和被引率較高。

23.試述網際網路搜索引擎的概念、類型。
23.答:搜索引擎是Internet上具有查詢功能的網頁的統稱,即允許用戶遞交查詢,檢索出與查詢相關的網頁結果列表,並且排序輸出。
根據檢索內容分為:綜合性搜索引擎和專業性搜索引擎;
根據檢索功能分類:目錄式搜索引擎、全文式搜索引擎、智能式搜索引擎;
根據檢索范圍分類:獨立搜索引擎和元搜索引擎。

24.簡述會議論文的概念和特點,國內和國外會議論文的檢索系統有哪些?
24.答:會議文獻是指各種科學技術會議上所發表的論文、報告稿、講演稿等與會議有關的文獻。
會議文獻的主要特點是:傳播信息及時、論題集中、內容新穎、專業性強、質量較高,數量較大,出版類型多種多樣,往往代表某一學科或專業領域內最新學術研究成果,基本上反映了該學科或專業的學術水平、研究動態和發展趨勢。會議文獻是科技查新中重要的信息源之一。
國外會議論文檢索工具包括:ISI的Proceedings(ISTP+ISSHP);Papers First(OCLC first search的一個子庫);IEEE/IEE Electronic Library;AIPCofference Proceedings
國內可以進行會議論文檢索的系統包括:中國學術會議論文全文資料庫(萬方數據);中國重要會議論文全文資料庫(CNKI)

25. 周紅同學在檢索一個課題時,第一次檢索的結果有 172 條文獻,你建議一下她採用何種方式來縮小檢索范圍?
25.答:縮小檢索范圍的方法包括:
(1)提高檢索詞的專指度,換用專指度較強的規范詞或自由詞。
(2)增加「與」連接,進一步限定主題概念。
(3)限定檢索詞所在的可檢欄位。
(4)用位置算符控制檢索詞的詞間順序與位置。
(5)限制輸出文獻的外部特徵,如限制年限、語種、文獻類型等。
(6)用邏輯「非」限制與提問不相關的文獻的輸出。
(7)用主題詞檢索,不用或少用自由詞檢索。

26.Medline和Pubmed有什麼區別?
26.答:Pubmed和MEDLINE的區別主要體現在:
(1)文獻的收錄范圍:Pubmed除了收錄MEDLINE資料庫之外,還收錄了PREMEDLINE資料庫,以及出版商直接提供給Pubmed的數據。
(2)資料庫的更新時間:MEDLINE聯機資料庫為周更新,MEDLINE光碟的報道時差為1-3個月,而Pubmed為每天更新
(3)檢索機理:MEDLINE的檢索途徑只有兩個主題和作者,掌握Mesh表是檢索的首要條件,而Pubmed具有詞彙自動轉換匹配功能和主題詞自動擴展功能。
(4)連接功能:Pubmed具有與原文鏈接、相關文獻鏈接、相關圖書鏈接、相關分子生物學資料庫鏈接的功能
(5)免費全文:Pubmed提供超過60中期刊的免費全文瀏覽和檢索功能。
(6)費用:MEDLINE光碟需每年租賃資料庫,Pubmed免費。

27.專利文獻的概念及特點是什麼?
27.答:專利文獻是實行專利制度的國家及國際組織在審批專利過程中產生的官方文件及其出版物的總稱。專利文獻具有以下特點:
(1)專利文獻集技術、法律和經濟信息於一體,是一種數量巨大、內容廣博的戰略性信息資源;
(2)利文獻傳播最新技術信息;
(3)專利文獻的格式統一規范,高度標准化,並且具有統一的分類體系,便於檢索、閱讀;
(4)專利文獻對發明創造的揭示完整詳盡,技術內容相對可靠。

28.如果要查找有關「乙型肝炎流行病學」方面的中外文文獻,可以選擇哪些資料庫?請選擇其中一種資料庫,簡要檢索策略。
28.答:查找「乙型肝炎的流行病學」的文獻可選用的中文檢索系統包括:CNKI、維普、萬方、CBM等,
可選的外文檢索系統包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其中,在CNKI中的檢索策略為:
檢索項:篇名;檢索詞:乙型肝炎;邏輯:或者
檢索項:篇名;檢索詞:乙肝; 邏輯:並且
檢索項:主題;檢索詞:流行病學
在CBM中的檢索策略為:肝炎,乙型/[擴展全部樹]流行病學

29.通過哪些檢索系統可以查明濟寧醫學院圖書館是否有「computer communications」這本期刊?
29.答:可以選用的檢索系統包括:圖書館聯機檢索系統、超星數字圖書、書生數字圖書館

30. 請列出5個Google高級檢索語法,並舉例說明其用法。
30.答:可在下列語法中任選5個舉例
(1)「link」運算符: 查找與某一特定網頁建立鏈接的所有網頁,亦可在高級檢索模式下實現
(2)「related」運算符:自動查找與某一網頁處於同一級別的相似網頁,亦可通過高級檢索模式及檢索結果界面的「類似網頁」實現
(3)「info」運算符:可獲取Google庫存的有關某一網頁的全部信息
(4)「site」運算符: 將檢索結果限制在某一網域中,也可以通過高級檢索界面的「網域」選項來
(5)「Allintitle」運算符:要求提問詞全部在網頁標題中出現
(6)「allinurl」運算符:要求提問詞全部在URL中出現
(7)「inurl」運算符:要求提問詞部分在URL中出
(8)「filetype:」運算符是Google開發的非常強大實用的一個搜索語法。後面接文檔類型,可限制獲取某一文檔類型的網頁,後可接文獻類型舉例。

31. 在CBMWin4.0版中的查找某作者發表的文獻有幾種方式?分別是什麼?
31. 答:有四種
「基本檢索」中的著者檢索有三種方式:
一是在「檢索入口」下拉彩旦中選擇「作者」欄位,然後在檢索提問框內輸入著者姓名;
二是直接在檢索提問框內輸入著者姓名,後加「in au」;
三是直接在檢索提問框內輸入「au=」,後跟著者姓名,
「作者檢索」方式:直接在檢索提問框內輸入著者姓名。

32. 循證醫學證據的主要類型有哪些?
32.依據按質量和可靠程度大體可分為以下五級(可靠性依此降低):
一級:按照特定病種的特定療法收集所有質量可靠的隨機對照試驗後所作的系統評價或Meta分析;
二級:單個的樣本量足夠的隨機對照試驗結果;
三級:設有對照組但未用隨機方法分組的研究;
四級:無對照的系列病例觀察;
五級:專家意見或基於生理、病理生理和基礎研究的證據。

33. 列舉6種可以檢索引文的資料庫。
33.答:可以檢索引文的資料庫有:(任寫以下6種均可)
(1) SCI
(2) SSCI
(3) H&ACI
(4) 《中國科技論文與引文資料庫》(CSTPC)
(5) 《中國科學引文資料庫》
(6) 《中文社會科學引文索引》
(7) 《中文科技期刊引文資料庫》
(8) 中國知識基礎設施工程中的中國引文資料庫
(9) 《中國生物醫學文獻資料庫》
34.信息檢索的類型及特點。
34.答(1)個人信息源:聚集大量從事某工作領域的個人信息及有關各種事物的發展動態信息。
(2)組織機構信息源:主要指組織機構中的內部信息源。
(3)實物型信息源:以實物如文物、產品樣本、模型、雕塑等形式表現的信息資源。
(4)文獻型信息源:以文字、圖片、符號等各種方式記錄在各種載體上的知識和信息資源。
1)圖書:圖書也稱為書籍,是指內容比較成熟、資料比較系統、有完整定型裝幀形式的出版物。
2)期刊:期刊也稱雜志,是指那些定期或不定期出版,匯集了多位作者論著的連續出版物。
3)學位論文:是本科生、研究生為取得學位資格而撰寫的專業性研究論文。
4)科技報告:是作為科研成果的正式報告。
5)專利文獻:由政府專門機構出版、有創造發明的設計、製作工藝的詳細說明,表明在一定時限內發明所有者享有製造、使用、銷售佔有權的法律性文獻。
6)標准文獻:由權威機構批准、頒發的、可供人們執行的技術規格的規范性文獻。
7)產品樣本:廠商為介紹推銷其產品而印發的文獻。
8)會議文獻:是指在國際和各國國內專業學術會議上所發表的論文和報告。
9)政府出版物:由政府機構製作指定出版機構出版的文獻。
(5)電子型信息源:主要是指通過使用電子技術實現信息存儲和傳播的信息。
35.資料庫的組成。
35.答:資料庫由文檔、記錄和欄位組成。
(1)文檔:是按一定結構組織的相關記錄和結合。
(2)記錄:是構成文檔的基本數據單元。
(3)欄位:是比記錄更小的單元,是組成記錄的基本單元。
36.分類語言。
36.答:分類語言是按文獻的學科屬性,給予相應的分類號,用分類號來表達文獻的主題概念,根據分類表中的順序編排成分類索引,提供分類途徑共檢索文獻使用。
分類語言是運用邏輯分類原理,按文獻內容的學科、專業集中文獻,從知識分類的角度揭示各類文獻在內容上的區別和聯系。
分類語言較好地體現了學科和專業的系統性。
分類語言可分為體系分類語言和組配語言兩種,目前國內普遍採用前者。
36.主題語言。
37.答:主題語言是以高度概括的語詞解釋文獻的主題,並以此為標識組織檢索系統的語言。
主題語言分為標題詞、元詞、關鍵詞和敘詞。
(1)標題詞:是從自然語言中選取並經過規范化處理,表示事物概念的詞、片語或短語。
(2)元詞:是指能夠用以描述文獻所論及主體的最小、最基本詞彙。
(3)敘詞:使用能表達文獻主題並經過嚴格規范化的詞語。
(4)關鍵詞:是直接從文獻的標題,文獻或全文中抽選具有實質意義、能表達文獻主題概念,未經規范化處理的自然詞語詞彙。
38.信息檢索途徑。
38.答:1.分類文獻:是按文獻內容所屬的學科類別來檢索文獻的途徑,通過分類號或類別進行檢索。
2.主題途徑:是通過反應文獻內容主題的詞語來檢索文獻的途徑。
3.關鍵詞途徑:是用非規范化詞語自由標引,直接取自原文中能夠表達文獻內容主題、起關鍵作用的詞語。
4.著者途徑:是指按文獻的作者、編者、譯者的姓名或機構團體名稱字順檢索文獻的途徑。
5.題名途徑:是指按書名、刊名或文章篇名的字順進行檢索的一種途徑。
6.號碼途徑:是利用文獻代碼、序號編排成的「號碼索引」的一種途徑。
39.信息檢索素養的內涵。
39.答:1.信息意識:指信息在人腦中的反應即人對各種信息的自覺心裡反應,反應人在信息活動中對信息的認識、態度、價值趨向和一定需求。
2.信息知識:是指與信息有關的理論、知識和方法。
3.信息能力:是指有效利用信息技術和信息資源獲取信息、加工處理信息以及創造和交流新信息的能力。
4.信息道德:是指在信息獲取、使用、創造和傳播過程中應該遵守一定的倫理規范。
40.信息檢索策略。
40.答:1.分析檢索課題,明確目的要求。
信息檢索總是按照一定的課題需要進行的,每一項檢索課題都有明確的目的和具體的要求,因此在進行檢索之前,首先要對檢索課題進行認真而細致的分析研究,明確檢索的目的和要求。因為目的不同,要求也不同,選擇連鎖工具、連鎖方法等就有所不同。
2.檢索系統和資料庫的選擇。
信息檢索和資料庫的選擇主要主要考慮其所收錄的學科範圍、存貯年限、更新周期、標引質量、獨特性、所需費用、系統性能和輔助服務等方面考慮,還要注意綜合性和專業性資料庫配合使用。
3.選擇檢索途徑、確定檢索標識。
所謂檢索途徑也就是資料庫中的檢索項(欄位),是指從哪個角度或哪個方向入手進行檢索。
檢索標識是指確切表達文獻信息內容及外表特徵使用的符號或詞語,如分類號、主題詞、關鍵詞、作者姓名、期刊刊名等,檢索時要求准確找出檢索標識,以避免誤檢。
4.編輯檢索表達、調整檢索策略。
檢索表達式是用來表達檢索提問的邏輯檢索表達式,有選擇好的檢索標識根據檢索要求運用不同的運算符號進行組配,以達到較為理想的檢索效果。
但是實際的檢索過程中,用既定的檢索表達式檢出的結果往往不能一次就達到滿意,這就需要根據檢索情況分析原因及時調整檢索策略。
5.獲得原始文章。
(1)檢索網上全文資料庫。
(2)利用網上出版社、雜志。
(3)利用圖書館館藏目錄(館藏聯合目錄)。
(4)利用「網上全文傳遞服務」。
(5)直接向著者索取。
通過上述步驟的查找獲得的如不是文獻全文,可通過以下方式獲得。

⑵ 資料庫的數據檢索和 搜索引擎的信息檢索的不同點是什麼需要解決的核心問題和核心技術有何不同

信息檢索不等於搜索引擎。

互聯網的發展明顯地促進了信息檢索技術的發展和應用,一大批搜索引擎產品誕生,為網民提供了很好的快速信息獲取和網路信息導航工具,但是將信息檢索等同於使用搜索引擎就陷入了誤區。搜索引擎技術中也普遍採用了全文信息檢索技術,但互聯網信息搜索和企業信息搜索是不同的。

一是數據量。傳統信息檢索系統一般索引庫規模多在GB級,但互聯網網頁搜索需要處理幾千萬上億的網頁,搜索引擎的基本策略都是採用檢索伺服器群集,對大多數企業應用是不合適和不必要的,並不適用於企業應用。

二是內容相關性。信息太多,查准和排序就特別重要,Google等搜索引擎發展了網頁鏈接分析技術,根據互聯網上網頁被連接次數作為重要性評判的依據。但企業網站內部的網頁鏈接由網站內容采編發布系統決定,其鏈接次數存在偶然因素,不能作為判別重要性的依據。真正的企業應用的檢索要求基於內容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。

三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數據,大的搜索引擎的更新周期需要以周乃至月度量;而企業信息檢索需要實時反映內外信息變化,搜索引擎系統機制並不能適應企業中動態性數據增長和修改的要求。
四是安全性。互聯網搜索引擎都基於文件系統,但企業應用中內容一般均會安全和集中地存放在數據倉庫中以保證數據安全和管理的要求。

五是個性化和智能化。由於搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業的信息檢索應用能在智能化和個性走得更遠。

(InformationRetrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網路化、智能化檢索等多個發展階段。
目前,信息檢索已經發展到網路化和智能化的階段。信息檢索的對象從相對封閉、穩定一致、由獨立資料庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理鬆散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網路化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。

信息檢索技術的熱點

◆智能檢索或知識檢索

傳統的全文檢索技術基於關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網路信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢「計算機」,與「電腦」相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網路,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至「微機」、「伺服器」或擴大查詢至「信息技術」或查詢相關的「電子技術」、「軟體」、「計算機應用」等范疇。另外,智能檢索還包括歧義信息和檢索處理,如「蘋果」,究竟是指水果還是電腦品牌,「華人」與「中華人民共和國」的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、准確地反饋給用戶最需要的信息。

◆知識挖掘

目前主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。

自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助於用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助於多種形式的內容分發,如發往PDA、手機等。相似性檢索技術基於文檔內容特徵檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可基於統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特徵將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸並。自動分類(聚類)在信息組織、導航方面非常有用。

◆異構信息整合檢索和全息檢索

在信息檢索分布化和網路化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關系資料庫檢索的無縫集成以及其他開放檢索介面的集成等。所謂「全息檢索」的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基於自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。

另外,從工程實踐角度,綜合採用內存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發展的重要方面。

隨著互聯網的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將應用到各個領域,成為人們日常工作生活的密切夥伴。

信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。

隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;離線批量情報檢索系統、聯機實時情報檢索系統相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。

搜索引擎工作流程

互聯網是一個寶庫,搜索引擎是打開寶庫的一把鑰匙。然而,絕大多數網民在搜索引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71%的人對搜索的結果感到不同程度的失望。作為互聯網的第二大服務,這種狀況應該改變。

互聯網的迅速發展,導致了網上信息的爆炸性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的信息海洋里尋找信息,就像「大海撈針」一樣困難。搜索引擎正是為了解決這個「迷航」問題而出現的技術。

搜索引擎的工作包括如下三個過程:

1.在互聯中發現、搜集網頁信息;

2.對信息進行提取和組織建立索引庫;

3.再由檢索器根據用戶輸入的查詢關字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。

發現、搜集網頁信息

需要有高性能的「網路蜘蛛」程序(Spider)去自動地在互聯網中搜索信息。一個典型的網路蜘蛛工作的方式,是查看一個頁面,並從中找到相關信息, 然後它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網路蜘蛛要求能夠快速、全面。網路蜘蛛為實現其快速地瀏覽整個互聯網,通常在技術上採用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,你能索引一個基於URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當然在伺服器上所開的線程也不能無限膨脹,需要在伺服器的正常運轉和快速收集網頁之間找一個平衡點。在演算法上各個搜索引擎技術公司可能不盡相同,但目的都是快速瀏覽Web頁和後續過程相配合。目前國內的搜索引擎技術公司中,比如網路公司的網路蜘蛛採用了可定製、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息,並把所 獲得的信息保存下來以備建立索引庫和用戶檢索。

索引庫的建立

關繫到用戶能否最迅速地找到最准確、最廣泛的信息,同時索引庫的建立也必須迅速,對網路蜘蛛抓來的網頁信息極快地建立索引,保證信息的及時性。對網頁採用基於網頁內容分析和基於超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎對網站數據建立索引的過程中採取了按照關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相一致。

本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx

⑶ 現代信息技術的核心是什麼

現代信息技術的核心是計算機製造技術

信息技術的核心主要包括:

感測技術

感測技術是當代科學技術發展的一個重要標志,它與通信技術、計算機技術和微電子技術一起,構成信息產業的核心支柱。如果說計算機是人類大腦的延伸,那麼感測器就是人類五官的延伸。
通常,人用眼、耳、鼻、舌、身等感覺器官捕獲信息。隨著光學技術和電子技術的發展,使用放大鏡、顯微鏡、望遠鏡、照相機、攝像機、偵察衛星等可以幫助人們觀察微小的、遙遠的或高速運動的物體;電話機、收音機、CD唱機等可以看做是人耳功能的延伸;電子鼻以及其他測量各種氣味的裝置可以看做是人的嗅覺器官功能的延伸;溫度表、濕度表以及各種測量振動、壓力的儀表可以看做是人的皮膚對溫度和壓力感覺功能的延伸。
目前,科學家已經研製出許多應用現代感測技術的裝置,不僅能替代人的感覺器官捕獲各種信息,而且能捕獲人的感覺器官不能感知的信息。同時,通過現代感測技術捕獲的信息常常是精確的數字化數據,便於計算機處理。

通信技術

信息只有通過交流才能發揮效益,信息的交流直接影響著人類的生活和社會的發展。人們使用電報、電話、電視、廣播等通信手段傳遞信息。20世紀以來,微波、光纜、衛星、計算機網路等通信技術得到迅猛發展,手持移動通信裝置正以驚人的速度普及。「任何人可以在任何時間任何地方同任何人通信」的時代已經到來。

計算機技術

計算機技術是信息處理的核心。計算機從誕生以來就不停地為人們處理大量的信息,而且隨著計算機技術的不斷發展,使其功能越來越強大。計算機不但能夠處理數值信息,而且還能夠處理各種文字、圖形、圖像、動畫、聲音等非數值信息。在人造地球衛星軌道的計算、天氣預報、地震預測、自動控制、計算機輔助設計(CAD)、數據處理、計算機輔助教學(CAI)、計算機網路通信、電子商務(E-business)等各個領域中,都要利用計算機來處理、加工信息。計算機處理信息的能力在不斷地增強,計算機技術已經滲透到人們生活的方方面面,幫助人們更好地存儲信息、檢索信息、加工信息和再生信息。再加上計算機網路技術的不斷成熟,使得計算機如虎添翼,人們利用計算機網路可以更廣泛、快捷地獲取信息、交流信息和傳遞信息,實現信息資源的共享。現代信息技術每時每刻都離不開計算機技術。

微電子技術

微電子技術是現代信息技術的基石,微電子技術的發展,使器件的尺寸不斷縮小,集成度不斷提高,功耗不斷降低,器件性能得到大幅度提高。在短短的幾十年中,微電子技術取得了突飛猛進的發展,它的每一次重大突破都給電子信息技術帶來一次重大革命。今天,一切技術領域的發展都離不開微電子技術,尤其對於計算機技術來講它更是基礎和核心。

閱讀全文

與什麼是存儲和檢索信息的核心相關的資料

熱點內容
重慶貨車交易市場有哪些 瀏覽:132
潭門海鮮市場在哪裡呢 瀏覽:812
交易貓如何認證芝麻信用 瀏覽:580
怎麼關閉蘋果代理上網 瀏覽:263
飢荒交易小店哪些可以交易 瀏覽:669
商品虛假交易被降權怎麼辦 瀏覽:380
視頻投票小程序怎麼做 瀏覽:390
萬達信息算什麼公司 瀏覽:310
小米手機如何刪後台程序 瀏覽:725
怎麼成為騰訊廣告的代理商 瀏覽:895
硅膠廠怎麼做技術 瀏覽:712
天光墟市場為什麼在夜裡開 瀏覽:857
淘寶代理一件代發怎麼填 瀏覽:41
電纜批發市場怎麼找貨源 瀏覽:1
房產交易後多久出證 瀏覽:749
小店產品怎麼在直播間顯示 瀏覽:844
如何把產品賣出好價 瀏覽:69
數據生產要素怎麼界定 瀏覽:155
找人代理開店怎麼樣 瀏覽:515
如何營造買方市場 瀏覽:985