⑴ 信息檢索重點
問答題
1.簡述信息、知識、文獻的概念及其三者之間的關系。
1.答:信息:是事物存在方式、運動狀態及其特徵的反映,是事物發出的信號、消息。
知識:是人類對自然界、人類社會中各種現象、規律的信息反映進行思維分析,加工提煉,經過系統化、理論化的結果。
文獻:記錄有知識的一切載體
三者從概念范疇上看,信息大於知識大於文獻,知識是信息的一部分,是理論化系統化的信息,文獻是知識中記載下來的那部分。
2.文獻按載體形式不同分為哪幾種類型,並舉例說明。
2.答:文獻按載體形式的不同分為:
手寫型文獻,如甲骨文、金文
印刷型文獻,如圖書、期刊
縮微型文獻,如縮微膠卷、縮微膠片
視聽型文獻,如錄像帶、錄音帶、科技電影
電子型文獻,如資料庫文獻和網路文獻
3.文獻的級別及其相互關系。
3.答:文獻按照加工程度不同分為零次、一次、二次和三次文獻四種。
其中零次文獻是指未公開出版的實驗記錄、原始錄音(像)、書信、手稿、口頭交流的信息或實物等;零次文獻在作者的加工處理後公開出版進入社會流通領域就變成一次文獻;根據一次文獻的各種特徵按照一定的規則和方法對其進行整理、加工、濃縮,後形成的文獻就是二次文獻;利用二次文獻線索對大量的一次文獻內容進行綜合、分析、加工、提煉後形成的文獻就是三次文獻。
4.在計算機檢索中,如何縮小檢索范圍?
4.答:在計算機檢索中,縮小檢索范圍的方法包括:
(1)增加用and連接的檢索詞,或用「二次檢索」
(2)用特定的副主題詞進行限定
(3)用欄位限定檢索,如標題詞檢索、主題詞檢索、加權檢索等
(4)進行文獻類型、語種、重要期刊、臨床核心期刊、年份等的限定檢索
(5)進入更專指的分類范圍內輸詞檢索
5.獲取文獻全文的方法有哪些?
5.答:獲取全文的方法包括:
(1)檢索網上全文資料庫
(2)利用網上出版社、雜志
(3)利用圖書館館藏目錄(館藏聯合目錄)
(4)利用「網上全文傳遞服務」
(5)向著者索取
6.常用的檢索途徑有哪些?
6.答:常用的檢索途徑包括:
自由詞檢索、主題詞檢索、分類檢索、著者檢索、機構檢索、引文檢索、限定檢索等
7.簡述信息檢索的原理
7.答:信息檢索的原理是:將描述特定用戶所需信息的提問特徵,與信息存儲的檢索標識進行異同的比較,從中找出與提問特徵一致或基本一致的信息。本質是用戶的信息需求與存儲在信息集合中的信息進行比較和選擇, 即匹配的過程。
8.計算機檢索通常包括哪些步驟?
8.答:信息檢索的步驟包括:
(1)分析檢索課題,明確目的和要求
(2)選擇合適的檢索工具
(3)選擇檢索途徑,確定檢索標識。
(4)查找文獻線索。
(5)瀏覽檢索結果,獲取原始文獻。
9. 簡述IM主題索引的編排規則。
9.答:主題索引的排列規則如下
(1)整個索引按主題詞字順排
(2)同一主題詞下按副主題詞字順排
(3)相關內容的文獻題錄分別納入相應的主題詞或者主題詞/副主題詞之下;一般總論性文獻直接入主題詞下,專指性文獻入相應的副主題詞下;同一文獻題錄可入多個主題詞之下
(4)同一主題詞或副主題詞下的文獻題錄,先排列英文文獻,後排列非英文文獻,非英文文獻的英譯標題用"[ ]"括起,以示區別
(5)英文文獻按刊名縮寫字順排
(6)非英文文獻先按文種縮寫字順排,同一文種下按刊名縮寫字順排。
10.《醫學主題詞表》(MeSH)字順表的參照系統有哪幾種?舉例說明其意義。
10.答:第一組:用代參照,用於處理詞與詞間的等同關系。在MeSH詞表中,對於多個同義詞只採用其中一個比較科學而通用的詞作規范化主題詞,其它的詞作為非主題詞(即款目詞)。用「款目詞see主題詞」和「主題詞X款目詞」表示。如:Cancer see Neoplasms Neoplasms X Cancer
第二組:屬分參照,用於處理詞與詞之間的等級關系,即整體與部分,上位概念與下位概念之間的關系。如某些范疇較小的主題概念主題詞,包含在某些范疇較大的主題詞之下,內容範圍較廣的詞是主題詞,其下的內容範圍較窄的詞不作主題詞,只作為次要主題詞。用「次要主題詞see under 主題詞」和「主題詞XU 次要主題詞」表示。如:Health Priorities see under Health Planning Health Planning XU Health Priorities 從1991年開始取消此種參照關系,所有次要主題詞升格為主題詞。
第三組:相關參照,用於處理詞間的相關關系,達到擴大檢索,提高查全率的目的。用「主題詞see related 主題詞」和「主題詞XR主題詞」表示。如:Population Control see related Family Planning Family Planning XR Population Control
為提高查全率和方便檢索,MeSH詞表於1991年和1992年又先後增設了「還應考慮參照(consider also)」和「主題詞/副主題片語配參照」。
11.按照存儲內容的不同,資料庫通常分為哪些類型?
11.答:書目資料庫、事實資料庫、數值資料庫、全文資料庫、圖像資料庫
12.什麼叫主題詞的擴展檢索,它的優越性何在?
12.答:選擇主題詞的擴展功能可以同時檢索主題詞和它的所有下位詞,這樣就可檢出用所選主題詞和更專指主題詞標引的所有文獻,可以更好的提高檢索的查全率。不擴展的情況下只會檢出用所選主題詞標引的文獻,不會檢出它的下位詞,即那些更專指主題詞標引的文獻。
13.什麼是查全率和查准率,二者之間有何關系?
13.答:查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實用的相關文獻量在多大程度上被檢索出來。
查全率=【檢出相關文獻量/文獻庫內相關文獻總量】×100%
查准率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。
查准率=【檢出相關文獻量/檢出文獻總量】×100%
查全率與查准率是呈互逆關系的。要想做到查全,勢必會要對檢索范圍和限制逐步放寬,則結果是會把很多不相關的文獻也帶進來,影響了查准率。企圖是查全率和查准率都同時提高,不是很容易的。強調一方面,忽視另一方面,也是不妥當的。應當根據具體課題的要求,合理調節查全率和查准率,保證檢索效果。
14.影響查全率和查准率的因素有哪些?
14.答:(1)影響查全率的因素
影響查全率的因素從文獻存儲上來看,主要有:文獻庫收錄文獻不全;索引詞彙缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前後不一致;標引人員遺漏了原文的重要概念和用詞不當等。此外,從情報檢索來看,主要有:檢索策略過於簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟悉和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。
(2)影響查准率的因素
影響查准率的因素主要有:索引詞不能准確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關系不正確;標引過於詳盡;組配錯誤;檢索時所使用檢索詞專指度不夠,檢索麵寬於檢索要求;檢索系統不具備邏輯「非」功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯「或」不當等。
15.獨立型搜索引擎的工作原理是什麼?
15.答:獨立式搜索引擎的工作原理是:
定期運行搜索軟體(或人工),搜集網路信息。
利用索引軟體進行自動標引,建立資料庫。
以Web頁面形式向用戶提供有關的信息資源導航、目錄索引及檢索界面,由用戶輸入檢索式。
通過檢索軟體進行檢索,匹配,按相關度排序輸出。
16.如何提高檢索的查全率?
16.答:提高查全率的方法:
(1)降低檢索詞的專指度,選出一些上位詞和相關詞補充到檢索式中。
(2)調節檢索式的網羅度,減少邏輯「與」的組配面。
(3)進行族性檢索,可採用分類檢索,或用一組同義詞、近義詞和相關詞,用「或」連接在檢索式中。
(4)採用截詞技術,取消某些限制過嚴的限制符。
17.如何提高檢索的查准率?
17.答:提高查准率的方法:
(1)提高檢索詞的專指度,換用專指度較強的規范詞或自由詞。
(2)增加「與」連接,進一步限定主題概念。
(3)限定檢索詞所在的可檢欄位,用位置算符控制檢索詞的詞間順序與位置。
(4)限制輸出文獻的外部特徵,如限制年限、語種、文獻類型等。
(5)用邏輯「非」限制與提問不相關的文獻的輸出。
(6)用主題詞檢索,不用或少用自由詞檢索。
18.依據我國專利法專利有哪幾種類型 各種類型的專利有效期為多長?
18.答:依據專利法保護對象分三種類型:發明專利、實用新型專利、外觀設計專利
發明專利,是專利法主要的保護對象。發明專利權有效期各國不同,我國為自申請之日起20年。
實用新型專利,在我國實用新型專利權有效期為自申請之日起10年。
外觀設計專利,在我國外觀設計專利權有效期為自申請之日起10年。
19.信息檢索系統的基本要素是什麼?
19.答:信息檢索系統的構成包括:
(1)檢索文檔,即文獻檢索標識的有機集合。
(2)技術設備,即能存儲信息及其標識,並實現存儲和檢索操作的各種技術設備。
(3)作用於系統的人如:文獻加工者、用戶、系統維護人員、管理人員。
(4)檢索工具如:檢索語言、文獻標引規則、輸入輸出標准等。
20.何謂資料庫的順排文擋和倒排文擋?
20.答:順序文檔(Sequential file)是以文獻記錄作為信息存儲單元,按文獻記錄入藏的存取號從小到大順序排列而形成的目錄式文檔,由於它存儲有關於每篇文獻的最完整信息,所以通常又把它稱為主文檔(Master File),相當於印刷型檢索工具的正文部分。倒排文檔(Inverted file)就是把記錄中一切可檢欄位或屬性值抽出,按某種順序重新加以組織後所得到的一種文檔。倒排檔從主文檔中派生出來,所以,又叫做輔助文檔。
21.獲取網路信息資源的主要工具有哪些?
21.答:獲取網路信息資源的主要工具包括:
(1)電子郵件
(2)FTP
(3)Archie
(4)Telnet
(5)Gopher
(6)Usenet
(7)www瀏覽器
(8)搜索引擎
22. 核心期刊的主要特點是什麼?
22.答:少數刊載某一學科大量高質量專業論文的期刊稱為核心期刊,其主要特點為:
(1)刊載專業文獻密度高,信息含量高;
(2)水平較高,代表本學科的最新發展水平;
(3)出版相對穩定,所載文獻壽命較長;
(4)利用率和被引率較高。
23.試述網際網路搜索引擎的概念、類型。
23.答:搜索引擎是Internet上具有查詢功能的網頁的統稱,即允許用戶遞交查詢,檢索出與查詢相關的網頁結果列表,並且排序輸出。
根據檢索內容分為:綜合性搜索引擎和專業性搜索引擎;
根據檢索功能分類:目錄式搜索引擎、全文式搜索引擎、智能式搜索引擎;
根據檢索范圍分類:獨立搜索引擎和元搜索引擎。
24.簡述會議論文的概念和特點,國內和國外會議論文的檢索系統有哪些?
24.答:會議文獻是指各種科學技術會議上所發表的論文、報告稿、講演稿等與會議有關的文獻。
會議文獻的主要特點是:傳播信息及時、論題集中、內容新穎、專業性強、質量較高,數量較大,出版類型多種多樣,往往代表某一學科或專業領域內最新學術研究成果,基本上反映了該學科或專業的學術水平、研究動態和發展趨勢。會議文獻是科技查新中重要的信息源之一。
國外會議論文檢索工具包括:ISI的Proceedings(ISTP+ISSHP);Papers First(OCLC first search的一個子庫);IEEE/IEE Electronic Library;AIPCofference Proceedings
國內可以進行會議論文檢索的系統包括:中國學術會議論文全文資料庫(萬方數據);中國重要會議論文全文資料庫(CNKI)
25. 周紅同學在檢索一個課題時,第一次檢索的結果有 172 條文獻,你建議一下她採用何種方式來縮小檢索范圍?
25.答:縮小檢索范圍的方法包括:
(1)提高檢索詞的專指度,換用專指度較強的規范詞或自由詞。
(2)增加「與」連接,進一步限定主題概念。
(3)限定檢索詞所在的可檢欄位。
(4)用位置算符控制檢索詞的詞間順序與位置。
(5)限制輸出文獻的外部特徵,如限制年限、語種、文獻類型等。
(6)用邏輯「非」限制與提問不相關的文獻的輸出。
(7)用主題詞檢索,不用或少用自由詞檢索。
26.Medline和Pubmed有什麼區別?
26.答:Pubmed和MEDLINE的區別主要體現在:
(1)文獻的收錄范圍:Pubmed除了收錄MEDLINE資料庫之外,還收錄了PREMEDLINE資料庫,以及出版商直接提供給Pubmed的數據。
(2)資料庫的更新時間:MEDLINE聯機資料庫為周更新,MEDLINE光碟的報道時差為1-3個月,而Pubmed為每天更新
(3)檢索機理:MEDLINE的檢索途徑只有兩個主題和作者,掌握Mesh表是檢索的首要條件,而Pubmed具有詞彙自動轉換匹配功能和主題詞自動擴展功能。
(4)連接功能:Pubmed具有與原文鏈接、相關文獻鏈接、相關圖書鏈接、相關分子生物學資料庫鏈接的功能
(5)免費全文:Pubmed提供超過60中期刊的免費全文瀏覽和檢索功能。
(6)費用:MEDLINE光碟需每年租賃資料庫,Pubmed免費。
27.專利文獻的概念及特點是什麼?
27.答:專利文獻是實行專利制度的國家及國際組織在審批專利過程中產生的官方文件及其出版物的總稱。專利文獻具有以下特點:
(1)專利文獻集技術、法律和經濟信息於一體,是一種數量巨大、內容廣博的戰略性信息資源;
(2)利文獻傳播最新技術信息;
(3)專利文獻的格式統一規范,高度標准化,並且具有統一的分類體系,便於檢索、閱讀;
(4)專利文獻對發明創造的揭示完整詳盡,技術內容相對可靠。
28.如果要查找有關「乙型肝炎流行病學」方面的中外文文獻,可以選擇哪些資料庫?請選擇其中一種資料庫,簡要檢索策略。
28.答:查找「乙型肝炎的流行病學」的文獻可選用的中文檢索系統包括:CNKI、維普、萬方、CBM等,
可選的外文檢索系統包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其中,在CNKI中的檢索策略為:
檢索項:篇名;檢索詞:乙型肝炎;邏輯:或者
檢索項:篇名;檢索詞:乙肝; 邏輯:並且
檢索項:主題;檢索詞:流行病學
在CBM中的檢索策略為:肝炎,乙型/[擴展全部樹]流行病學
29.通過哪些檢索系統可以查明濟寧醫學院圖書館是否有「computer communications」這本期刊?
29.答:可以選用的檢索系統包括:圖書館聯機檢索系統、超星數字圖書、書生數字圖書館
30. 請列出5個Google高級檢索語法,並舉例說明其用法。
30.答:可在下列語法中任選5個舉例
(1)「link」運算符: 查找與某一特定網頁建立鏈接的所有網頁,亦可在高級檢索模式下實現
(2)「related」運算符:自動查找與某一網頁處於同一級別的相似網頁,亦可通過高級檢索模式及檢索結果界面的「類似網頁」實現
(3)「info」運算符:可獲取Google庫存的有關某一網頁的全部信息
(4)「site」運算符: 將檢索結果限制在某一網域中,也可以通過高級檢索界面的「網域」選項來
(5)「Allintitle」運算符:要求提問詞全部在網頁標題中出現
(6)「allinurl」運算符:要求提問詞全部在URL中出現
(7)「inurl」運算符:要求提問詞部分在URL中出
(8)「filetype:」運算符是Google開發的非常強大實用的一個搜索語法。後面接文檔類型,可限制獲取某一文檔類型的網頁,後可接文獻類型舉例。
31. 在CBMWin4.0版中的查找某作者發表的文獻有幾種方式?分別是什麼?
31. 答:有四種
「基本檢索」中的著者檢索有三種方式:
一是在「檢索入口」下拉彩旦中選擇「作者」欄位,然後在檢索提問框內輸入著者姓名;
二是直接在檢索提問框內輸入著者姓名,後加「in au」;
三是直接在檢索提問框內輸入「au=」,後跟著者姓名,
「作者檢索」方式:直接在檢索提問框內輸入著者姓名。
32. 循證醫學證據的主要類型有哪些?
32.依據按質量和可靠程度大體可分為以下五級(可靠性依此降低):
一級:按照特定病種的特定療法收集所有質量可靠的隨機對照試驗後所作的系統評價或Meta分析;
二級:單個的樣本量足夠的隨機對照試驗結果;
三級:設有對照組但未用隨機方法分組的研究;
四級:無對照的系列病例觀察;
五級:專家意見或基於生理、病理生理和基礎研究的證據。
33. 列舉6種可以檢索引文的資料庫。
33.答:可以檢索引文的資料庫有:(任寫以下6種均可)
(1) SCI
(2) SSCI
(3) H&ACI
(4) 《中國科技論文與引文資料庫》(CSTPC)
(5) 《中國科學引文資料庫》
(6) 《中文社會科學引文索引》
(7) 《中文科技期刊引文資料庫》
(8) 中國知識基礎設施工程中的中國引文資料庫
(9) 《中國生物醫學文獻資料庫》
34.信息檢索的類型及特點。
34.答(1)個人信息源:聚集大量從事某工作領域的個人信息及有關各種事物的發展動態信息。
(2)組織機構信息源:主要指組織機構中的內部信息源。
(3)實物型信息源:以實物如文物、產品樣本、模型、雕塑等形式表現的信息資源。
(4)文獻型信息源:以文字、圖片、符號等各種方式記錄在各種載體上的知識和信息資源。
1)圖書:圖書也稱為書籍,是指內容比較成熟、資料比較系統、有完整定型裝幀形式的出版物。
2)期刊:期刊也稱雜志,是指那些定期或不定期出版,匯集了多位作者論著的連續出版物。
3)學位論文:是本科生、研究生為取得學位資格而撰寫的專業性研究論文。
4)科技報告:是作為科研成果的正式報告。
5)專利文獻:由政府專門機構出版、有創造發明的設計、製作工藝的詳細說明,表明在一定時限內發明所有者享有製造、使用、銷售佔有權的法律性文獻。
6)標准文獻:由權威機構批准、頒發的、可供人們執行的技術規格的規范性文獻。
7)產品樣本:廠商為介紹推銷其產品而印發的文獻。
8)會議文獻:是指在國際和各國國內專業學術會議上所發表的論文和報告。
9)政府出版物:由政府機構製作指定出版機構出版的文獻。
(5)電子型信息源:主要是指通過使用電子技術實現信息存儲和傳播的信息。
35.資料庫的組成。
35.答:資料庫由文檔、記錄和欄位組成。
(1)文檔:是按一定結構組織的相關記錄和結合。
(2)記錄:是構成文檔的基本數據單元。
(3)欄位:是比記錄更小的單元,是組成記錄的基本單元。
36.分類語言。
36.答:分類語言是按文獻的學科屬性,給予相應的分類號,用分類號來表達文獻的主題概念,根據分類表中的順序編排成分類索引,提供分類途徑共檢索文獻使用。
分類語言是運用邏輯分類原理,按文獻內容的學科、專業集中文獻,從知識分類的角度揭示各類文獻在內容上的區別和聯系。
分類語言較好地體現了學科和專業的系統性。
分類語言可分為體系分類語言和組配語言兩種,目前國內普遍採用前者。
36.主題語言。
37.答:主題語言是以高度概括的語詞解釋文獻的主題,並以此為標識組織檢索系統的語言。
主題語言分為標題詞、元詞、關鍵詞和敘詞。
(1)標題詞:是從自然語言中選取並經過規范化處理,表示事物概念的詞、片語或短語。
(2)元詞:是指能夠用以描述文獻所論及主體的最小、最基本詞彙。
(3)敘詞:使用能表達文獻主題並經過嚴格規范化的詞語。
(4)關鍵詞:是直接從文獻的標題,文獻或全文中抽選具有實質意義、能表達文獻主題概念,未經規范化處理的自然詞語詞彙。
38.信息檢索途徑。
38.答:1.分類文獻:是按文獻內容所屬的學科類別來檢索文獻的途徑,通過分類號或類別進行檢索。
2.主題途徑:是通過反應文獻內容主題的詞語來檢索文獻的途徑。
3.關鍵詞途徑:是用非規范化詞語自由標引,直接取自原文中能夠表達文獻內容主題、起關鍵作用的詞語。
4.著者途徑:是指按文獻的作者、編者、譯者的姓名或機構團體名稱字順檢索文獻的途徑。
5.題名途徑:是指按書名、刊名或文章篇名的字順進行檢索的一種途徑。
6.號碼途徑:是利用文獻代碼、序號編排成的「號碼索引」的一種途徑。
39.信息檢索素養的內涵。
39.答:1.信息意識:指信息在人腦中的反應即人對各種信息的自覺心裡反應,反應人在信息活動中對信息的認識、態度、價值趨向和一定需求。
2.信息知識:是指與信息有關的理論、知識和方法。
3.信息能力:是指有效利用信息技術和信息資源獲取信息、加工處理信息以及創造和交流新信息的能力。
4.信息道德:是指在信息獲取、使用、創造和傳播過程中應該遵守一定的倫理規范。
40.信息檢索策略。
40.答:1.分析檢索課題,明確目的要求。
信息檢索總是按照一定的課題需要進行的,每一項檢索課題都有明確的目的和具體的要求,因此在進行檢索之前,首先要對檢索課題進行認真而細致的分析研究,明確檢索的目的和要求。因為目的不同,要求也不同,選擇連鎖工具、連鎖方法等就有所不同。
2.檢索系統和資料庫的選擇。
信息檢索和資料庫的選擇主要主要考慮其所收錄的學科範圍、存貯年限、更新周期、標引質量、獨特性、所需費用、系統性能和輔助服務等方面考慮,還要注意綜合性和專業性資料庫配合使用。
3.選擇檢索途徑、確定檢索標識。
所謂檢索途徑也就是資料庫中的檢索項(欄位),是指從哪個角度或哪個方向入手進行檢索。
檢索標識是指確切表達文獻信息內容及外表特徵使用的符號或詞語,如分類號、主題詞、關鍵詞、作者姓名、期刊刊名等,檢索時要求准確找出檢索標識,以避免誤檢。
4.編輯檢索表達、調整檢索策略。
檢索表達式是用來表達檢索提問的邏輯檢索表達式,有選擇好的檢索標識根據檢索要求運用不同的運算符號進行組配,以達到較為理想的檢索效果。
但是實際的檢索過程中,用既定的檢索表達式檢出的結果往往不能一次就達到滿意,這就需要根據檢索情況分析原因及時調整檢索策略。
5.獲得原始文章。
(1)檢索網上全文資料庫。
(2)利用網上出版社、雜志。
(3)利用圖書館館藏目錄(館藏聯合目錄)。
(4)利用「網上全文傳遞服務」。
(5)直接向著者索取。
通過上述步驟的查找獲得的如不是文獻全文,可通過以下方式獲得。
⑵ 急急急~網路信息檢索方法與應用 論文
我給你找了一篇,摘要如下:
隨著Internet在全世界范圍內迅猛發展,網上龐大的數字化信息和人們獲取信息之間的矛盾日益突出。因此,對網路信息的檢索技術及其發展趨勢進行探討和研究,是一個既迫切而又實用的課題。本文通過對網路信息檢索的基本原理、網路信息檢索的技術及工具、網路信息檢索的現狀等方面進行分析研究,並對網路信息檢索的發展趨勢進行了預測,旨在尋找提高網路信息檢索的手段和方法的有效途徑,並最終提高網路信息的檢索效果,使得網路信息資源得到充分有效地利用。
全文主要包括六個部分,
第一部分為網路信息檢索述評,主要是闡述了網路信息檢索所涉及到的有關概念,如信息檢索技術、網路信息檢索的特點及網路信息檢索效果評價。
第二部分重點討論了網路信息檢索的基本技術。如信息推拉技術、數據挖掘技術、信息過濾技術、自然語言處理技術等等,旨在弄清網路信息檢索的技術支撐,為預測網路信息檢索的發展趨勢作下鋪墊。
第三部分對網路信息檢索的重要工具——搜索引擎進行了闡述,主要從其檢索機制入手,分析了不同種類的搜索引擎的檢索特點及功能。其獨到之處在於對搜索引擎的基本功能進行了比較全面的概括,並對目前流行的搜索引擎進行科學的分類...
第四部分分析討論了檢索技術的另一分支—基於內容的檢索技術
第五部分則分析了網路信息搜索工具的局限,主要從文本信息檢索和多媒體信息檢索兩方面進行闡述。
好不容易給轉成 .txt文本,貼在下面:
1.1網路信息資源
網路信息資源是指「通過國際Intemet可以利用的各種信息資源」的總稱。
隨著Intemet的迅速發展,網上信息資源也以指數形式增加,網路信息資源作
為一種新型的信息資源,發揮著越來越重要的作用,其內容幾乎無所不包,涉
及政治、經濟、文化、科學、娛樂等各個方面;其媒體形式多種多樣,包括文
本、圖形、圖像、聲音、視頻等;其范圍覆蓋社會科學、自然科學、人文科學
和工程技術等各個領域。
1.2信息檢索技術
信息檢索技術是現代信息社會中非常關鍵的技術之一。信息檢索是指將信
息按一定的方式組織和存儲起來,並根據信息用戶的信息需求查找所需信息的
過程和技術,所以信息檢索的全稱又叫「信息存儲與檢索」。狹義的信息檢索
僅指從信息集合中找出所需信息的過程,也就是利用信息系統檢索工具查找所
需信息的過程。人們獲取信息源的方式主要有:①遵循傳統的檢索方法在浩如
煙海的圖書館資料中,通過人工查找索引找到對應的文獻索引號再獲取文獻原
文;②聯機信息檢索。這其中也存在一個發展過程,由檢索結果來看,從提供
目錄、文摘等相關的二次信息檢索到可以直接獲得電子版的全文;由檢索方法
來看,從對特定關鍵詞或者如作者、機構等輔助信息作為檢索入口的常規檢索
到以原始文獻中任意詞檢索的全文檢索等等。其中,全文檢索由於其包含信息
的原始性、信息檢索的徹底性、所用檢索語言的自然性等特點在近年來發展比
較迅速,成為深受人們關注的一種非常有效的信息檢索技術,它是從大容量文
檔庫中精確定位所需信息的最有效手段l3]。
.3.2web信息檢索
其檢索方式有:瀏覽器方式和搜索引擎方式。
(l)瀏覽器方式(Br,singsystelns)。只要能夠進入hitemct就能夠通過瀏
覽器,利用HTTP協議提供的WV乃萬服務,瀏覽認觸b頁面和通過W匕b頁面提
供的檢索方式訪問資料庫。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息檢
索服務的W七b站點,它是以一定的技術和策略在intemet中搜集和發現網路信
息,並對網路信息進行理解、提取和處理,建立資料庫,同時以認倪b形式提
供一個檢索界面,供用戶輸入檢索關鍵詞、片語或短語等檢索項,代替用戶在
資料庫中查找出與提問相匹配的記錄,同時返回結果且按相關度排序輸出,從
而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬維網服務
器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務的宗旨是為滿
足用戶的信息需要,所以它是面向用戶的,採用的方式是互動式的。
網路信息檢索工具採用主動提交或自動搜索兩種方法搜索數據。
1.4網路信息檢索效果評價
目前,得到普遍認同的檢索效果的評價標准主要有以下幾個:查全率、查
准率、收錄范圍、輸出格式,其中以查全率和查准率最為重要。
現代信息科學技術的發展,為人們提供了多種多樣的信息獲取和傳送方法
及技術,從「信源」與「用戶」的關系來看,可分為兩種模式:「信息推送」
模式(InformationPush),由「信源」主動將信息推送給「用戶」,如電台廣播;
「信息拉取」模式(InformationPull),由「用戶」主動從「信源」中拉取信息,
如查詢資料庫。
2.2.1信息推送技術
「推」模式網路信息服務,是基於網路環境下的一種新的服務形式,即信
息服務者在網上利用「Push」技術為特定用戶開展信息服務的方式。Push技術
之所以成為Intemet上一項新興的技術,是因為藉助該技術使網路信息服務具
有主動性,不僅可以直接把用戶感興趣的信息推送給用戶,而且可有效地利用
網路資源,提高網路吞吐率;再者,Push技術還允許用戶與提供信息的伺服器
之間透明地進行通信,極大地方便了用戶。
所謂Push技術,又稱「推送」技術、Web廣播(Webeasting)技術,實質
上是一種軟體,這種軟體可以根據用戶定義的准則,自動搜集用戶最可能發生
興趣的信息,然後在適當的時候,將其傳遞至用戶指定的「地點」。因而從技
術上看,「推」模式網路信息服務就是具有一定智能性的、可以自動提供信息
服務的一組計算機軟體,該軟體不僅能夠了解、發現用戶的興趣(可能關心的
某些主題的信息),還能夠主動從網上搜尋信息,並經過篩選、分類、排序,
然後按照每個用戶的特定要求,主動推送給用戶141。
(l)信息推送方式。信息推送方式分兩類,即網播方式和智能方式。
網播方式有:頻道式推送。頻道式網播技術是目前普遍採用的一種模式,
它將某些頁面定義為瀏覽器中的頻道,用戶可像選擇電視頻道那樣接受有興趣
的網播信息;郵件式推送,用電子郵件方式主動將所推送信息發布給各用戶,
如國際會議的通知、產品的廣告等:網頁式推送。在一個特定網頁內將所推送
信息發布給各用戶,如某企業、某組織、某個人的網頁;專用式推送。採用專
門的信息發送和接收軟體,信源將信息推送給專門用戶,如機密的點對點通信。
智能推送方式有:操作式推送(客戶推送式),由客戶數據操作啟動信息
推送。當某客戶對數據進行操作時,把修改後的新數據存入資料庫後,即啟動
信息推送過程,將新數據推送給其他客戶;觸發式推送(伺服器推送式),由
ll碩士學位論文
MASTER,5THESIS⑧
資料庫中的觸發器啟動信息推送過程,將新數據推送給其他客戶,當數據發生
變化,如出現增加(Insert)、刪除(Delete)、修改(update)操作時,觸發器
啟動信息推送過程。
(2)信息推送的特徵。信息推送的特徵有:主動性、針對性、智能性、高效
性·靈活性和綜合性I5]。
主動性。Push技術的核心就是服務方不需要客戶方的及時請求而主動地將
數據傳送到客戶方。因而,主動性是「推」模式網路信息服務最基本特徵之一。
這也是它與基於瀏覽器的「拉」(Pull)模式的被動服務的鮮明對比。
針對性(個性化)。針對性是說,Push技術可以針對用戶的特定信息需求
進行檢索、加工和推送,並根據用戶的特定信息需求為其提供個人定製的檢索
界面。
智能性。Push伺服器能夠根據用戶的要求自動搜集用戶感興趣的信息並定
期推送給用戶。甚至,Push技術中的「客戶代理(ClientAgent)」可以定期自
動對預定站點進行搜索,收集更新信息送回用戶。同時個人信息服務代理和主
題搜索代理還可為了提高「推送」的准確性,控制搜索的深度,過濾掉不必要
的信息,將認飛b站點的資源列表及其更新狀態配以客戶代理完成。因而,網
絡環境下的「推」模式信息服務具有較高的智能性。這也是傳統的定題服務
(SDI)不能比的。
高效性。高效性是網路環境下「推」模式信息服務的又一個重要特徵。Push
技術的應用可在網路空閑時啟動,有效地利用網路帶寬,比較適合傳送大數據
量的多媒體信息。
靈活性。靈活性是指用戶可以完全根據自己的方便和需要,靈活地設置連
接時間,通過E一mail、對話框、音頻、視頻等方式獲取網上特定信息資源。
綜合性。「推」模式網路信息服務的實現,不僅需要信息技術設備,而且
還依賴於搜尋軟體、分類標引軟體等多種技術的綜合[6]。
但在當前信息技術的發展階段,「推」技術還存在很大的缺陷,比如:不
能確保信息發送,沒有狀態跟蹤,缺乏群組管理功能等等。因此,國內外的研
究者們又提出超級推(BeyondPush)技術的理論。所謂超級推技術是在保留、繼
承、完善了Push的優點(主動傳遞和個性化定製),摒棄了Push的諸多缺點之
!2碩士學位論文
MASTER,5THESIS管
後而發展起來的一種新型的Push技術。它的最大特點是在於保證傳送。即所
有的信息都是在特定的時間送給特定的信息用戶,同時保持連續性的用戶資
料,隨時可以知道誰收到了信息,信息是否為該用戶定製,用戶環境是否適當
等等[刀。
2.2.2信息拉取技術
常用的、典型的信息拉取技術,如資料庫查詢,是由用戶主動查詢資料庫,
從資料庫中拉取所需信息。其主要優點是:針對性好,用戶可針對自己的需求
有目的地去查詢、搜索所需的信息。
Intemet上的信息拉取技術可以說是資料庫查詢技術的擴展和延伸。在網
絡上,用戶面對的不止是一個資料庫,而是擁有海量信息的hitemet環境,因
此,各種網路信息拉取(查詢)的輔助工具—搜索引擎應運而生了。信息推送與信息拉取兩種模式各有其特點,在實際中常常是將兩者的結合
起來,常用的結合方式為:
(1)「先推後拉」式。先及時地推送最新信息(更新的動態信息),再有針
對性地拉取所需的信息。這樣,便於用戶注意信息變化的新情況和趨勢,從而
動態地選取需要深入了解的信息。
(2)「先拉後推」式。用戶先拉取所需信息,然後根據用戶的興趣,再有針
對性地推送相關的其它信息。
(3)「推中有拉」式。在信息推送過程中,允許用戶隨時中斷、定格在所感
興趣的網頁上,作進一步的搜索,主動拉取更豐富的信息。
(4)「拉中有推」式。在用戶拉取信息的搜索過程中,根據用戶輸入的關鍵
詞,信源主動推送相關信息和最新信息。這樣既可以及時地、有針對性時為用
戶服務,又可以減輕網路的負擔,並便於擴大用戶范圍[8]。
因此,信息推送與信息拉取相結合是當前Intemet、資料庫系統及其它信
息系統為用戶提供主動信息服務的一個發展方向。
2.3Web挖掘技術
隨著功temet的發展,W己b已經成為人類社會的公共信息源。在hitemet
給人類帶來前所未有的信息機遇的同時,又使得人類的信息環境更加復雜,人碩士學位論文
MASTER,5THESIS⑧
類如何利用信息的問題非但沒有如預想的通過信息技術的發展得到圓滿的解
決,相反,隨著信息技術的發展,信息量的激增,造成了個人實際所需信息量
與研觸b上的海量信息之間的矛盾,因而也就造成了個人利用信息的困難。在
這種情況下,雖然出現了叭范b環境下的專門檢索工具,但是由於搜索引擎是
由傳統檢索技術發展而來,在當前用戶要求不斷提高的情況下,傳統的搜索技
術己經不能夠滿足人們的需要。為了更加有效地利用網路信息資源,W七b挖掘
作為新的知識挖掘的手段,為Web信息的利用提出了新的解決方案叨。
2.3,1姍eb挖掘的內容
數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,
提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
Web挖掘則是從WWW及其相關的資源和行為中抽取有用的模式和隱含信息。其
中WWW及其相關資源是指存在於WWW之上的Web文檔及Web伺服器上的日誌文
件以及用戶資料,從Web挖掘的概念中應當看出Web挖掘在本質上是一種知識
發現的手段,它主要從下面3個方面進行仁』時。
(1)Web內容挖掘。W七b內容挖掘是從W匕b數據中抽取知識,以實現Web
資源的自動檢索,提高web數據的利用效率。隨著Intemet的進一步延伸,Web
數據越來越龐大,種類越來越繁多,數據的形式既有文本數據信息,也有圖像、
聲音、視頻等多媒體數據信息,既有來自於資料庫的結構化數據,也有用HTML
標記的半結構化數據及非結構化的自由文本數據信息。因而,對W己b內容信
息挖掘主要從下面兩個角度進行〔」]。
一是從信息檢索的角度,主要研究如何處理文本格式和超級鏈接文檔,這
些數據是非結構化或半結構化的。處理非結構化數據時,一般採用詞集方法,
用一組組詞條來表示非結構化的文本,先用信息評價技術對文本進行預處理,
然後採取相應的模型進行表示。另外,還可以用最大字序列長度、劃分段落、
概念分類、機器學習和自然語言統計等方法來表示文本。處理半結構化數據時,
可以利用一些相關演算法給超級鏈接分類,尋求認七b頁面關系,抽取規則。同
處理非結構化數據相比,由於半結構化數據增加了HTM毛標記信息及Web文
檔內部超鏈結構,使得表示半結構化數據的方法更加豐富。
二是從資料庫的角度,主要處理結構化的W匕b資料庫,也就是超級鏈接
14⑧蕊譽蕊
文檔,數據多採用帶權圖或者對象嵌入模型(OME),或者關系資料庫表示,
應用一定的演算法,尋找出網站頁面之間的內在聯系,其主要目的是推導出Web
站點結構或者把W匕b變成一個資料庫,以便進行更好的信息管理和查詢。數
據庫管理一般分成三個方面:一是模型化,研究認觸b上的高級查詢語言,使
其不局限於關鍵字查詢;二是信息的集成與抽取,把每個W七b站點及其包裝
程序看成是一個認范b數據源,通過W七b數據倉庫(data~house)或虛擬W七b資料庫實現多種數據來源的集成;三是叭幾b站點的創建與重構,通過研
究web上的查詢語言來實現建立並維護web站點的途徑[』「]。
(2)札b結構挖掘。W匕b結構挖掘,主要指的是通過對W七b文檔的分析,從
文檔之間的組織結構獲取有用的模式。W匕b內容挖掘研究的是文檔內的關系,
W七b結構挖掘關注的則是網站中的超級鏈接結構之間的關系,找到隱藏在一個
個頁面之後的鏈接結構模型,可以用這個模型對W七b頁面重新分類,也可以
用於尋找相似的網站。
W七b結構挖掘處理的數據類型為W七b結構化的數據。結構化數據是描述
網頁內容組織方式的數據,頁內結構可以用超文本標記語言等表示成樹型結
構,此外頁間結構還可以用連接不同網頁的超鏈結構表示。文檔間的鏈接反映
了文檔信息間的某種聯系,如隸屬平行關系、引用與被引用關系等。對W七b
頁面的超級鏈接進行分類,可以判斷與識別頁面信息間的屬性關系。由於Web
頁面內部存在或多或少的結構信息,通過研究W亡b頁面內部結構,可尋找出
與用戶選定的頁面集合信息相關的其它頁面信息模式,以檢測W己b站點所展
示的信息完整程度。
③Web行為挖掘。所謂W己b用戶行為挖掘主要是通過對認尼b伺服器的日
志文件以及用戶信息的分析,從而獲得有關用戶的有用模式。W七b行為挖掘的
數據信息主要指網路日誌中包括的用戶行為模式,它包括檢索時間、檢索詞、
檢索路徑、檢索結果以及對哪些檢索結果進行了瀏覽。由於W七b自身的異質、
分布、動態、無統一結構等特點,使得在認七b網上進行內容挖掘比較困難,
它需要在人工智慧和自然語言理解等方面有所突破。所幸的是基於W七b服務
器的109日誌存在著完整的結構,當信息用戶訪問web站點時,與訪問相關的
頁面、時間、用戶ro等信息,日誌中都作了相應的記錄,因而對其進行信息
l5碩士學位論文
MASTER,5THESIS⑥
挖掘是可行的,也是有意義的。在技術實踐過程中,一般先把日誌中的數據映
射成諸種關系信息,並對其進行預處理,包括清除與挖掘不相關的信息等。為
了提高性能,目前對109日誌數據信息挖掘採用的方法有路徑分析、關聯規則、
模式發現、聚類分析等。為了提高精確度,行為挖掘也應用到站點結構信息和
頁面內容信息等方面。
2.3.2web挖掘技術在網路信息檢索中的應用
(l)Web內容挖掘在檢索中的應用。W匕b內容挖掘是指從文檔內容及其描述
中獲取知識的過程,由於用傳統的信息檢索技術對W己b文檔的處理不夠深入,
因此,可以利用叭觸b內容挖掘技術來對網路信息檢索中的W己b文檔處理部分
進行進一步的完善,具體而言表現在以下幾個方面。
①文本總結技術。文本總結技術是指從文檔中抽取出關鍵信息,然後以簡
潔的形式對W匕b文檔的信息進行摘要或表示。這樣用戶通過瀏覽這些關鍵信
息,就可以對W七b網頁的信息有大致的了解,決定其相關性並對其進行取捨。
②文本分類技術。W匕b內容挖掘中的文本分類指的是按照預先定義的主題
類別,利用計算機自動為文檔集合中的每一個文檔進行分類。分類在網路信息
檢索中的價值在於可以縮小檢索范圍,大大提高查准率。目前,己經出現了很
多文本分類技術,如TFIFF演算法等,由於文本挖掘與搜索引擎所處理的文本幾
乎完全一樣,所以可以直接將文本分類技術應用於搜索引擎的自動分類之中,
通過對大量頁面自動、快速、有效的分類,來提高文檔檢索的查准率。
③文本聚類技術。文本聚類與文本分類的過程J險洽相反,文本聚類指的是
將文檔集合中的文檔分為更小的簇,要求同一簇內的文檔之間的相似性盡可能
大,而簇與簇之間的關系盡可能小,這些簇相當於分類表中的類目。文本聚類
技術不需要預先定義好的主題類別,從而使得搜索引擎的類目能夠與所收集的
信息相適應。文本聚類技術與人工分類相比,它的分類更加迅速、客觀。同時,
文本聚類可與文本分類技術相結合,使得信息處理更加方便。可以對檢索結果
進行分類,並將相似的結果集中在一起。
(2)Web結構挖掘在網路信息檢索中的應用。W匕b的信息組織方式採用了一
種非平面結構,一般來說W己b的信息組織方式是根據內容來進行組織的。但
是由於W匕b的這些結構信息比較難以處理,所以搜索引擎一般不處理這些信
16碩士學位論文
MASTER,S竹正515⑧
息,而是將叭觸b頁面作為平面機構的文本進行處理。但是,在從觸b結構挖掘
中,通過對研觸b文檔組織結構的挖掘,搜索引擎可以進一步擴展搜索引擎的
檢索能力,改善檢索效果〔』3]。
(3)脆b行為挖掘在網路信息檢索中的應用。認觸b行為挖掘是一種通過挖掘
總結出用戶的檢索行為的模式。用戶的檢索行為一直是信息檢索中重要的研究
內容,通過研觸b行為挖掘,不僅可以發現多數用戶潛在共同的行為模式,而
且還可以發現單個用戶的個性化行為,對這些模式進行研究,可以更好地對搜
索引擎的檢索效果進行反饋,以便進一步改進搜索策略,提高檢索效果。
2.3.3web挖掘技術的局限及方向
(1)孔b內容挖掘。W七b上的數據不管是用HTML還是XML標記語言表示,
都不能完全解決W七b數據的非結構性問題,特別是漢語句子格式繁多,虛詞、
實詞沒有絕對的界限,切分詞難度大,這些是造成無法對數據進行完全自動標
引的根本性問題,因此,從七b內容挖掘技術有必要結合數據倉庫等信息技術進
行信息存儲,並最終實現智能化、自動化的數據表示和標引,以供搜索之用。
通常數據的表示和數據的利用形式是相互關聯的,因此,設計相應的具有高查
全率和查准率的挖掘演算法也和數據表示一樣是未來的方向之一。另外多媒體數
據如何進行識別分類標引,這也是未來的研幾b內容挖掘研究的難點和方向。
(2)梅b結構數據挖掘。隨著Intemet的迅猛發展,網站的內容也越來越豐
富,結構也越來越龐雜,用有向圖表示巨型網站鏈接結構將不能滿足數據處理
的需要,需要設計新的數據結構來表示網站結構。
由於用來作對比分析發現問題所在的用戶使用信息只有日誌流,那麼,對
用戶使用日誌流中每一鏈接關系如何識別、採用什麼結構表示、如何抽取有用
的模式等等,不僅是認飛b行為挖掘的重要研究內容也是網站結構挖掘的重要
研究方向之一。
(3),eb用戶行為挖掘。由於Iniemet傳輸協議HTTP的無狀態性,客戶端、
代理伺服器端緩存的存在,使用戶訪問日誌分別存在於伺服器、代理伺服器和
客戶端,因此,從W七b用戶訪問日誌中研究用戶訪問規律最大的難點在於如
何把分布於不同位置的訪問日誌經過預處理,形成一個個用戶一次的訪問期
間。通常來講,對於靜態W七b網站,伺服器端的日誌容易取得,客戶端和代
l7理伺服器用戶訪問日誌不容易取得;其次,由於一個完整的W匕b是由一個個
圖片和框架頁面組成的,而用戶訪問伺服器也有並發性,在確定用戶訪問內容
時,必須從伺服器日誌中甄選出某個用戶實際請求的頁面和頁面的主要內容。
另外,由於目前已經有的數據挖掘演算法主要是在大量交易數據基礎上發展起來
的,在處理海量Web用戶訪問日誌中也需要重新設計演算法結構〔』41。
2.4信息過濾技術
hitemet開放式的環境,為人們檢索和利用信息提供了極大的方便,但同
時,網路環境也為人們及時准確地檢索到所需信息帶來了麻煩。這是因為,第
一,網路環境中信息的來源復雜多樣,隨意性大,任何人、任何單位不管其背
景和動機如何都可以在網路上發布信息,信息的產生和傳播沒有經過篩選和審
定,因此信息的可靠性、質量和價值成為用戶普遍擔心的一大問題;第二,目
前大多數據搜索工具的檢索范圍是綜合性的,它們的Robots盡可能地把各種
網頁抓回來,經過簡單加工後存放在資料庫中備檢;第三,搜索引擎直接提供
給用戶的檢索途徑大都是基於關鍵詞的布爾邏輯匹配,返回給用戶的就是所有
包括關鍵詞的文獻,這樣的檢索結果在數量上遠遠超出了用戶的吸收和使用能
力,讓人感到束手無策。這就是人們經常談論的「信息過載」、「信息超載」現
象。信息過濾技術就是在這樣的背景下開始受到人們的重視,它的目的就是讓
搜索引擎具有更多的「智力」,讓搜索引擎能夠更加深入、更加細致地參與到
用戶的整個檢索過程中,從關鍵詞的選擇、檢索范圍的確定到檢索結果的精煉,
幫助用戶在浩如煙海的信息中找到和需求真正相關的資料。
2.4.1信息過濾模型
信息過濾其實質仍是一種信息檢索技術,因此它仍依託於某一信息檢索模
型,不同的檢索模型有不同的過濾方法。51。
(1)利用布爾邏輯模型進行過濾。布爾模型是一種簡單的檢索模型。在檢索
中,它以文獻中是否包含關鍵詞來作為取捨標准,因此,它不需要對網頁數據
進行深度的加工。最簡單的關鍵詞表可以設計成只有三個欄位:關鍵詞、包括
關鍵詞的文獻號、關鍵詞在相應文獻中出現的次數。檢索時,用戶提交關鍵詞
……………………………………
太長 發不全 希望對你有用 實在不行聯系我(給我留言)我發給你郵箱。
⑶ 網路信息檢索及其發展趨勢是什麼
一、智能化x0dx0ax0dx0a智能化是網路信息檢索未來主要的發展方向。智能檢索是基於自然語言的檢索形式,機器根據用戶所提供的以自然語言表述的檢索要求進行分析,而後形成檢索策略進行搜索。用戶所需要做的僅僅是告訴計算機想做什麼,至於怎樣實現則無須人工干預,這意味著用戶將徹底從繁瑣的規則中解脫出來。近幾年來,智能信息檢索()作為人工智慧(AI)的一個獨立研究分支得到了迅速發展。在Internet技術迅速普及的今天,面向Internet的信息獲取與精化技術已成為當代計算機科學與技術領域中迫切需要研究的課題,將人工智慧技術應用於這一領域是人工智慧走向應用的一種新的契機與突破口。x0dx0ax0dx0a二、可視化x0dx0ax0dx0a可視化(visualization)的歷史可以追溯到2400多年前。哲學家柏拉圖指出,我們通過雀大看來識別物體。據統計,人獲取信息有70%一80%靠視覺,20%靠聽覺,10%靠觸覺。用圖像(visual)取代文字幫助人們檢索的優點在於:圖像的表達方式生動、形象、准確、效率更高,能從多角度揭示,而純文字的表達方式是模糊、一維的。x0dx0ax0dx0a三、簡單化x0dx0ax0dx0a未來家用電腦將朝著智能化、網路化、人性化和綠色環保的方向發展;操作系統的用戶友好性將不斷增強,如微軟和蘋果公司都在致力於操作系統網路化研究,以便使其中的任一應用程序都能「連接」進行「網路檢索」,並與網路「交互」;各搜索引擎檢索界面更加「傻瓜化」。使用戶學習和進行網路信息檢索更加容易;網上自動標引、自動文摘、自動跟蹤、自動漫遊、機器翻譯、多媒體技術、動態鏈技術、數據挖掘和信息推鎮磨拉等技術逐步發展、完善,會越來越方便用戶及時准確地檢索信息。這些硬體與軟體技術的發展都有利於網路信息檢索的簡單化。x0dx0ax0dx0a四、多樣化x0dx0ax0dx0a多樣化首先表現在可以檢索的信息形態多樣化,如文本、聲音、圖像、動畫。目前網路信息檢索的主體是文本信息,基於內容的御歲斗檢索技術和語音識別技術的發展,將使多媒體信息的檢索變得逐漸普遍。x0dx0ax0dx0a多樣化的第二個表現是檢索工具向多國化、多語種化方向發展。網路的迅速發展,使得整個世界變成了地球村,世界各地上網人數的不斷增多,使得英語已無法滿足所有用戶的需要,語言障礙越來越明顯。x0dx0ax0dx0a多樣化的第三個表現是網上檢索工具的服務多元化。網上檢索工具已不僅僅是單純的檢索工具,正在向其他服務范疇擴展,提供站點評論、天氣預報、新聞報道、股票點評、各種黃頁(如電話號碼)、航班和列車時刻表、地圖等多種面向大眾的信息服務、免費電子信箱,以多種形式滿足用戶的需要。無論是在國際上還是在國內,檢索工具都在朝多元化方向發展,為用戶提供全方位服務。x0dx0ax0dx0a多樣化還表現在網路信息檢索可以間接地服務於其他行業。例如數據挖掘技x0dx0ax0dx0a術可用於分析歷史數據的變化趨勢,預測未來發展方向,發現大量數據中潛在的模式規律,為投資、科研、項目評估等提供有力的依據;還可以系統地、定量地分析目前較為熱門的研究發展領域及查詢頻繁更新的文獻資料種類,可使信息中心、圖書館等信息服務機構不斷調整文獻資料及圖書的訂閱、收集工作,有的放矢,向以需求為驅動的方向發展,建立一套更為系統、科學的管理方式。x0dx0ax0dx0a五、個性化x0dx0ax0dx0a個性化指各網站注重內容的特色化和注重個性化的服務。x0dx0ax0dx0a網路資源的指數級膨脹,使得用戶在獲得自己需要的信息資源時要花費大量的時間和精力。隨著互聯網的飛速發展,每個人的不同信息需求將凸現於標准化、單一的「大眾需求」之上,並成為各個搜朋夠或網站努力追求的對象。不同的打有消費者個人烙印的產品將成為某個消費者區別他人、感覺自我存在及獨特的外在標志,個性化服務成功的實質在於提供了真正適應用戶需要的產品,貫徹了以用戶為中心的理念。x0dx0ax0dx0a六、商業化x0dx0ax0dx0a網路檢索系統擁有全世界數量眾多的用戶,吸引了大量的廣告,為電子信息的增值服務提供了廣闊的空間。網路檢索系統已成為新的投資熱點。網路檢索系統不再僅僅是一種檢索工具,而且成為一項產業,它的商業利益成為推動系統完善和擴展的主要動力,網路信息的檢索與利用由公用性轉向商業化。美國著名的數字媒體評估公司JupiterMediaMetrix日前發布研究報告稱,「搜索引擎公司推出的付費添加服務是一個正在興起的、前景光明的網際網路領域,相對於目前低迷的在線廣告市場來說,它的發展潛力是非常巨大的。」
⑷ 信號與信息處理的研究方向
(1)實時信號與信息處理主要研究內容:消春嵌入式操作系統的分析、DSP的開發和設計、信號控制技術。信號的採集、壓縮編碼、傳輸、交互和控制技術,流媒體技術以及多人協同工作方式研究,從而實現在DSP和互聯網上的視音頻、文字等多種信息的實時交互和協同工作。
(2)語音與圖像處理該研究方向主要負責研究和探索數字語音和圖像處理領域的前沿技術及其應用。研究內容包括:語音的時頻分析和演算法、聲場分析和目標跟蹤、動態范圍(HDR)圖像處理技術和演算法、圖像加速硬體(GPU)的應用等。
(3)現代感測與測量技術該研究方向理論研究與應用研究並重:在理論上主要開展基礎研究,以發現新現象,開發感測器的新材料和新工藝;在應用上主要結合電力系統的應用需求,開發各種感測與檢測系統。
(4)信息系統與信息安全現代信息系統中的信息安全其核心問題是密碼理論及其應用,其基礎是可信信息系統的構作與評估。該方向主要研究與通信和信息系統中的信息安全有關的科學理論和關鍵技術,主要包括密碼理論與技術、安全協議理論與技術、安全體系結構理論與技術、信息隱藏理論枝肢與技術、信息對抗理論與技猛橋世術、網路與信息系統安全研究。
(5)智能信息處理主要側重於研究將現代智能信息處理的理論、技術和方法應用於現實的各類計算機信息處理系統設計與實現中。為企業培養掌握現代智能信息處理的理論、技術和方法,研究與開發各類智能信息處理系統的技術人才。其主要研究內容有:數字圖象處理、視頻信息的檢測、分析、傳輸、存儲、壓縮、重建以及模式識別與協同信息處理;視覺計算與機器視覺、智能語音處理與理解、智能文本分類與信息檢索、智能信息隱藏與識別。
(6)信息電力為信息科學與電力系統兩學科的邊緣新學科(籌),研究內容包括:數字電力系統,電力通信技術與規程,計算機軟體與網路,電力生產和運營管理,信息技術及其在電力工業中的應用。
(7)現代電子系統現代電子系統研究方向主要研究使用當今最流行的電子系統設計工具,如嵌入式系統,可編程邏輯器件,DSP系統等實現諸如信息家電、通信、計算機等相關領域的硬體設計軟體設計的設計方法。
(8)嵌入式系統與智能控制研究單片機、可編程序控制器(PLC)、DSP、ARM等在智能測量儀表、交通管理、信息家電、家庭智能管理系統、通信和信息處理等方面的應用。
(9)模式識別與人工智慧該方向主要研究模式識別與人工智慧的新理論與新方法,著重研究這些理論和技術在實際系統、尤其是在電力系統中的應用,解決應用中的關鍵技術問題,包括智能化信號處理、圖像型非圖像型目標識別,人工神經元網路、模糊信息處理、統計信號處理、多感測器信息融合以及信號的超高速多通道採集與實時處理技術等。
⑸ 找尋相關資料
WEB全文信息檢索技術
李燦
(華南理工大學圖書館 510641)
摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,並就智能檢索技術的發展進行了闡述。
關鍵詞:信息檢索 網際網路 全文檢索
一、 前言
Internet網是目前全球最大的、最有影響力的信息網絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的區域網(LAN)集成為一個單一的、龐大的、跨越全球的通訊網路。越來越多的人們利用這一網路與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的一項基本技能。
網際網路是一個開放型的巨大的信息資源庫,擁有上千萬台以上的主機和過億的用戶;並且由於網際網路信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,網際網路用戶的數量更是成倍地增長。可見,網際網路檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。
二、 概述
網上的信息具有數量大、形式多、內容廣、專業性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰。如何充分利用網際網路上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據Internet信息的特點而發展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息資料庫中檢索出相關信息資料。
全文檢索的中心環節是文件內容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。
要實現全文檢索,首先必須對WEB信息進行預處正豎沒理。
三、 WEB信息的預處理
信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語詞切分:語詞是信息表達的最小單位,而漢語不同於西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大片語匹配、逆向最大片語匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基於神經元網路的和專家系統的分詞方法和基於統計和頻度分析的分詞方法。
(3)詞法分析:漢語語詞切分中存在切分歧異,如句子「網球拍賣完了」,可以切分為「網球/拍賣完了」,也可以切分為「網球拍/賣完了」。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據詞干建立信息索引。對於英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞「a」,「the」,「it」等)和詞根(如「ing」,「ed」,「ly」等)。
(4)詞性標注和短語識別:在切分的基礎上,利用基於規則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。
(5)自動標引:從網頁文檔中提取出一組能最大程度上概括其內容特徵、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的纖滑簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文檔.
(6)自動分類:建立並維護一套完整的分類目錄體系,根據文文件的信息特徵,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接舉納查詢到該文檔.
.
四、檢索
檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。
(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出並由整個應用系統的目的和需求所決定,並對應於相應的存儲模式和檢索演算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。
(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特徵描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引採取同樣的表達方式,因此能夠採取相似性估計演算法檢索出相關文件。
(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。
(4)查詢詞的選擇策略:
·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。
·反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·互動式選擇:用戶從通過上述策略得出的待選詞中決定最後的查詢詞。
反饋網路屬於人機交互范疇,目的在於提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。
(5) 信息檢索模型:信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標准布爾邏輯模型為二元邏輯,即一系列對應於文件特徵的二元變數。這些變數包括從文件中提取的文本檢索詞,有時也包括一些更為復雜的特徵,如數據、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特徵表達集合。用戶可以根據檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果一般不進行相關性排序。
模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為〔0,1〕的模糊邏輯為基礎的,以隸屬函數概念來描述現象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優先次序排出查詢結果,在布爾檢索中藉助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內部結構聯系,通過歐幾里德距離和餘弦法則作相似性比較,根據矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供准確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對於結果來說,定查詢結果的正確與否。對於布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基於概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能。
五、全文信息檢索技術的發展
目前的全文檢索技術還存在著一些未盡人意的結果,主要是通常的信息檢索系統性能較低,原因是將孤立詞和詞彙術語作為查詢描述子,因而文件內容的相似性較差。智能化信息檢索是人工智慧和信息檢索的相結合的產物。它能使信息檢索系統「理解」用戶的信息需要和文件包含的信息內容。它在對內容的分析理解、內容表達、知識學習、推理機制,決策等基礎上實現檢索的智能化。
目前人工智慧和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統:主要研究方向是開發一個專家中介系統來協助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和片語等。(3)信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內容。
目前,雖然某些在WWW上的信息檢索服務系統採取了智能用戶代理的等方式,可以根據用戶事先定義的信息檢索要求,在網路上實時監視信息源,如指定Web頁面的更新、網路新聞、電子郵件等,並將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術的發展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統的精度和相關性。隨著智能化技術的發展,全文信息檢索技術必將更廣泛地應用於網上信息檢索領域。
參考文獻
1) WWW上的全文信息檢索技術,金燕等,計算機應用研究,1999年第一期,P40-43
2) 全文資料庫建庫原理與應用技術,王蘭成等,情報學報,1999年第4期
⑹ 20100803信息檢索
1、信息素質的具體內容?
信息素質是指用戶在利用以計算機及其網路技術為代表的現代科學技術進行知識學習、成長的過程中,逐步形成的制動參與信息活動、自覺應用信息技術的意識、態度、理念及具備的獲取、識別、加工、處理、傳遞、創造信息的能力和利用信息去解決實踐問題的能力。它包括強烈的信息意識、系統化的信息理念、綜合信息能力等內容。
2、信息、知識、文獻的概念和相互關系?
信息是物質的一種帶有普遍性的關系屬性,是物質存在方式及其運動規律、特點的外在表現。
知識是人們在改造世界的實踐中所獲得的認識和經驗的飢悄高總和,是人的大腦通過思維重新組合的系統化的信息集合。
文獻是記錄有知識的一切載體。是以文字、圖像、符號、聲頻、視頻等作為記錄手段,將信息記錄或描述在一定的物質載體上,有其特定的表現形式,能起到存貯和傳播信息情報與知識作用的載體。
通過上述對信息、知識與文獻的分析,可以認為信息是宇宙間的一切運動狀態及對其報導。宇宙間時時刻刻都在產生著信息,人們正是通過對這些不同信爛尺息的獲取來認識不同事物,並由此生產新的知識。知識是經人腦思維加工而成為有序化的人類信息。文獻則是被物化了的知識記錄,是被人們所認知並可進行長期管理的信息。文獻又是貯存傳遞知識和信息的介質,它們之間的邏輯關系是一種包含關系。
3、文獻的組成要素?文獻有哪些類型?
文獻主要由信息內容、載體材料、信息符號和記錄方式四個基本要素構成。
文獻主要類型有:圖書、報刊、特種文獻、縮微資料、機讀文獻、視聽資料、立體形象資料、光碟資料。
4、什麼是信息檢索?信息檢索與文獻檢索關系?
信息檢索是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息過程,所以它的全稱又叫「信息的存儲與檢索(Information Storage and Retrieval),這是廣義的信息檢索。狹義的信息檢索則僅指該過程的後半部分,即從信息集合中找出所需要的信息的過程,相當於人們通常所說的信息查尋(Information Search)。
信息檢索的意義和作用主要是能有效提高人們檢索信息和利用信息的效率。對大學生來說,文獻信息檢索時培養學生能力的基本技能和方法之一,最主要的是自學能力、研究能力、思維能力、表達能力和組織管理能力的培養,是科學研究不可缺少的一項工作。
5、簡述信息檢索的原理。
以一定的規則和方式對信息單元進行標引,檢索時用戶選擇一概念組構成檢索式對所需信息進行特徵描述,然後採用一定的技術將檢索式與標引的信息單元進行比較、匹配,最後找出匹配度高的作為檢索結果傳遞給用戶。
6、什麼是計算機信息檢索系統,它由幾個部分組成?
計算機信息檢索系統是信息檢索所用的硬體資源、系統軟體和檢索軟體的總合。它能存儲大量的信息,並對信息條目(有特定邏輯含義的基本信息單位)進行分類、編目或編制索引。它可以根據用戶要求從已存儲的信息集合中抽取出特定的信息,並提供插入、修改和刪除某些信息的能力。
一個完整的信息檢索系統,通常由信息源、信息組織管理、系統功能、用戶介面和系統支持技術等幾個有機部分組成。
7、計算機信息檢索技術有哪些?
計算機檢索技術:布爾檢索、向量空間檢索、模糊集合檢索、概率檢索、全文檢索,發展到超文本檢索並向著智能化方向發展。
8、從外表特徵與內容特徵來看,檢索語言的類型各有哪些?不同特徵各舉一簡單的檢索式。運姿
(1)描述信息外部特徵的檢索語言包括題名(書名、刊名、篇名)、著者姓名/單位名稱、出版事項、代碼/序號(如專利號、報告號、標准號)等等;如檢索《水滸傳》則為檢索書名。
(2)描述信息內容特徵的檢索語言包括分類語言和主題語言,主題語言又可分為關鍵詞語言、單元詞語言、標題詞語言和敘詞語言;如在搜索欄打「橋梁」則橋梁為關鍵詞。
9、為什麼要創建「檢索語言」,它有哪些類型?比較分類語言和主題語言的優缺點。
檢索語言就是為溝通文獻標引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標引人員與檢索人員雙方思路的渠道,是用於文獻標引和檢索提問的約定語言。果沒有檢索語言作為標引人員和檢索人員的共同語言,就很難使得標引人員對文獻信息內容的表達和檢索人員對相同文獻信息內容需求時的表達取得一致,信息檢索也就不可能順利實現。因此,編制檢索語言的目的就是不但能夠保證不同的標引人員描述文獻特徵的一致性,而且能夠保證檢索提問詞與文獻標引詞的一致性。要把存儲和檢索聯系一致,檢索語言所表達的概念應該是唯一的。這就是說,表達的概念同所要表達的事物一一對應,盡量減少一詞多義或多詞一義的現象,要使其在該檢索系統中具有單義性。
(一)按照標識的性質與原理劃分 1). 分類語言 2).主題語言 3). 代碼語言 (二)按照表達文獻的特徵劃分 1). 表達文獻外部特徵的檢索語言
比較優缺點:1分類語言是指以數字、字母或字母與數字結合作為基本字元,採用字元直接連接並以圓點(或其他符號)作為分隔符的書寫法,以基本類目作為基本詞彙,以類目的從屬關系來表達復雜概念的一類檢索語言。 以知識屬性來描述和表達信息內容的信息處理方法稱為分類法。著名的分類法有《國際十進分類法》、《美國國會圖書館圖書分類法》、《國際專利分類表》、《中國圖書館圖書分類法》等。 2.主題語言 主題語言是指以自然語言的字元為字元,以名詞術語為基本詞彙,用一組名詞術語作為檢索標識的一類檢索語言。以主題語言來描述和表達信息內容的信息處理方法稱為主題法。主題語言又可分為標題詞、元詞、敘詞、關鍵詞。
10、傳統檢索技術與網路檢索技術的主要區別體現在哪些方面?
區別:網路檢索更加快捷,以互聯網為媒介。信息量更大,網上的資料庫容量幾乎無限,更有前途
11、我國標准分為哪些等級?分別用哪些符號表示?
我國標准體制目前分為四級:國家標准、行業標准、地方標准和企業標准。
國標的代號是GB,推薦性的為GB/T,其他級別的推薦性標准類似。行業標准有70個左右,代號都是兩個(拼音)字母。地方標準的代號是DBXX,企業標准代號的標准格式是 Q/XX,XX也可以是三位,建議不超過四位。
12、專利的新穎性、創造性和實用性各自含義,中國保護的專利類型?
專利的新穎性,是指申請日前沒有同樣的發明或者實用新型在國內外出版物上公開發表過、在國內公開使用過或者以其他方式為公眾所知,也沒有同樣的發明或者實用新型由他人向國務院專利行政部門提出過申請並且記載在申請日以後公布的專利申請文件中。
專利的創造性:是指在有新穎性的情況下,不同的技術之間實際上是沒有產生意想不到的技術效果,簡單說,就是兩者之間的差異不明顯,而且效果無進步.
專利的實用性:指該理論或者觀點的提出對實踐的知道程度。
中國保護的專利類型有3種類型,分別是:發明專利、實用新型專利和外觀設計專利。
13(14)、專利文獻的特點、專利說明書的結構。
專利文獻的特點:1) 專利文獻集技術、法律、經濟信息於一體,是一種數量巨大、內容廣博的戰略性信息資源。2)專利文獻傳播最新技術信息。3) 專利文獻的格式統一規范,高度標准化,並且具有統一的分類體系,便於檢索、閱讀和實現信息化。4) 專利文獻對發明創造的揭示完整而詳盡。
專利說明書的結構:a.發明或實用新型的名稱。b.發明或實用新型所屬的技術領域。c.現有技術和背景技術d.發明或實用新型的月的。e.發明或實用新型的技術方案。f.發明或實用新型與現有技術相比具有的優點、特點或積極效果。g.對附圖的說明。h.實施例或者具體的實施方式。i.如果是涉及微生物方面的申請,文件中還應當寫明該微生物的特徵和分類命名,並註明拉丁文名稱
15、專利文獻的分類方法,分類號的結構組成,專利檢索的目的。
專利文獻採用功能(發明的基本作用)和應用(發明的用途)相結合,以功能為主的分類原則。採用等級形式,將技術內容按部(Section)、分部(Subsection)、大類(Class)、小類(Subclass)、主組(Main group)、分組(Subgroup)逐級分類,形成完整的分類體系。 分類號結構組成:部 類 小類 主組 分組。
專利檢索目的:專利檢索之目的,是為了有效率地搜集最新之專利資訊,以窺得目前相關技術的發展情況,並可參考他人研究成果來縮短研發經費與時間的投入,也能進行迴避設計以避免侵犯他人之專利權。另外,可將所得到的專利技術情報用來判斷其他企業的經營方向、技術水平、市場布局,並從而制定正確的因應策略,知己知彼正是商場競爭致勝的關鍵。一般而言專利檢索可以幫助研發人員和企業,追蹤技術發展動向,策劃研發方向和研擬市場競爭策略。
16、什麼是會議文獻?若查找國外各種學術會議的信息,利用哪些檢索工具?
1、會議文獻是傳遞和獲取科技信息的一種極為有效的重要渠道。
2、檢索工具:中國知網《中國重要會議論文全文資料庫》、萬方數據《中國學術會議論文文摘資料庫》中國學術會議在線網際網路會議預告歐洲研究會議國際標准化組織的標准化會議預告醫學會議查詢
7、闡述我校圖書館引進或購置的外文資料庫的類型及其收錄特點。
類型:1)EBSCOhost系統全文資料庫1、學術期刊集成全文資料庫2、商業資源集成全文資料庫3、傳播和大眾傳媒資料庫4、報紙資源資料庫5、教育類全文期刊資料庫
2)Springerlink電子期刊及圖書 收錄特點:EBSCOhost目前已擁有60多個資料庫,10餘各全文資料庫以及其他資料庫,內容涉及綜合科學、商業、管理、財經、醫學、教育學、軍事、農業、人文等各個方面。其中學術期刊集成全文資料庫和商業資源集成全文資料庫是CALIS集團最早組織的資料庫品種之一,已經為國內多所高校熟悉和使用。 Springerlink可訪問的期刊種數有1850餘種,其中可訪問的全文刊為1150多種,其中95%以上的期刊為英文,其中許多為英文核心期刊,被著名的二次文獻服務收錄並在ISI的SCI里有很高的影響因子。
18、網路資源的特點與種類?搜索引擎的功能。
特點: 從內容上界定 數量上的海量性。種類上的繁多性。分布上開放性。內容上的關聯性。從形式上界定 編排上的非線性。使用上的交互性。更新上的動態性。 從效用上界定資源的共享性。資源的時效性。資源的轉移性。資源的選擇性。資源的增值性。
種類: 資源中心模式。 分布式資源系統。 學科資源庫模式。
搜索引擎的功能: A、基本的檢索功能 a、布爾邏輯算符 b、截詞算符 c、詞位算符 d、限制檢索 B、其他的檢索功能 a、自然語言檢索 b、多語種檢索 c、概念檢索 d、過濾檢索
19、寫出「標准文獻、專利文獻、學位論文、研究報告」作為參考文獻時的標注格式。
(1)專利文獻:序號專利申請者.專利國別,專利文獻種類,專利號.出版日期
(2)技術標准:序號 起草責任者.標准代號標准序號-發布年標准名稱.出版地:出版者,出版年
(3)學位論文:序號 作者. 題名:[學位論文].保存地:保存著,年份
(4)會議論文:序號 作者. 題名.會議名稱,會址,會議年份
20、學術論文一般由哪幾部分構成?各部分的寫作規范分別是什麼?
(一)題名(Title,Topic)對論文題目的要求是:准確得體、簡短精煉、外延和內涵恰如其分、醒目。
(二)作者姓名和單位(Author and department) 大致分為二種情形,即:單個作者論文和多作者論文。後者按署名順序列為第一作者、第二作者。重要的是堅持實事求是的態度,對研究工作與論文撰寫實際貢獻最大的列為第一作者,貢獻次之的,列為第二作者,余類推。註明作者所在單位同樣是為了便於讀者與作者的聯系。
(三)摘要(Abstract) 文字必須十分簡煉,內容亦需充分概括,篇幅大小一般限制其字數不超過論文字數的5%。例如,對於6000字的一篇論文,其摘要一般不超出300字。 論文摘要不要列舉例證,不講研究過程,不用圖表,不給化學結構式,也不要作自我評價
(四)關鍵詞(Key words) 關鍵詞屬於主題詞中的一類。主題詞除關鍵詞外,還包含有單元詞、標題詞的敘詞。 主題詞是指以概念的特性關系來區分事物,用自然語言來表達,並且具有組配功能,用以准確顯示詞與詞之間的語義概念關系的動態性的詞或片語。
(五)引言(Intorction) 引言的文字不可冗長,內容選擇不必過於分散、瑣碎,措詞要精煉,要吸引讀者讀下去。引言的篇幅大小,並無硬性的統一規定,需視整篇論文篇幅的大小及論文內容的需要來確定,長的可達700~800字或1000字左右,短的可不到100字。
(六)正文(Main body) 要求這一部分內容充實,論據充分、可靠,論證有力,主題明確。為了滿足這一系列要求,同時也為了做到層次分明、脈絡清晰,常常將正文部分人成幾個大的段落。這些段落即所謂邏輯段,一個邏輯段可包含幾個自然段。每一邏輯段落可冠以適當標題(分標題或小標題)。
(七)結論(Conclusion) "結論"部分的寫作要求是:措詞嚴謹,邏輯嚴密,文字具體,常象法律條文一樣,按順序1、2、3……列成條文,用語暫釘截鐵,且只能作一種解釋,不能模稜兩可、含糊其詞。文字上也不應誇大,對尚不能完全肯定的內容注意留有餘地。
(八)致謝(Acknowledgment) 致謝語句可以放在正文後
(九)參考文獻(Reference)專論正文部分引用的文獻的標注方法可以採用順序編碼制,也可採用"著者-出版年"制。
21、簡要回答:三大檢索工具SCI、Ei和ISTP的內涵。
SCI是美國《科學引文索引》的英文簡稱,其全稱為: Science Citation Index,它是世界三大檢索系統(EI,SCI,ISTP)之一,是由美國科學情報研究所(Institute for Scientific Information,簡稱ISI)1961創立並出版的一部世界著名的期刊文獻檢索工具,它是根據現代情報學家加菲爾德(Engene Garfield)1953年提出的引文思想而創立的。 SCI中的所有論文都是從ISI巨大的自然科學資料庫(SCI date base)中選取的,這個資料庫的文獻源主要是期刊。收錄全世界出版的數、理、化、農、林、醫、生命科學、天文、地理、環境、材料、工程技術等自然科學各學科。所選用的刊物來源於94個類、40多個國家、多種文字,這些國家主要有美國、英國、荷蘭、德國、俄羅斯、法國、日本、加拿大等,也收錄一定數量的中國刊物,並包括少量的專著。
EI《工程索引》(EngineeringIndex,EI),1884年創刊,由美國工程信息公司出版,報道工程技術各學科的期刊、會議論文、科技報告等文獻。
ISTP《科技會議錄索引》(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年創刊,報導世界上每年召開的科技會議的會議論文
22、科技報告的主要類型和特點?
科技報告的主要類型:
1) 按內容可分為:基礎理論研究和工程技術兩大類。
2) 按形式可分為:技術報告(Technical Reports, 簡稱TR)、技術札記(Technical Notes,簡稱TN)、技術論文(Technical Papers, 簡稱TP)、技術備忘錄(Technical Memoranm,簡稱TM)、通報(Bulletin)、技術譯文(Technical Translations, 簡稱TT)、合同戶報告(Contractor Reports, 簡稱CR)、特種出版物(Special Publications, 簡稱SP)、其它(如:會議出版物、教學用出版物、參考出版物、專利申請說明書及統計資料).
3)按研究進展程度可分為:初步報告(Primary Report)、進展報告(Progress Report)、中間報告(Interim Report)、終結報告(Final Report)。
4)按流通范圍可分為:絕密報告(Top Secret Report)、機密報告(Secret Report)、秘密報告(Confidential Report)、非密限制發行報告(Restricted Report)、非密報告(Unclassified Report)、解密報告(Declassified Report)。屬於保密的科技報告大多屬於軍事、國防工業和尖端技術成果。
科技報告的特點
一. 反映新的科技成果迅速:由於有專門的出版機構和發行渠道,科研成果通過科技報告的形式發表通常比期刊早一年左右。
二. 內容新穎、專深具體:科技報告報道的題目大都涉及尖端科學的最新研究成果,對問題研究的論述包括各種研究方案的選擇和比較,各種可供參考的數據和圖表、成功與失敗的實踐經驗等,內容很具體。
三. 種類多、數量大:科技報告幾乎涉及整個科學、技術領域以及社會科學、行為科學和部分人文科學。據統計,全世界每年出版的科技報告數量達100萬件以上。其中,最多的是美國,約佔83.5%,其次為英國,佔5%,德國、法國各佔1.5%。此外,日、蘇、加等國也都有一定數量的科技報告。
四. 出版形式獨特:每篇科技報告都是獨立的、特定專題的技術文獻,獨自成冊,以單行本形式出版發行。但是,同一單位、同一系統或同一類型的科技報告,都有連續編號,每篇報告一個號碼。科技報告一般無固定出版周期,報告的頁數多少不等,多至八、九百頁,少至幾頁。除一部分技術報告可直接訂購外,多數不公開發行
23、所謂知識產權和專利文獻?專利說明書的格式是什麼?
知識產權是指:公民或法人等主體依據法律的規定,對其從事智力創作或創新活動所產生的知識產品所享有的專有權利,又稱為「智力成果權」、「無形財產權」,主要包括發明專利、商標以及工業品外觀設計等方面組成的工業產權和自然科學、社會科學以及文學、音樂、戲劇、繪畫、雕塑、攝影和電影攝影等方面的作品組成的版權(著作權)兩部分。
專利文獻是包含已經申請或被確認為發現、發明、實用新型和工業品外觀設計的研究、設計、開發和試驗成果的有關資料,以及保護發明人、專利所有人及工業品外觀設計和實用新型注冊證書持有人權利的有關資料的已出版或未出版的文件(或摘要)的總稱。
格式:1、中國專利申請號,不加前綴CN,可以省略小數點後數字。2、中國專利公開( 公告)號,含前綴CN,不加最後一位類別碼字母。以上格式與國家知識產權局專利網站完全一致。
24、專利有哪幾種類型?發明專利應具備的基本條件是什麼?
類型:分為發明專利,實用新型專利,外觀專利三種
發明專利應具備的基本條件是你申請的東西沒有人申請過,市面上沒有你要申請相類似的東西,必須是沒有過的東西.是新的東西
25、有一個專利(專利號:ZL94109488.X),上網查一查。看能否獲取全文。
申請(專利)號:94109488.X
大中小
窗體頂端
窗體底端
申請公開說明書(15)頁
審定授權說明書(15)頁
申請號: 94109488.X 申 請 日: 1994.08.24
名稱: 一種攜帶型痕量元素智能分析儀
公開(公告)號: CN1118067 公開(公告)日: 1996.03.06
主 分 類 號: G01N27/27 分案原申請號:
分 類 號: G01N27/27
頒證 日: 優先權:
申請(專利權)人: 中國地質大學(武漢)
地 址: 湖北省武漢市
發明(設計)人: 李四福; 應曉建 國 際 申 請:
國際公布: 進入國家日期:
專利代理機構: 中國地質大學(武漢)專利事務所 代理人: 呂建軍摘要
一種攜帶型痕量元素智能分析儀,它由單片機控制系統1、程式控制電壓發生器2、恆電位器3、恆電流器4、前置放大器5、模/數轉換電路6、電子開關電路7等組成。其特徵是以單片機作為智能核心組成控制及測量系統,它還可以包括通訊電路8實現與PC機聯機通訊,實現現場樣品實時檢測及分析,功能強,測量精度高(可達PPb級)。
26、我校圖書館對特種科技文獻有哪些資料庫可供檢索?
萬方CNKI 中國科技論文在線 維普中文科技期刊 慧科報刊庫 超星數學圖書館 超星名師講壇 新東方多媒體學習庫 國道外文專題資料庫 銀符考試模擬題庫
27、說使用「邏輯與」可以縮小檢索范圍,而使用「邏輯或」可以擴大檢索范圍?
A與B:同時具有A和B的內容
A或B:第一種情況是只具有A ;第二種情況是只具有B;第三種情況是同時具有A、B
所以說使用「邏輯與」可以縮小檢索范圍,而使用「邏輯或」可以擴大檢索范圍
28、什麼是查全率和查准率?怎樣提高查全率和查准率?
查全率——它是指檢出的相關文獻量與檢索系統中相關文獻總量的比率,是衡量信息檢索系統檢出相關文獻能力的尺度。
查准率——它是指檢出的相關文獻量與檢出文獻總量的比率,是衡量信息檢索系統檢出文獻准確度的尺度。
使用泛指性較強的檢索語言(如上位類、上位主題詞)能提高查全率,但查准率下降.
使用專指性較強的檢索語言(如下位類、下位主題詞)能提高查准率,但查全率下降。
29、按照信息內容的加工深度和出版形式,文獻有哪些類型?它們之間的關系是什麼?
按照文獻的出版形式可以分為圖書、期刊、報紙、特種文獻(政府出版物、學位論文、科技報告、專利、標准、檔案、會議文獻、產品樣本等)。
按照文獻的載體形式,可以分為手寫型文獻、印刷型文獻、縮微型文獻、視聽型文獻與機讀型文獻。
關系
⑺ 現在計算機方向研究生階段有哪些熱門的研究領域
計算機考研方向有計算機系統結構,計算機與理論,計算機應用技術,信息安全和工程等。
計算機系統結構是計算機科學與技術專業的重要學科之一,主要研究計算機硬體與的功能分配、軟硬體界面的劃分、計算機硬體結構組成與實現方法及技術,其中嵌入式系統無疑是當前最熱門、最有發展前途的方向之一。計算機系統結構專業要求學生具有扎實的計算機軟硬體基礎,不僅能對計算機系統進行研究與設計,還要具有計算機應用、開發的能力。相對而言,該專業的畢業生還是比較好找工作的,適合於從事計算機網路、嵌入式技術、高性能計算、網路信息安全和多媒體信息處理等研究領域或工程技術領域的工作。
計算機與理論專業主要研究設計、開發、維護和使用過程中涉及的理論、方法和技術,探討計算機科學與技術發展的理論基礎。該專業競爭比較激烈,大部分研究方向如信息安全理論及應用、嵌入式系統、計算智能、信息安全、新型程序設計與方法學、自動化、分布計算與並行處理、工程、先進操作系統、計算機系統信息安全都是當今IT市場比較熱門的方向。
計算機應用技術的研梁畢究方向非常廣泛,包括網路攻防技術、網路與資料庫技術的應用、數據倉庫與數據挖掘、多媒體與智能信息檢索、數據網格與知識網格、計算機視覺與虛擬現實、模式識別與圖像處理等。隨著國內信息化產業的迅速唯如推進及互聯網的蓬勃發展,市場對網路工程師、網路管理員等技術人才的需求日漸看漲。
信息安全培養培養能夠從事計算機、通信、電子商務、電子政務、電子金融等領域的信息安全高級專門人才。
工程涉及到程序設計語言、資料庫、開發工具、系統、標准、設計模式等方面。在現代社會中,應用於多個方面,促進了經濟和社會的發展,使得橡山芹人們的工作更加高效,同時提高了生活質量。
⑻ 計算機研究生專業方向
主要分為四個大方向分別是:AI(人工智慧)、Systems(計算機系統)、Theory(計算機理論)、Interdisciplinary Areas(交叉領域)。
4.自然語言處理(Natural language Processing)
自然語言處理主要應用於機器翻譯、輿情監測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面。
5.信息檢索(The Web & information retrieval )
信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為「信息存儲與檢索」,是指將信息按一定的方式組織和存儲起來,並根據用戶的需要找出行畢胡有關信息的過程。
⑼ 計算機科學與技術研究方向
計算機科學與技術的研究方向是數據挖掘、信息檢索、語義分析。
計算機科學與技術簡介:
計算機科學與技術,亦即計算機科學與技術專業。下屬三個二級學科,本專業培養具有良好的科學素養,系統地、較好地掌握計算機科學與技術包括計算機硬體、軟體與應用的基本理論、基本知識和基本技能與方法,能在科研部門、教育單位、企業、事業、技術和行政管理部門等單位從事計算機教學、科學研究和應用的計算機科學與技術學科的高級科學技術陵灶人才。
計算機科學與技術主要課程,電路原理、模擬電子技術、數字邏輯、數值分析、計算機原理、微型計算機技術、計算機系統結構、計算機網路、高級語言、匯編語言、數據結構、操作系統、資料庫原理、編譯原理、圖形學、臘租人工智慧、計算方法、離散數學、概率統計、線性代數以及演算法設計與分析、人機交互、面向對象方法、計算機英語等。