⑴ 網路信息檢索的現狀與發展
網路信息檢索的現狀與發展
1990年以前,網路信息檢索的現狀與發展沒有任何人能夠檢索互聯網上的信息。應該說,所有的網路信息檢索工具都是從1990年的Alan Emtage等人發明的Archie開始的,雖然它當時只可以實現簡單意義上的FTP文件檢索。隨著World Wide Web的出現和發展,基於網頁的信息檢索工具出現並迅速發展起來。1995年基於網路信息檢索工具本身的檢索工具元搜索引擎由美國華盛頓大學的Eric Selberg 等發明。伴隨著網路技術的發展,網路信息檢索工具也取得了十足的發展,那麼這些檢索工具的現狀和發展趨勢如何呢?本文將試作以探討。
1.基於網頁的網路信息檢索工具的現狀和發展趨勢
1.1現狀。網頁是網際網路的最主要的組成部份,也是人們獲取網路信息的最主要的來源,為了方便人們在大量繁雜的網頁中找尋自己需要的信息,這類檢索工具發展的最快。一般認為,基於網頁的信息檢索工具主要有網頁搜索引擎和網路分類目錄兩種。網頁搜索引擎是通過「網路蜘蛛」等網頁自動搜尋軟體搜索到網頁,然後自動給網頁上的某些或全部字元做上索引,形成目標摘要格式文件以及網路可訪問的資料庫,供人們檢索網路信息的檢索工具。網路目錄則是和搜索引擎完全不同,它不會將整個網路中每個網站的所有頁面都放進去,而是由專業人員謹慎地選擇網站的首頁,將其放入相應的類目中。網路目錄的信息量要比搜索引擎少得多,再加上不同的網路目錄分類標准有些混亂,不便人們使用,因此雖然它標引質量比較高,利用它的人還是要比利用搜索引擎的人少的多。
但是由於網路信息的復雜性和網路檢索技術的限制,這類檢索工具也有著明顯的不足。(1)隨著網頁數量的迅猛增加,人工無法對其進行有效的分類、索引和利用。網路用戶面對的是數量巨大的未組織信息,簡單的關鍵詞搜索,返回的信息數量之大,讓用戶無法承受。(2)信息有用性評價困難。一些站點在網頁中大量重復某些關鍵字,使得容易被某些著名的搜索引擎選中,以期藉此提高站點的地位,但事實上卻可能沒有提供任何對用戶有價值的信息。(3) 網路信息日新月異的變更,人們總是期望挑出最新的信息。然而網路信息時刻變動,實時搜索幾乎不可能,就是剛剛瀏覽過的網頁,也隨時都有更新、過期、刪除的可能。
1.2發展趨勢。網路信息檢索工具的發展主要體現在進一步改進、完善檢索工具和檢索技術,以提高檢索服務質量,改變網路信息檢索不盡如意的地方。主要體現在以下幾個方面:
1.21網路檢索工具開發提供商之間合作越來越緊密。過去一般網路檢索工具提供商只依靠自己建立的資料庫來提供檢索服務,檢索范圍有限,而現在某些著名的搜索引擎在購買其他公司的資料庫或者技術內核,有的與其他搜索引擎建立夥伴關系,以便用戶使用。比如著名雅虎現在採用的是Google的搜索內核,網易也曾經使用Google的搜索內核技術來豐富自己的搜索引擎資料庫,矽谷動力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了網路的搜索內核技術等等。
1.22信息檢索工具專業化及服務內容深化。一些檢索工具已經不再盲目追求加大收錄和標引量,而更加註重突出專業特色。在lycos搜索引擎目錄中,我們可以看到商業搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫學搜索引擎等專業化的網路信息檢索紛紛出現,信息檢索工具的專業化已經成為一種不可逆轉的趨勢。信息檢索服務商將服務更加深化:Google推出了網頁引文查詢服務,通過它可以查看自己所要查詢的資料被其他網站引用的情況,從而使用戶更好的把握網頁信息的質量;2003年8月,第三代中文搜索引擎慧聰問世,它則集「廣泛的地域搜索」、「強大的行業搜索」、「完美的MP3、Flash搜索」眾多搜索功能為一體,還開發了「針對內容的相關性查詢」和「符合漢語特性的模糊查詢」,可以實現漢語拼音查詢和同音詞糾錯。
1.23網路信息工具智能化的發展趨勢:(1)信息檢索工具的智能化首先是網路蜘蛛的智能化。針對網路信息的動態更替性,網路蜘蛛通過啟發式學習採取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息。網路蜘蛛能在網路的任何地方工作,能盡可能地挖掘和獲得信息。網路蜘蛛還要有網頁跟蹤監測功能,如果網頁出現更新、刪除等情況要及時在資料庫中更新。網路蜘蛛具有跨平台工作和處理多種混合文檔結構的能力。(2)其次是檢索軟體的智能化。現在主要有智能搜索引擎、智能瀏覽器、智能代理。這些網路檢索工具都非常重視開發實現基於自然語言形式的輸入,檢索者可以將自己的檢索提問以及所習慣的短語、片語甚至句子等自然語言的形式輸入,智能化的檢索軟體將能夠自動分析,而後形成檢索策略進行檢索。比如現在的網路搜索可以在你輸入關鍵詞以後,不斷提供一些相近的關鍵詞供你選擇,直至找到你所需要的結果。Google則藉助於機器翻譯技術,將一種自然語言轉變成另外一種自然語言,使用戶能夠使用母語搜索非母語的網頁,並以母語瀏覽搜索結果。尤里卡、問一問、和國外的ASK Jeeves則通過語義技術和檢索技術的結合,可是實現檢索工具對搜索詞在語義層次上的理解,為用戶提供最准確地檢索服務。
2.基於FTP文件的搜索工具。
2.1現狀。如前所述,搜索引擎的雛形以及最早的搜索引擎都是基於FTP文件搜索的。最早的FTP搜索引擎是基於文本顯示的Archie。後來由於WEB的出現,FTP搜索引擎發展受到了一定的影響。直到基於WEB的FTP搜索引擎出現,它才越來越多受到人們的歡迎,用戶量也在迅速上升,重要性也日漸顯現出來。FTP搜索引擎的功能是搜集匿名FTP伺服器提供的目錄列表並向用戶提供文件信息的查詢服務。目前,國內做的最好的、規模最大的當屬天網FTP文件搜索引擎,現在可以搜索2400萬個文件(數據來源於天網主頁),2002年時的統計日訪問量是40萬次,這在世界FTP搜索引擎界也算是一個佼佼者。另外國內還有清華9#搜索引擎、西安交大思源搜索、華南木棉搜索引擎、網路指南針、中科大天狼搜索引擎以及南京理工的「一網打盡」搜索引擎等等,國外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前國外最先進的,支持包括站點快照和文件分類等新興功能,而且文件數據量非常大。
近幾年來,雖然FTP搜索引擎技術發展的很快,但相對WWW搜索引擎而言,FTP搜索引擎為數不多,技術上也還不十分成熟,還有很多需要改進的地方:(1)FTP搜索引擎的收錄數量還比較少,搜索引擎的規模和質量還是要取決於其維護的信息量。據統計,全球匿名FTP服務提供的文件條目已經有數億條,即便是目前規模最大的Philes.com,據陳華、李曉明2002年7月份統計也只有209,698,206 個文件。(2)檢索功能還不完善。檢索功能是一個搜索引擎最重要的部分,有很多搜索引擎還不能支持「and」和「or」等簡單的布爾檢索,使得資料庫中的文件不能被檢索到。(3)FTP伺服器本身特點決定了FTP搜索引擎弱點,即由於FTP伺服器有開放時間、有的還限制IP地址、有的限制登陸的用戶量、不同的伺服器設立的聯接埠號並不相同等決定了其搜索到的結果有一部分是不能訪問的,大大降低了用戶的滿意度。
2.2發展趨勢。正如前文所述,FTP文件搜索引擎技術還不是很成熟,但其發展非常迅速,其發展趨勢主要表現在以下幾個方面:(1)檢索功能日益豐富。天網FTP文件搜索引擎現在可以實現以文件大小、文件的上傳日期、以及網段(比如說是華北網、華東網等)等多個條件的高級檢索來限制檢索結果;AlltheWeb.com增加了檢索方式(規則表達檢索、准確檢索、瀏覽、對大小寫敏感與否等等),限制主機(是e還是gov或者com等),文件類型以及文件大小、日期等功能。(2)檢索服務的個性化。現在FTP搜索引擎研究者已經開始注意這一方面,天網ftp搜索引擎已經有了很多可以個性化的選項:可以設置用戶不同偏好的排序方式,可以設定國外文件優先還是本國文件優先,對於國外用戶是不是應該國外文件優先,是FTP上文件優先還是WWW上的文件優先,是選擇中文的還是英文的等等。AlltheWeb.com則是可以完成更豐富的個性化設置,比如說可以選擇一個主機提供一個結果、設置語言、搜索的文件大小設置、是否亮度顯示搜索關鍵詞、設置使用者語言、以及鍵盤快捷鍵等等。
3.基於網路檢索工具的檢索技術的現狀和發展趨勢。
3.1隨著網上信息資源的膨脹發展,一種搜索引擎,無論它多麼完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞調查與溯源、軟體及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,基於網路檢索工具的檢索工具產生了。
目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結果由各搜索引擎分別以不同頁面提交的網路檢索工具,其實是利用網站鏈接技術形成的搜索引擎集合。集成搜索引擎製作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。如國內天網搜霸和網路搜霸,國外比較著名的有「搜索之家」(http://so.web165.com/)、「網際瑞士軍刀」(http://free.okey.net/~free/search1.htm)等。另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將所有查詢結果集中起來以整體統一的格式呈現到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五個為2002年度的最佳元搜索引擎)等。目前國內現在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網頁搜尋機制,亦無獨立的索引資料庫,但在檢索請求提交、檢索介面代理和檢索結果顯示等方面,均有自己研發的特色元搜索技術支持。目前元搜索引擎技術主要有並行處理式和串列處理式兩大類。並行式元搜索引擎運行時是將查詢請求同時發向各個獨立搜索引擎,然後將的結果按特定的順序呈現給用戶;串列式元搜索引擎運行時是將查詢請求先發向某個獨立搜索引擎,待其返回結果後再將請求發往另一個獨立搜索引擎。
從第一個元搜索引擎Metacrawler誕生至今,這一新型的網路檢索工具異軍突起,發展迅速,目前可用的元搜索引擎已近百種。由於元搜索引擎的功能受著源搜索引擎和元搜索技術的雙重製約,元搜索引擎比較理想的並不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現檢索語法轉換的能力有限,不支持指定欄位檢索,不能充分發揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調用源搜索引擎;(4)大部分元搜索引擎僅支持調用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結果上,元搜索引擎只能返回十幾、數十條「相關度」較高的結果,大量可能有價值的源搜索引擎的檢索結果被忽視,影響檢索結果的全面性。
3.2發展趨勢。這類檢索工具的發展趨勢主要表現在下面幾個方面:(1)檢索結果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實現搜索結果的自動分類,用戶即可以利用傳統的方式瀏覽結果,也可以利用其同屏的分類結果提示找尋自己需要的內容。EZ2WWW高級搜索功能提供1000多種專項資源檢索,可進行目錄檢索。SurfWax有一個其它元搜索引擎沒有的獨特功能,即點擊每條結果左邊的「網址撳鈕」圖標,可瀏覽該結果包括的任何頁面,並顯示搜索語句在文件中的位置,也可以把搜索結果和文件存儲起來以備後用。天網搜霸已經擁有了獨特的鏈接檢測功能,在幾秒鍾內檢查當前頁面查詢結果是否可以訪問,如果為標注綠色,則鏈接可連通(目前僅檢測頁面內以http://和ftp://開頭的鏈接)(2)檢索界面的個性化趨勢。天網搜霸和Google提供了IE瀏覽器的插件,安裝後就會被嵌到IE的工具欄,用戶不用登陸天網的主頁,就可以實現檢索。用戶可以將自己喜歡的搜索引擎設置為主要搜索,也可以添加用戶自己喜歡的搜索引擎。天網搜霸不久前剛剛推出了可以嵌在Windows系統任務欄上的插件,現在用戶連打開IE瀏覽器都不需要了。Mamma可以選擇使用短語檢索功能、設定檢索時間、設定每頁可顯示記錄數,還提供了專門檢索頁面文件標題的特殊檢索服務,以及通過E-mail傳輸檢索結果的特色功能。MetaCrawler可以實現搜索引擎的選擇調用,基於域名、地區或國家的檢索結果過濾,最長檢索時間設置,每頁可顯示的和允許每個搜索引擎返回的檢索結果數量的設定,設定檢索結果排序依據(包括相關度、域名、源搜索引擎)個性化定製保存。(3)智能化。ProFusion可以自動實現符合特殊檢索語法要求的轉換,如在調用Excite、InfoSeek、WebCrawler時將「NEAR」轉換成「AND」,在調用GoTo、Yahoo時將「NOT」刪除等;Mamma也支持常用檢索語法在不同搜索引擎中的轉換;C4可以支持自然語言檢索,雖然它沒有自己的資料庫,卻可以提供網上的檢索結果。
⑵ 網路信息檢索及其發展趨勢
一、智能化\x0d\x0a\x0d\x0a智能化是網路信息檢索未來主要的發展方向。智能檢索是基於自然語言的檢索形式,機器根據用戶所提供的以自然語言表述的檢索要求進行分析,而後形成檢索策略進行搜索。用戶所需要做的僅僅是告訴計算機想做什麼,至於怎樣實現則無須人工干預,這意味著用戶將徹底從繁瑣的規則中解脫出來。近幾年來,智能信息檢索()作為人工智慧(AI)的一個獨立研究分支得到了迅速發展。在Internet技術迅速普及的今天,面向Internet的信息獲取與精化技術已成為當代計算機科學與技術領域中迫切需要研究的課題,將人工智慧技術應用於這一領域是人工智慧走向應用的一種新的契機與突破口。\x0d\x0a\x0d\x0a二、可視化\x0d\x0a\x0d\x0a可視化(visualization)的歷史可以追溯到2400多年前。哲學家柏拉圖指出,我們通過看來識別物體。據統計,人獲取信息有70%一80%靠視覺,20%靠聽覺,10%靠觸覺。用圖像(visual)取代文字幫助人們檢索的優點在於:圖像的表達方式生動、形象、准確、效率更高,能從多角度揭示,而純文字的表達方式是模糊、一維的。\x0d\x0a\x0d\x0a三、簡單化\x0d\x0a\x0d\x0a未來家用電腦將朝著智能化、網路化、人性化和綠色環保的方向發展;操作系統的用戶友好性將不斷增強,如微軟和蘋果公司都在致力於操作系統網路化研究,以便使其中的任一應用程序都能「連接」進行「網路檢索」,並與網路「交互」;各搜索引擎檢索界面更加「傻瓜化」。使用戶學習和進行網路信息檢索更加容易;網上自動標引、自動文摘、自動跟蹤、自動漫遊、機器翻譯、多媒體技術、動態鏈技術、數據挖掘和信息推拉等技術逐步發展、完善,會越來越方便用戶及時准確地檢索信息。這些硬體與軟體技術的發展都有利於網路信息檢索的簡單化。\x0d\x0a\x0d\x0a四、多樣化\x0d\x0a\x0d\x0a多樣化首先表現在可以檢索的信息形態多樣化,如文本、聲音、圖像、動畫。目前網路信息檢索的主體是文本信息,基於內容的檢索技術和語音識別技術的發展,將使多媒體信息的檢索變得逐漸普遍。\x0d\x0a\x0d\x0a多樣化的第二個表現是檢索工具向多國化、多語種化方向發展。網路的迅速發展,使得整個世界變成了地球村,世界各地上網人數的不斷增多,使得英語已無法滿足所有用戶的需要,語言障礙越來越明顯。\x0d\x0a\x0d\x0a多樣化的第三個表現是網上檢索工具的服務多元化。網上檢索工具已不僅僅是單純的檢索工具,正在向其他服務范疇擴展,提供站點評論、天氣預報、新聞報道、股票點評、各種黃頁(如電話號碼)、航班和列車時刻表、地圖等多種面向大眾的信息服務、免費電子信箱,以多種形式滿足用戶的需要。無論是在國際上還是在國內,檢索工具都在朝多元化方向發展,為用戶提供全方位服務。\x0d\x0a\x0d\x0a多樣化還表現在網路信息檢索可以間接地服務於其他行業。例如數據挖掘技\x0d\x0a\x0d\x0a術可用於分析歷史數據的變化趨勢,預測未來發展方向,發現大量數據中潛在的模式規律,為投資、科研、項目評估等提供有力的依據;還可以系統地、定量地分析目前較為熱門的研究發展領域及查詢頻繁更新的文獻資料種類,可使信息中心、圖書館等信息服務機構不斷調整文獻資料及圖書的訂閱、收集工作,有的放矢,向以需求為驅動的方向發展,建立一套更為系統、科學的管理方式。\x0d\x0a\x0d\x0a五、個性化\x0d\x0a\x0d\x0a個性化指各網站注重內容的特色化和注重個性化的服務。\x0d\x0a\x0d\x0a網路資源的指數級膨脹,使得用戶在獲得自己需要的信息資源時要花費大量的時間和精力。隨著互聯網的飛速發展,每個人的不同信息需求將凸現於標准化、單一的「大眾需求」之上,並成為各個搜朋夠或網站努力追求的對象。不同的打有消費者個人烙印的產品將成為某個消費者區別他人、感覺自我存在及獨特的外在標志,個性化服務成功的實質在於提供了真正適應用戶需要的產品,貫徹了以用戶為中心的理念。\x0d\x0a\x0d\x0a六、商業化\x0d\x0a\x0d\x0a網路檢索系統擁有全世界數量眾多的用戶,吸引了大量的廣告,為電子信息的增值服務提供了廣闊的空間。網路檢索系統已成為新的投資熱點。網路檢索系統不再僅僅是一種檢索工具,而且成為一項產業,它的商業利益成為推動系統完善和擴展的主要動力,網路信息的檢索與利用由公用性轉向商業化。美國著名的數字媒體評估公司JupiterMediaMetrix日前發布研究報告稱,「搜索引擎公司推出的付費添加服務是一個正在興起的、前景光明的網際網路領域,相對於目前低迷的在線廣告市場來說,它的發展潛力是非常巨大的。」
⑶ 信息檢索的發展趨勢是什麼
信息技術的發展趨勢
1.高速、大容量。速度越來越高、容量越來越大,無論是通信還是計算機發展都是如此。
2.綜合化。包括業務綜合以及網路綜合。
3.數字化。一是便於大規模生產。過去生產一台模擬設備需要花很多時間,模擬電路每一個單獨部分都需要進行單獨設計單獨調測。而數字設備是單元式的,設計非常簡單,便於大規模生產,可大大降低成本。二是有利於綜合。每一個模擬電路其電路物理特性區別都非常大,而數字電路由二進制電路組成,非常便於綜合,要達到一個復雜的性能用模擬方式往往綜合不起來。現在數字化發展非常迅速,各種說法也很多,如數字化世界、數字化地球等。而搞數字化最主要的優點就是便於大規模生產和便於綜合這兩大方面。
4.個人化。即可移動性和全球性。一個人在世界任何一個地方都可以擁有同樣的通信手段,可以利用同樣的信息資源和信息加工處理的手段。