『壹』 檢索語言的功能主要有哪些
信息檢索語言是為查找信息服務的,因此,它必須具備以下的功能。
1.信息檢索語言應可表示文獻內容、數據或其他信息形式。為了滿足不同信息用戶的需要,信息檢索語言應能根據不同的信息需求,表達不同的類型。例如,檢索某種器材的性能時,信息檢索語言應能表達某些數據指標;而在檢索某種物質結構時,又能表達物質名稱和物質結構方式。
2.有專用概念表示用戶的信息提問。信息檢索不單純是字面上的組合,而是一種概念上的匹配。例如,計算機繪圖,這里有兩個名詞,既可拆又可合。拆開後,依據「計算機」可查出「計算機解題」、「計算機控制」、「計算機維修」、「計算機繪圖」等信息;但「繪圖」卻涉及到美術繪圖、工程繪圖、計算機繪圖等
『貳』 搜索引擎的主要功能及檢索方法是什麼
搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。
『叄』 搜索引擎通常具備哪些基本的檢索功能
現有的搜索引擎基本上分為三類:
1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的資料庫檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調用其它多個獨立的搜索引擎來完成檢索功能,並且能夠將從多個獨立搜索引擎查詢的結果進行不同程度的處理,比如刪除重復結果、校驗連接、結果按照相關度排序等。元搜索引擎本身可以有也可以沒有自己的資料庫。由於不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足「最低常用分母」,即不能提高搜索結果的准確性。
1.3 Net search engine(網路搜索軟體) 就是網路用戶可以將相應的搜索軟體下載至本地的計算機上,安裝查詢,這是一種具有網路查詢功能的離線瀏覽器。相對於元搜索引擎,它可以靈活地控制輸出結果,其最大特點是方便用戶使用和能快速地查詢網路相關資源。2 網路搜索引擎的工作原理及其基本構成
用戶檢索信息時,搜索引擎是根據用戶的查詢要求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對於獨立的搜索引擎而言.還需要建立並維護一個龐大的資料庫。獨立搜索引擎中的索引資料庫中的信息是通過一種叫做網路蜘蛛(spider)的程序軟體定期在網上爬行,通過訪問公共網路中公開區域的每一個站點採集網頁,對網路信息資源進行收集,然後利用索引軟體對收集的信息進行自動標引,創建一個可供用戶按照關鍵字等進行查詢的web頁索引資料庫,搜索軟體通過索引資料庫為用戶提供查詢服務。所以,一般的搜索引擎主要由網路蜘蛛、索引和搜索軟體三部分組成.
網路蜘蛛。是一個功能很強的程序,它會定期根據預先設定的地址去查看對應的網頁,如網頁發生變化則重新獲取該網頁,否則根據該網頁中的鏈接繼續去訪問。網路蜘蛛訪問頁面的過程是對互連網上信息遍歷的過程。為了保證網路蜘蛛遍歷信息的廣度,一般事先設定_ 些重要的鏈接,然後進行遍歷。在遍歷的過程中不斷記錄網頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。
索引軟體。網路蜘蛛將遍歷搜索集得到的網頁存放在資料庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟體。該軟體用於篩選索引資料庫中無數的網頁信息,選擇出符合用戶檢索要求的網頁並對它們進行分級排序。然後將分級排序後的結果顯示給用戶。
3 搜索引擎的主要性能評價指標
3.1 搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應時間、查全率、查准率和相關度方面來衡量。響應時間是用戶輸入檢索式開始查詢到檢出結果的時間。查全率是指一次搜索結果中符合用戶要求的數目與和用戶查詢相關的總數之比;查准率是指一次搜索結果集中符合用戶要求的數目與該次搜索結果總數之比;相似度是指用戶查詢與搜索結果之間相似度的一種度量。雖然由於無法估計網路上與某個檢索提問相關的所有信息數量。所以目前尚沒有定量計算查全率的更好方法,但是它作為評價檢索效果的指標還是值得保留。查准率也是一個復雜的概念,一方面表示搜索引擎對搜索結果的排序,另一方面卻體現了搜索引擎對垃圾網頁的抗干擾能力。總之,一個好的搜索引輦應該具有較快的響應速度和高的查全率和查准率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現了用戶對於搜索引擎的偏愛程度,知名度高、性能穩定和搜索質量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會隨著它的知名度和服務水平的變化而動態的變化。搜索引擎的服務水平和它所收集的信息量、信息的新鮮度和查詢的精度相關。隨著各種新的搜索技術的出現,智能化的、支持多媒體檢索的搜索引擎將越來越受用戶的歡迎。
另外,搜索引擎的信息佔有量也可以作為評價搜索引擎性能的指標。綜上所述,評價搜索引擎的性能指標可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術,多媒體檢索,內碼處理等);C.查詢效果(響應時間,查全率,查准率,相關度);d.受歡迎程度;e.信息佔有量。4 搜索引擎檢索信息的局限
2001年Roper的調查指出,36% 的互連網用戶一個星期花超過2個小時的時間在網上搜索;71% 的用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鍾以後發現搜索受挫。另一項由Keen所做的調查顯示,31% 的人使用搜索引擎尋找答案,網上查找答案的半數以上都不成功。從這些調查數據中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來大致有以下幾個方面。
4.1 搜索引擎對信息的標引深度不夠 目前,搜索引擎檢索的結果往往只提供一些線形的網址和包括關鍵詞的網頁信息,與人們對它的預期存在較大的距離,或者返回過多的無用信息,或者信息丟失,特別是對特定的文獻資料庫的檢索顯得無能為力。
4.2 搜索引擎的信息量佔有不足 作為搜索引擎必須佔有相當大的信息量才能具有一定的查全率和實用性。目前還沒有一種覆蓋整個網際網路信息資源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起來,這是因為:一方面由於網上信息數量巨大、內容龐大、良莠不齊,信息的質量得不到保障;另一方面是由於大多數搜索引擎的索引工作由程序自動完成,根據網頁中詞頻及詞的位置等因素確定關鍵詞,有的網站為了提高點擊率,將一些與網頁主題並不相關的熱門詞彙以隱含方式放在頁面上,並重復多次,從而造成查准率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或者概念進行籠統的檢索。
4.5 搜索引擎自身的技術局限像目前部分搜索引擎還不能支持對多媒體信息的檢索。造成上述信息檢索困難的原因實質在於搜索引擎對要檢索的信息僅僅採用機械的詞語匹配來實現,缺乏知識處理能力和理解能力。也就是說搜索引擎無法處理用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區域性知識以及隨領域不同而變化的專業性知識等等。5 搜索引擎未來的發展趨勢
新一代搜索引擎的發展目標就是採用新興的搜索技術為用戶提供更方便易用、更精確的搜索工具來滿足用戶的信息查詢需要。技術上,應該在自然語言理解技術上有所突破,以XML可擴展標記語言為主,並使用向導技術。下面就搜索引擎的發展趨勢談幾點看法。
<strong>答案補充</strong>
5.1 垂直化專業領域搜索 由於社會分工的加大,用戶從事的職業有所不同,不同用戶對信息搜索也往往有自己的專業要求。由於綜合性的搜索引擎收錄各方面、各學科、各行業的信息,因而搜索不相關的信息太多,專業垂直引擎則可以解決這個問題,垂直類搜索引擎是只面向某一特定的領域,專注於自己的特長和核心技術,能夠保證對該領域信息的完全收錄與及時更新。因此,基於專業領域的「垂直搜索引擎」開始成為搜索引擎發展的一個新趨勢。
5.2 智能化搜索 傳統的搜索引擎使用方法是被動搜索,而准確的搜索應建立在對收錄信息和搜索請求的理解之上。顯然,基於自然語言理解技術的搜索引擎由於可以同用戶使用自然語言交談,並深刻理解用戶的搜索請求,則查詢的結果更
加准確。
5.3 關聯式的綜合搜索 所謂關聯式綜合搜索,是這樣一種一站式的搜索服務,它使得用戶在搜索時只需要輸入一次查詢目標,即可以在同一界面得到各種有關聯的查詢結果,這種服務的關鍵在於有一架構在XML基礎上的整合資訊平台。<strong>答案補充</strong>
5.4 個性化搜索 提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數據來提高用戶的搜索效率。
5.5 結構化搜索 所謂結構化搜索,是指充分利用XML等技術使信息結構化,同時使用查詢結構化,從而使搜索的准確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國,它們以英語為基礎,完全按他們的思維方式和觀點搜集和檢索資料,這對於全球不同國家的用戶來說是顯然不合適的。各國的文化傳統、思維方式和生活習慣不同,在對於網站的內容的搜索要求上也就存在差異。搜索結果要符合當地用戶的要求,搜索引擎就必須本土化。
5.7 多媒體搜索。隨著寬頻技術的發展,未來的互聯網是多媒體數據的時代,開發出可查詢圖像、聲音、圖片和電影的搜索引擎是一個新的方向,這也將極大地滿足用戶的需求。未來的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。
『肆』 搜索引擎按其工作方式分為哪兩種
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。
一個搜索引擎由搜索器 、索引器 、檢索器 和用戶介面 四個部分組成。搜索器的功能是在互聯網 中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。