前言:本站為你精心整理了網(wǎng)絡(luò)信息檢索范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。
【關(guān)鍵詞】網(wǎng)絡(luò)信息信息檢索搜索引擎
1網(wǎng)絡(luò)信息檢索簡(jiǎn)介
隨著信息技術(shù)的飛速發(fā)展,信息已成為全社會(huì)的重要資源,對(duì)信息的占有程度及信息處理水平的先進(jìn)程度已成為衡量一個(gè)國(guó)家或地區(qū)現(xiàn)代化程度的重要標(biāo)志,而網(wǎng)絡(luò)上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當(dāng)今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡(luò),基于Internet的網(wǎng)絡(luò)信息檢索的研究,無(wú)論對(duì)研究人員還是一般用戶(hù)來(lái)說(shuō),都有著很強(qiáng)的現(xiàn)實(shí)性和實(shí)用性。
1.1信息檢索概念
信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶(hù)的信息需求查找所需信息的過(guò)程和技術(shù)。人們獲取信息源的方式主要有:①傳統(tǒng)的信息檢索方法,通過(guò)人工查詢(xún)?cè)趫D書(shū)館等提供文獻(xiàn)的機(jī)構(gòu)進(jìn)行文獻(xiàn)的查詢(xún)和獲取活動(dòng);②聯(lián)機(jī)信息檢索相對(duì)于前者來(lái)說(shuō)具有實(shí)時(shí)性、完整性、共享性、廣泛性等優(yōu)點(diǎn);③網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。
1.2網(wǎng)絡(luò)信息檢索的原理
網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。
①布爾邏輯模型這是一種簡(jiǎn)單而常用的嚴(yán)格匹配模型。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān)。利用這種模型進(jìn)行查詢(xún),其查詢(xún)結(jié)果一般沒(méi)有按照內(nèi)容的相關(guān)特性排序。
②模糊邏輯模型它在查詢(xún)結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果,這樣就可以克服布爾邏輯模型信息查詢(xún)結(jié)果的無(wú)序性。
③概率模型它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來(lái)進(jìn)行信息檢索。
2搜索引擎
搜索引擎是目前使用最為頻繁的一種網(wǎng)絡(luò)信息檢索工具。與其他工具相比,它的檢全率和檢準(zhǔn)率都比較高,具有很強(qiáng)的使用價(jià)值和廣泛的應(yīng)用前景。
2.1搜索引擎的工作原理
作為一種www站點(diǎn)資源和其它網(wǎng)絡(luò)資源進(jìn)行組織和檢索的檢索工具,搜索引擎的檢索機(jī)制一般包括數(shù)據(jù)采集和標(biāo)引機(jī)制、數(shù)據(jù)組織機(jī)制和用戶(hù)檢索機(jī)制,基本構(gòu)成如圖1所示。
①數(shù)據(jù)采集標(biāo)引機(jī)制按照一定規(guī)律和方式對(duì)網(wǎng)絡(luò)上www站點(diǎn)進(jìn)行搜索,并將搜索到的www頁(yè)面信息存入搜索引擎的臨時(shí)數(shù)據(jù)庫(kù)中。
②數(shù)據(jù)組織據(jù)組織機(jī)制的主要功能是對(duì)www頁(yè)面信息進(jìn)行整理以形成規(guī)范的頁(yè)面索引,并建立相應(yīng)的索引數(shù)據(jù)庫(kù)。
③索引數(shù)據(jù)庫(kù)是用戶(hù)進(jìn)行檢索的基礎(chǔ),它的數(shù)據(jù)質(zhì)量直接影響到檢索效果,而搜索引擎的數(shù)據(jù)采集標(biāo)和標(biāo)引機(jī)制又是決定數(shù)據(jù)庫(kù)質(zhì)量的關(guān)鍵技術(shù)。
④用戶(hù)檢索機(jī)制幫助用戶(hù)以一定方式檢索引擎的索引數(shù)據(jù)庫(kù),以獲得符合用戶(hù)需要的www站點(diǎn)或頁(yè)面。
2.2搜索引擎的分類(lèi)
按照用戶(hù)查找的途徑劃分,可將搜索引擎分為如下幾種:
①基于關(guān)鍵詞的搜索引擎主要通過(guò)使用自動(dòng)采集軟件來(lái)對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行采集標(biāo)引,建立成索引數(shù)據(jù)庫(kù)。它主要采用自動(dòng)搜索和標(biāo)引方式來(lái)建立和維護(hù)其索引數(shù)據(jù)庫(kù),供用戶(hù)查詢(xún)使用。
②基于分類(lèi)目錄的搜索引擎一般依賴(lài)于按照某種分類(lèi)標(biāo)準(zhǔn)進(jìn)行人工編排的分類(lèi)體系。
③聯(lián)合式搜索引擎是基于關(guān)鍵詞的搜索引擎的另外一種表現(xiàn)形式,是后者與基于類(lèi)目的搜索引擎的一種結(jié)合。
2.3搜索引擎的功能
目前Internet上的搜索引擎種類(lèi)繁多,雖然各種搜索引擎都有自己的不同信息采集標(biāo)引機(jī)制,在其他一些方面各具特色,但其基本功能卻是相似的。
①布爾邏輯檢索這一功能使得用戶(hù)能使用AND、OR和NOT來(lái)進(jìn)行關(guān)鍵詞的搭配檢索。
②模糊檢索在用戶(hù)進(jìn)行檢索的過(guò)程中,系統(tǒng)會(huì)對(duì)跟用戶(hù)提供的關(guān)鍵詞相似的詞語(yǔ)進(jìn)行檢索,并返回包含關(guān)鍵詞或是這些相似詞的檢索結(jié)果。
③截詞檢索這種檢索形式利用檢索詞的某一部分來(lái)進(jìn)行檢索。在搜索引擎中,用戶(hù)提供包含“?”或是“*”通配符的檢索項(xiàng)來(lái)進(jìn)行檢索。
④限定詞檢索這種檢索加減號(hào)檢索,它用來(lái)規(guī)定檢索項(xiàng)中必須出現(xiàn)或是必須不出現(xiàn)某些關(guān)鍵詞。
3網(wǎng)絡(luò)信息檢索的局限
用戶(hù)在查找網(wǎng)絡(luò)信息資源時(shí),不可避免的用到網(wǎng)絡(luò)信息檢索工具。檢索工具的優(yōu)劣很大程度的影響了用戶(hù)的檢索效率。雖然網(wǎng)絡(luò)信息檢索工具在最近幾年有了長(zhǎng)足的發(fā)展,但是到現(xiàn)在網(wǎng)絡(luò)信息檢索仍然存在著這樣或是那樣的局限。
3.1文本信息檢索的局限
①網(wǎng)絡(luò)信息標(biāo)引的準(zhǔn)確度不夠檢索工具對(duì)網(wǎng)絡(luò)信息資源的標(biāo)引一般都存在著柵引準(zhǔn)確度不夠的問(wèn)題,檢索工具經(jīng)常會(huì)在返回大量垃圾信息的同時(shí)丟失有用信息。當(dāng)用戶(hù)要進(jìn)行特定的文獻(xiàn)檢索時(shí),有時(shí)還會(huì)發(fā)現(xiàn)現(xiàn)存的檢索工具無(wú)濟(jì)于事,檢索出來(lái)的數(shù)據(jù)完全被無(wú)用信息所覆蓋。如想要通過(guò)搜索引擎查詢(xún)清朝雍正年間李衛(wèi)任浙江巡撫的資料,你只能夠查到大量《李衛(wèi)當(dāng)官》之類(lèi)無(wú)用信息。
②搜索引擎的查全率不高由于互聯(lián)網(wǎng)上的信息資源以爆炸性的速度不斷增長(zhǎng),搜索引擎采集數(shù)據(jù)的速度遠(yuǎn)遠(yuǎn)落后于信息資源的增長(zhǎng)速度。單個(gè)搜索引擎的數(shù)據(jù)庫(kù)所收集的Web頁(yè)面大大不足,就是所有的搜索引擎所儲(chǔ)存的數(shù)據(jù)也只占全球Web頁(yè)面的50%強(qiáng)。由于這方面的原因,搜索引擎的檢全率會(huì)無(wú)可避免的被降低。
③搜索引擎的查準(zhǔn)率不高一是返回的信息過(guò)多,這是現(xiàn)有搜索引擎檢索信息的普遍現(xiàn)象;二是返回重復(fù)的信息,搜索引擎的檢索結(jié)果中還經(jīng)常重復(fù)出現(xiàn)同一信息源的不同部分,甚至出現(xiàn)不同信息源的相同內(nèi)容信息。
④查詢(xún)方式有限目前大多數(shù)搜索引擎的查詢(xún)方法比較單一,一般只提供分類(lèi)查詢(xún)方式和關(guān)鍵詞查詢(xún)方式。這樣,一方面檢索時(shí)不能從文獻(xiàn)的多個(gè)方面對(duì)檢索提問(wèn)進(jìn)行限制,只能就某一關(guān)鍵詞或概念進(jìn)行籠統(tǒng)的檢索;另一方面,由于查詢(xún)結(jié)果完全依賴(lài)于用戶(hù)所給出的關(guān)鍵詞,而大多數(shù)用戶(hù)對(duì)他們檢索的領(lǐng)域或索引數(shù)據(jù)庫(kù)的關(guān)鍵詞不太了解,因此使最后的查詢(xún)結(jié)果相關(guān)性很差,往往是輸入一個(gè)檢索式,得到一大堆網(wǎng)址,但其中大部分是冗余信息。
⑤檢索對(duì)象的數(shù)據(jù)結(jié)構(gòu)單一由于現(xiàn)在大多數(shù)網(wǎng)站使用的是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)對(duì)信息進(jìn)行組織和存儲(chǔ),因此其使用的搜索引擎也是基于關(guān)系數(shù)據(jù)庫(kù)的,這種傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)非常擅長(zhǎng)處理結(jié)構(gòu)化的數(shù)據(jù),但其對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)的處理能力則很弱。
⑥交互性不夠當(dāng)前的搜索引擎與用戶(hù)的交互性不夠,與用戶(hù)間缺乏足夠的協(xié)作,不了解用戶(hù)的情況,不記錄用戶(hù)提交的查詢(xún)?nèi)蝿?wù),不能處理用戶(hù)的反饋信息,因而不能與用戶(hù)進(jìn)行足夠好的交互以提高檢索效率。
3.2多媒體信息檢索的局限
到現(xiàn)在為止,雖然單獨(dú)針對(duì)圖像、視頻、聲音等媒體的檢索技術(shù)已經(jīng)出現(xiàn),但還沒(méi)有任何搜索引擎能夠充分解決多媒體信息的檢索,其主要表現(xiàn)在以下幾個(gè)方面:
①檢索效果不夠理想目前,幾乎所有的多媒體搜索引擎在多媒體信息的查準(zhǔn)率方面都不能達(dá)到令人滿(mǎn)意的程度,用戶(hù)將在返回的幾百個(gè)甚至上千個(gè)圖像中篩選需要的那一幅。這是很費(fèi)時(shí)和令人難以忍受的,而且有時(shí)你所用的搜索引擎根本檢不出你想要的東西。歸其原因,一方面是在于查詢(xún)方式的單一,另一方面在于對(duì)圖像的標(biāo)引深度不夠,這就要求完善圖像檢索和索引機(jī)制。
②用戶(hù)查詢(xún)接口單一理想的多媒體檢索系統(tǒng)中,人是主動(dòng)的,用戶(hù)的查詢(xún)接口能提供豐富的交互能力,且直觀易用,使用戶(hù)能夠在主動(dòng)交互過(guò)程中通過(guò)調(diào)整檢索參數(shù),表達(dá)對(duì)圖像的語(yǔ)義感知,最終獲取滿(mǎn)意的結(jié)果。這就涉及到如何把用戶(hù)的提問(wèn)轉(zhuǎn)換為可以執(zhí)行檢索的特征矢量、交互方式的設(shè)計(jì),如何獲取用戶(hù)的內(nèi)容感知等問(wèn)題。目前的多媒體搜索引擎用戶(hù)查詢(xún)接口比較單一,大多只提供描述查詢(xún)接口,即關(guān)鍵詞提問(wèn)框。
③圖像特征信息的表示與檢索不夠完善基于內(nèi)容的圖像檢索,實(shí)質(zhì)上就是進(jìn)行圖像特征相似度的比較,但目前這一技術(shù)還存在許多問(wèn)題。
④信息的自動(dòng)加工與人工標(biāo)引不夠目前文本搜索引擎在這方面的發(fā)展正日趨完善,而多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工,圖像不同于文本,文本自身就能說(shuō)明要講的內(nèi)容,而圖像內(nèi)容卻需要加入人的理解和描述,人工干預(yù)雖能提高查準(zhǔn)率,但一方面能被人工標(biāo)引的是極其有限的;另一方面由于人工標(biāo)引勞動(dòng)強(qiáng)度大而限制了檢索的范圍,如何對(duì)圖像信息進(jìn)行快速標(biāo)引和準(zhǔn)確分類(lèi)是急待解決的主要問(wèn)題。
另外,目前基于內(nèi)容的檢索技術(shù)多應(yīng)用于對(duì)靜態(tài)圖像的檢索,對(duì)動(dòng)態(tài)圖像的檢索還沒(méi)有多少行之有效的方法。但隨著寬帶網(wǎng)絡(luò)的逐步實(shí)現(xiàn),動(dòng)態(tài)多媒體信息在網(wǎng)絡(luò)中將會(huì)越來(lái)越多。
【參考文獻(xiàn)】
1張杰.淺論網(wǎng)絡(luò)信息檢索.江西圖書(shū)館學(xué)刊,2002年增刊.
2董慧.網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用.武漢:武漢大學(xué)出版社,2001.
3盧小賓.信息檢索.北京:科學(xué)出版社,2003.
4李勇先,鄭文良.人工智能在網(wǎng)絡(luò)信息檢索中的應(yīng)用.圖書(shū)館建設(shè),2003(4),4:81~83.
5焦玉英,符紹宏,何紹華.信息檢索.武漢:武漢大學(xué)出版社,2001.
網(wǎng)絡(luò)營(yíng)銷(xiāo) 網(wǎng)絡(luò)教育研究 網(wǎng)絡(luò)廣告 網(wǎng)絡(luò)通信 網(wǎng)絡(luò)安全 網(wǎng)絡(luò)環(huán)境 網(wǎng)絡(luò)輿論論文 網(wǎng)絡(luò)實(shí)訓(xùn)報(bào)告 網(wǎng)絡(luò)暴力相關(guān)案例 網(wǎng)絡(luò)優(yōu)化論文 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀