首頁 > 文章中心 > 正文

          數(shù)字圖書館檢索工具管理

          前言:本站為你精心整理了數(shù)字圖書館檢索工具管理范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

          數(shù)字圖書館檢索工具管理

          摘要:基于數(shù)字圖書館建設現(xiàn)狀,提出引進搜索引擎技術,建立數(shù)字圖書館檢索工具,探討檢索工具的功能及工作原理。

          關鍵詞:數(shù)字圖書館/檢索工具/搜索引擎/網(wǎng)絡信息資源

          1關于數(shù)字圖書館的設想

          1.1國內(nèi)數(shù)字圖書館的建設現(xiàn)狀

          目前,關于數(shù)字圖書館還沒有一個被公認的定義,從現(xiàn)實建設工作來看,其形式也是多種多樣,有時它是一項國家數(shù)字資源系統(tǒng)工程(比如中國數(shù)字圖書館工程),有時它更像是一個網(wǎng)上書店(如超星數(shù)字圖書館、書生之家數(shù)字圖書館),而有時它更接近于傳統(tǒng)圖書館的數(shù)字化、網(wǎng)絡化(如上海數(shù)字圖書館等)。近幾年,我國圖書館的數(shù)字化工作和數(shù)字圖書館的建設進行得如火如荼,的確取得了很大的成就,極大地豐富了中文網(wǎng)絡信息資源,尤其是學術信息資源,為用戶查詢和利用信息資源提供了方便。

          然而,無論是工程浩大的中國數(shù)字圖書館[1]、上海數(shù)字圖書館[2]、還是清華大學建筑數(shù)字圖書館[3]等等,都僅僅忙于將館藏信息資源數(shù)字化、網(wǎng)絡化,而忽視了對信息量巨大的網(wǎng)絡信息資源的組織。

          我們處在一個信息爆炸的時代,因特網(wǎng)信息資源以幾何級數(shù)的速度增長,導致幾個問題的出現(xiàn):(1)信息過多,用戶難于尋找所需信息。帶著一定需求的用戶在因特網(wǎng)這個信息的海洋中常常迷失方向;(2)信息更新速度快,具較強的實時性,使人工標引難以跟上信息的增長;(3)信息類型多樣,除文本信息,還有圖像、音頻、視頻等信息,給在傳統(tǒng)文獻信息資源組織方面經(jīng)驗豐富的圖書館編目員提出了新的課題。

          很多高校圖書館和公共圖書館意識到網(wǎng)絡信息資源的重要性,在圖書館門戶網(wǎng)站的首頁中設立“網(wǎng)絡導航”或“搜索引擎導航”欄目,提供國內(nèi)外著名搜索引擎門戶網(wǎng)站(如Yahoo、Excit、Altervista、google、百度、天網(wǎng)等)的鏈接以及學科網(wǎng)絡資源導航,對用戶查詢網(wǎng)絡資源起到了引導作用,而不是利用數(shù)字圖書館自身的資源為用戶提供服務全面的服務,可以說這還不是真正的數(shù)字圖書館。

          1.2我的數(shù)字圖書館理念

          到底怎樣的數(shù)字圖書館才是真正意義上的數(shù)字圖書館?從根本上來說,數(shù)字圖書館是為了解決網(wǎng)絡環(huán)境下數(shù)字化信息的組織、查詢與服務問題[4]。筆者認為判斷數(shù)字圖書館必須具備這樣三個指標:

          第一,數(shù)字圖書館具有豐富的數(shù)字化資源,包括OPAC書刊目錄庫、全文數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、網(wǎng)絡數(shù)據(jù)庫、網(wǎng)絡信息資源庫等等。

          第二,數(shù)字圖書館能夠向用戶提供多種類型的信息資源的檢索,如書目信息、書刊全文,各種音頻、視頻信息,還可提供網(wǎng)絡信息資源檢索服務,如因特網(wǎng)上Web、FTP、Gopher、Wais、Usenet等信息資源。

          第三,數(shù)字圖書館將所有信息資源進行整合,實現(xiàn)跨庫檢索,向用戶提供統(tǒng)一的檢索界面,檢索各種類型的信息。檢索到的相關信息在統(tǒng)一的界面中顯示。

          參照以上三個指標,發(fā)現(xiàn)目前國內(nèi)建設數(shù)字圖書館已經(jīng)具備的一定的資源和技術基礎,比如OPAC書刊目錄庫的標準化已經(jīng)實現(xiàn),自建和購買的全文數(shù)據(jù)庫資源在高校圖書館已經(jīng)十分豐富,以上海數(shù)字圖書館為代表的圖書館在多媒體信息資源建庫和檢索方面成就顯著,而且信息資源的整合和跨庫檢索在技術上已經(jīng)不成問題,目前亟待解決的問題是加強和完善對網(wǎng)絡資源的組織和管理。

          然而,如果采用圖書館貫用的人工標引的方式,面對浩如煙海的網(wǎng)絡信息資源,別說對所有的網(wǎng)絡信息進行標引,就是能達到0.01%的標引率也幾乎是不可能的。因此,數(shù)字圖書館必須采用新的策略和方式對網(wǎng)絡信息資源進行標引,向提供信息檢索服務。

          1.3設想的提出

          以上提出的問題是:建設真正的數(shù)字圖書館必須實現(xiàn)對網(wǎng)絡信息資源的全面搜集、合理組織和有效利用,但傳統(tǒng)的人工標引方法面對浩繁的網(wǎng)絡資源只能“望洋興嘆”,如何解決此矛盾?以筆者之見,在建設數(shù)字圖書館的過程中應引進搜索引擎技術,對網(wǎng)絡信息資源采用自動標引和人工標引相結合的方式。

          1.3.1搜索引擎原理

          搜索引擎是因特網(wǎng)上最重要的應用之一,它能夠在浩如煙海的因特網(wǎng)信息中找到用戶所需的信息,因此深得廣大用戶的喜愛。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索軟件,即能夠從因特網(wǎng)上自動收集網(wǎng)頁的數(shù)據(jù)收集系統(tǒng),將收集所得的網(wǎng)頁內(nèi)容交給索引和檢索系統(tǒng),索引和檢索系統(tǒng)通過掃描每一個網(wǎng)頁中的每一個詞,建立以詞為單位的倒排文檔,再根據(jù)關鍵詞在每一個網(wǎng)頁中出現(xiàn)的頻率對包含這些關鍵詞的網(wǎng)頁進行排序,最后輸出排序結果。頁面生成系統(tǒng)再將結果高效地組裝成因特網(wǎng)頁面。我們就可以通過瀏覽器看到檢索結果了[5]。

          在國內(nèi),人們習慣于把一些能夠提供搜索的門戶網(wǎng)站稱作搜索引擎(比如Yahoo),實際上這是一種誤解。從原理上來說,真正意義上的搜索引擎是基于因特網(wǎng)的搜索引擎,這種搜索引擎收集因特網(wǎng)上幾千萬到幾億個網(wǎng)頁,并且每個網(wǎng)頁上的每個詞都被搜索引擎所收錄,是基于整個因特網(wǎng)的全文檢索,其返回的結果可以具體到一個個相關的網(wǎng)頁,所以我們稱之為網(wǎng)頁搜索引擎,或全文搜索引擎。

          利用搜索引擎自動搜集、標引網(wǎng)絡信息,這種方式省時、省力,投入小,形成的數(shù)據(jù)庫覆蓋面廣,可提供關鍵詞、主題詞或自然語言等多種檢索途徑;但由于未經(jīng)過人工干預,信息加工的質(zhì)量往往不高,從而使得檢索的查準率較低,檢索效果不佳。

          1.3.2值得借鑒的作法——雅虎的信息組織方式

          雅虎的分類目錄體系是采用人工標引的方式對網(wǎng)絡信息進行組織的成功典范。人們常常把雅虎的目錄服務認為是搜索引擎,其實目錄服務和搜索引擎是兩個完全不同的概念。目錄服務是由編輯人員將各種網(wǎng)站按主要內(nèi)容進行分類,組織成一層一層的分類目錄。當我們要查找某類網(wǎng)站時,就按照其屬性進入相關類目,一層一層地查找。這類目錄服務同時也提供一定的搜索功能,但它的搜索范圍僅局限在這個人工編制的目錄系統(tǒng)內(nèi),當用戶提交搜索請求后,這個搜索引擎就會在該目錄系統(tǒng)中尋找相關網(wǎng)站,然后作為搜索結果提交給用戶,象這種目錄服務附帶的、基于該目錄系統(tǒng)的搜索引擎,我們一般稱之為目錄搜索引擎,由于其最后返回的結果是一個個相關網(wǎng)站的地址,我們也稱之為網(wǎng)站搜索引擎。雅虎分類目錄能夠克服由機器自動標引帶來的諸多問題,因此一時成為其他商業(yè)門戶網(wǎng)站學習的典范。

          但是,雅虎如果僅僅依靠人工標引的分類目錄提供搜索服務,也存在許多無法克服的弊端。比如人工編制主題索引效率低,因而造成建立的數(shù)據(jù)庫規(guī)模較小,有些類目下的文件數(shù)量有限,有價值的新站點,新內(nèi)容反應不及時等。因此,雅虎與專門做搜索引擎的公司進行合作。

          雖雅虎公司以“搜索引擎”聞名全球,實際上它只做網(wǎng)站目錄,它只有搜索自己網(wǎng)站目錄的目錄搜索引擎。而雅虎網(wǎng)站上基于整個因特網(wǎng)的全文搜索引擎是由其他專做搜索引擎的公司提供的,以前是Inktomi,現(xiàn)在是Google。其實大多數(shù)商業(yè)門戶網(wǎng)站的搜索引擎都是引進的,如美國在線、微軟的MSN都采用“Inktomi”公司的搜索引擎技術和服務;國內(nèi)的中國人、硅谷動力、廣州視窗均采用百度的搜索引擎服務;第一華人中文網(wǎng)站新浪在去年11月23日宣布采用百度提供的中文網(wǎng)頁搜索服務,推出新的綜合搜索引擎系統(tǒng),在與百度結束合約后,今年8月7日它又宣布與搜索新軍慧聰合作,采用該公司的網(wǎng)神搜索引擎服務。

          相比較而言,雅虎將自身的目錄服務和Google搜索引擎結合得相當完美。從顯示格式來看[6],雅虎將檢索結果分為“相關分類”、“相關網(wǎng)站”、“相關網(wǎng)頁”、“相關新聞”四項,其中“相關分類”、“相關網(wǎng)站”的內(nèi)容來自雅虎自己的分類目錄,

          “相關新聞”的內(nèi)容來自雅虎資料庫,而“相關網(wǎng)頁”的內(nèi)容則是Google的搜索結果。在用戶輸入檢索詞,點擊搜索后,雅虎的搜索工具實際上進行的是跨庫檢索,同時通過接口技術要求Google搜索引擎進行搜索,然后雅虎將所有的檢索結果以統(tǒng)一的界面顯示,看起來就象是從一個數(shù)據(jù)庫中得到的結果。其響應性能很好,在不到一秒鐘的時間里就能提交結果。

          雅虎引進Google搜索引擎,是采用手工方式與機器輔助相互配合對網(wǎng)絡信息進行組織,提供統(tǒng)一的檢索界面和顯示格式。它具有人工標引和自動標引兩方面的優(yōu)點,值得我們在建設數(shù)字圖書館中學習、借鑒。

          1.3.3數(shù)字圖書館采用搜索引擎技術的設想

          圖書館的編目人員在長期的工作實踐中積累了豐富的對信息資源進行分類的理論和經(jīng)驗,在網(wǎng)絡信息資源逐步發(fā)展成為一個巨大的、不斷迅速增長的資源庫以前,圖書館工作人員對傳統(tǒng)文獻信息資源的組織是相當成功的。然而,一旦面對網(wǎng)絡信息資源,這種人工標引方式就顯得力不從心了。以CALIS網(wǎng)絡重點學科導航庫[7]為例,它是“211工程”立項高校圖書館共建項目。其目的是建立在INTERNET網(wǎng)上的導航庫,收集整理有關重點學科的網(wǎng)絡資源,為這些已立項高校重點學科服務,讓在重點學科領域的師生,以較快的速度了解本領域科技前沿研究動向和國際發(fā)展趨勢。重點學科導航庫的建設工作進行了近2年,共有48個圖書館參加該項目共建,各圖書館都投入了大量的人力來完成該校重點學科導航庫的建設。目前已完成213個重點學科導航庫建設,共收錄了6萬多個較重要的學術網(wǎng)站。導航庫網(wǎng)址的搜集和摘要都是由人工完成,耗費了大量的人力、物力,而導航庫的資源只是整個網(wǎng)絡資源庫中微不足道的一小部分。所以,在數(shù)字圖書館資源建設中引進搜索引擎技術,可以節(jié)省人力、物力、財力,保證資源的完整性、全面性。

          2數(shù)字圖書館檢索工具

          2.1定義

          僅僅是引進的搜索引擎,還不能作為數(shù)字圖書館的檢索工具,所謂數(shù)字圖書館檢索工具,是基于因特網(wǎng)信息資源和數(shù)字圖書館的信息資源庫,利用統(tǒng)一的檢索平臺和用戶界面,提供各種類型信息資源的檢索服務的系統(tǒng)。

          數(shù)字圖書館檢索工具與搜索引擎的區(qū)別在于:搜索引擎只能提供因特網(wǎng)資源的檢索,而數(shù)字圖書館除此之外,同時兼顧對數(shù)字圖書館各個資源庫的檢索。

          2.2功能

          數(shù)字圖書館檢索工具能夠配合人工標引方式,對網(wǎng)絡信息資源進行標引和組織,面向用戶提供網(wǎng)絡信息資源和數(shù)字圖書館信息資源庫的檢索服務。

          2.2.1網(wǎng)絡信息搜集功能

          面對整個英特網(wǎng)信息資源,數(shù)字圖書館檢索工具利用搜索軟件自動搜集網(wǎng)絡信息,結合人工方式進行標引,按照人工編制的分類目錄將被標引的網(wǎng)絡信息收入網(wǎng)絡信息資源庫。

          2.2.2檢索功能

          (1)跨庫檢索功能

          數(shù)字圖書館檢索工具提供跨庫檢索功能,用戶在使用過程中可以選定多個資源庫進行檢索,在重新選擇數(shù)據(jù)庫時,還可以保存以前的檢索式用于新的資源庫的檢索中。

          (2)支持全文檢索

          數(shù)字圖書館檢索工具的對網(wǎng)絡信息資源進行搜集時,每遇到一個網(wǎng)站時,會將該網(wǎng)站上所有的網(wǎng)頁全部獲取下來,將其內(nèi)容標引后收入到網(wǎng)絡信息資源標引庫中,只要用戶輸入查詢的關鍵字在用戶選定的網(wǎng)絡信息資源標引庫或者其它數(shù)據(jù)庫中出現(xiàn),含有這個關鍵字的記錄就會作為匹配結果返回給用戶。

          (3)提供多途徑檢索

          支持自然語言、關鍵詞、主題詞三種檢索語言,當用戶輸入一個短語時,系統(tǒng)根據(jù)禁用此詞表過濾掉禁用詞,將有檢索意義的詞保留下來重新構筑檢索式。

          提供高級檢索界面,支持布爾邏輯運算,支持特征字段檢索(如題名、作者、摘要、來源、年代等等),支持權重檢索和相鄰檢索。

          (4)支持目錄式分類結構

          分類目錄具有類聚功能,尤其對于非專業(yè)用戶能起引導作用。數(shù)字圖書館的分類目錄與以yahoo等商業(yè)門戶網(wǎng)站的區(qū)別在于,它需要涵蓋的范圍更廣,除了網(wǎng)絡資源,還有數(shù)字圖書館收藏的數(shù)字化資源。

          (5)支持多媒體信息檢索

          在能夠提供檢索的資源類型上,不僅能夠提供文本信息資源檢索服務,對于圖像、聲頻、視頻等多媒體信息也能提供檢索服務。

          2.2.3結果顯示功能

          (1)支持檢索結果排序

          在檢索結果排序方面,不僅能按時間排序,而且用戶可以選擇相關性排序。所謂相關性排序,是指進行自然語言檢索時,其檢索結果集由包含提問式中任意詞的記錄組成,以包含提問式中檢索詞的多少作為相關性指標對檢索結果進行排序,提問式中的詞在文章中出現(xiàn)的越多表明它與檢索要求越接近,在顯示時就排在最前面。

          (2)提供統(tǒng)一的顯示格式

          檢索結果的著錄格式清晰明了,系統(tǒng)使用統(tǒng)一界面,對檢索結果采用按類別、分層次顯示方式。系統(tǒng)雖然對用戶選定的數(shù)據(jù)庫采用跨庫檢索方式,但是在結果顯示時候還是分數(shù)據(jù)庫類型一一列出匹配記錄的提錄或摘要信息,用戶在瀏覽題錄后,在進一步選擇是否需要全文。

          (3)提供超文本鏈接

          在顯示結果中,對摘要或全文中出現(xiàn)的某一些主題詞提供鏈接點,比如人名“楊振寧”、機構名“CNNIC中國互聯(lián)網(wǎng)信息中心”、專業(yè)術語“后控詞表”等等。

          2.3工作原理

          2.3.1信息搜集

          利用自動搜索機(如Robot),自動收集網(wǎng)頁上的元數(shù)據(jù)。首先,輸入起始網(wǎng)址,一般是一個網(wǎng)站的主頁,搜索從這個網(wǎng)址開始。另外,需要同時輸入一定的限制條件來限制搜索范圍,因為整個網(wǎng)絡有成千上萬個網(wǎng)址,如果不加任何約束,搜索幾乎是沒有盡頭的,并會耗盡機器的資源。所以,要通過IP過濾、限定從起始網(wǎng)址出發(fā)向下搜索的層次等方法來加以限制,如只在圖書館的內(nèi)部網(wǎng)、某一專業(yè)網(wǎng)站上等進行搜索。工作時,先從起始網(wǎng)址讀入此網(wǎng)頁的HTML源文件,并在其頭部搜索(meta)標簽內(nèi)的元數(shù)據(jù),如果發(fā)現(xiàn)有符合都柏林核心集的定義和格式,則再檢查此網(wǎng)頁的元數(shù)據(jù)是否已在前次搜索中存入數(shù)據(jù)庫,如是,則用新的元數(shù)據(jù)覆蓋現(xiàn)在的元數(shù)據(jù),否則在數(shù)據(jù)庫中加入新的網(wǎng)址和元數(shù)據(jù)。接著,找出該網(wǎng)頁上所有的鏈接地址,將它們按順序存入一個先進先出地址隊列的末尾,下一個循環(huán)開始后,從地址頭取出一個網(wǎng)址,如它符合限制條件,且和已搜索過的網(wǎng)址不重復,則再次開始搜索此網(wǎng)頁的元數(shù)據(jù)和鏈接地址,否則,跳過此網(wǎng)址,從地址隊列中取出下一個網(wǎng)址。整個過程周而復始,直到地址隊列中所有的網(wǎng)址都被搜索一遍。

          網(wǎng)址的收集和處理由機器自動完成,但必須由人工最后審定。為此必須有一個明確的選擇標準和策略,任何可以訪問的可靠的數(shù)據(jù)源都在選擇范圍之內(nèi)。更新及時,發(fā)現(xiàn)題目或標題有所改動,就應該進行更新。同時,對其它有關信息資源(如網(wǎng)絡數(shù)據(jù)庫、書刊目錄信息等)進行收集,最終建立一個以學術信息為主的檢索工具,這也是數(shù)字圖書館區(qū)別與商業(yè)門戶網(wǎng)站的地方。

          2.3.2索引和檢索

          因特網(wǎng)的所有網(wǎng)頁都在被索引范圍之內(nèi)。應用搜索引擎技術分析網(wǎng)頁中所有句子以確定關鍵詞,這些關鍵詞將與某一詞表相兼容,并形成一個后控詞表。摘要將由關鍵詞所涉及的網(wǎng)頁內(nèi)容組成。同時,索引人員將對記錄進行審查,以確定其是否符合選擇標準,所有關鍵詞和所做摘要是否恰當,后控詞表是否得到正確應用。然后這條記錄才被增加到網(wǎng)絡信息資源庫中去。在檢索過程中,檢索工具對符合檢索策略的命中記錄做出標記,顯示檢索結果。

          本文基于網(wǎng)絡搜索引擎技術,提出建立數(shù)字圖書館檢索工具的設想。檢索工具的實現(xiàn)除了需要技術支持外,還需要信息量豐富的資源庫和合理的圖書館的結構模型作為支撐。開發(fā)數(shù)字圖書館的結構模型時,必須堅持該結構具有良好的

          兼容性、。公共性、靈活性和可擴展性,能夠方便地將各供應商開發(fā)的應用程序(如搜索引擎技術)集成進來。數(shù)字圖書館結構模型在堅持上述原則的同時,主要目標是為網(wǎng)絡環(huán)境下信息資源的發(fā)現(xiàn)、描述、組織、查詢、檢索和為以網(wǎng)絡為依托的知識、信息交流,提供一個支撐結構和環(huán)境,這首先需要解決異構系統(tǒng)間的互操作、各種轉(zhuǎn)換和翻譯(不同規(guī)范的元數(shù)據(jù)、查詢請求之間)等技術問題。對于這方面的研究還有待進一步深入。

          【參考文獻】

          4韓慧琴,劉柏嵩.數(shù)字圖書館中的知識發(fā)現(xiàn).情報學報,2001(3)

          5中文搜索引擎核心技術之爭.黃海.圖書館雜志,2001(3)

          8網(wǎng)絡檢索工具的比較研究.段其憲,時永梅.情報科學,2001(6)

          9搜索引擎的功能概述與研究熱點.徐亞先.情報科學,2001(3)