首頁 > 文章中心 > 正文

          網絡化應用發展管理

          前言:本站為你精心整理了網絡化應用發展管理范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

          網絡化應用發展管理

          [論文關鍵詞]引文分析網絡信息計量網絡鏈接分析

          [論文摘要]引文分析是傳統文獻計量學和科學計量學的一種獨特研究方法。主要從網絡鏈接分析研究、基于網頁鏈接分析的搜索引擎排序算法研制和新型網絡引文索引工具的編制等方面,分析論述引文分析方法在網絡環境下的發展和應用,以期形成對引文分析方法及其價值的合理認知和評價。

          1、引言

          所謂“引文分析(CitationAnalysis)”,是指利用各種數學和統計學的方法,以及比較、歸納、抽象、概括等邏輯方法,對學術期刊、論文、著者等各種對象的引用與被引用現象進行分析研究,以便揭示其數量分布特征和內在關聯規律的一種文獻計量研究方法。

          追溯引文分析思想的淵源,最初的相關活動都出現在法學領域。特別是1873年美國出版的專供律師查閱法律判例的檢索工具——“Shepard’sCitations”,對后來引文分析工具的研制產生了直接而重要的影響。1927年,美國的Gross夫婦對化學專業期刊論文的參考文獻進行統計分析,得出了化學教育方面的核心期刊表,成為文獻工作中的第一次引文分析實踐。1961年,E,Garfield經過多年思考和苦心鉆研,開始編制并出版“ScienceCitationIndex(簡稱SCI)”,為期刊文獻引文分析研究活動的廣泛開展提供了強有力的工具保障和數據來源。隨后,SocialScienceCitationIndex(簡稱SSCI)(1973年)、Arts&HumanitiesCitationIndex(簡稱A&HCI)(1978年)、JournalCitationReports(簡稱JcR)(1975年)、EssentialScienceIndicators(簡稱ESI)(2001年)等系列工具的不斷問世,更極大地促進了引文分析研究活動的大規模開展。

          作為傳統文獻計量學和科學計量學中一種獨具特色的研究方法,自20世紀60年代以后,引文分析方法逐漸發展成熟,并形成比較完備的研究體系,在指標設置、工具開發和應用實踐等方面也都取得了豐碩成果。1997年,丹麥學者T.C.Almind和P.Ingwersen首次提出“網絡信息計量學(Webometfics)”這一概念。隨后各種面向網絡信息的計量分析研究活動迅速展開,引文分析的思想和方法在新興的網絡信息計量學領域獲得了進一步的發展,并取得了一系列新的理論和應用進展。本文嘗試從3個不同方面對引文分析方法的網絡化拓展及應用進行分析和論述。

          2、新研究領域的開拓——網絡鏈接分析

          網絡鏈接不僅是互聯網的基本構成要素,也是其最顯著的特征。由于網絡鏈接關系普遍存在于網站與網站、網站與網頁、網頁與網頁等之間,它們與傳統學術期刊文獻之間的引用關系具有一種天然的相似性,于是,研究人員便從這種天然的相似性出發,將引文分析方法廣泛應用在網絡信息計量研究中,并由此開創、形成了網絡信息計量學的一個特色研究領域——網絡鏈接分析(Weblinkanalysis)。

          10年來的研究實踐證明,在成功借鑒引文分析方法的一系列基本思想、概念、指標等基礎上,網絡鏈接分析已成為促進網絡信息計量學不斷深入發展的重要動力。目前,國內外大量的網絡鏈接分析研究活動,都帶有鮮明的“引文分析”烙印。

          首先從計量指標的設計和使用上來看。早在1996年,美國圖書館員G.Mckieman就根據引文分析中“citation”概念的含義,提出使用“sition”一詞來描述網站(site)之間相互鏈接的行為,即sitation=citedsites。此后,“sitation”一詞逐漸在研究同行中得到使用。1998年,P.Ingwemen受引文分析中“期刊影響因子”概念的啟發,提出了“網絡影響因子(WebImpactFactor)”的概念,用它來分析一定時期內某特定網站或網頁的平均鏈接強度,并以此來評價網站在網絡中的影響力。隨后,以“文獻耦合”、“共引”、“自引”等引文分析的重要概念為基礎,“Webcoupling”、“Co-sitati-on”、“Co-link”、“Co-authorship”、“Co-usage”、“Self-linking”、“Self-linked”等網絡計量概念和指標也陸續被提出。

          其次從網絡鏈接分析領域開展的主要研究工作上觀察,“引文分析”的烙印也是清晰可見。目前,網絡鏈接分析的研究進展主要集中在以下幾方面”。:網絡鏈接分析與引文分析的理論比較;網絡鏈接目的、類型及其特殊性分析;學術性網站與電子期刊的網絡影響因子研究;核心網站的測定;網絡鏈接分析的工具開發;基于網絡計量的學術性機構科研能力評價;搜索引擎檢索質量的改進①等。從中不難看出,除搜索引擎議題外,其他廣受關注的網絡鏈接研究選題與傳統的引文分析研究呈現出了較大的相似性。

          應該說,傳統的引文分析思想為網絡環境下鏈接分析研究工作的開展奠定了必要的學術基礎,并發揮了重要的影響力。尤其是把引文聚類分析等方法應用到網站或網頁的鏈接分析中,以此觀察Web網頁與網站內容之間的關系,對探討、解決網絡空間(cyber-space)的知識結構以及識別相關站點群落等都具有很大的價值。不過,從目前的研究現狀來看,由于傳統引文分析思想的局限性及網絡鏈接自身的特殊性和復雜性,網絡鏈接分析的深入研究還面臨著很多難題。例如,對搜索引擎的過分依賴,缺乏適用的專門工具;由于(動態)網頁開發語言不斷增多,鏈接信息的解析與數據獲取越來越復雜;指標設計和研究方法不夠完善,無法完全滿足網絡信息計量和鏈接分析的需要;研究思路不夠開闊,選題過分局限于教育、科研等學術性領域,難以應對當前網絡發展對社會的全方位影響和滲透局面。

          3、基于網頁鏈接分析的搜索排序算法

          如果把網絡鏈接分析看作是引文分析思想在網絡環境下的一種理論創新和發展,那么,已在搜索引擎中得到廣泛使用的各種基于網頁鏈接分析的搜索排序算法的研制,則可以看作是引文分析方法的一種新型網絡應用。

          由于網絡搜索技術的局限性,搜索結果排序算法一直是各類搜索引擎關注的核心問題。受傳統引文分析研究思想的影響和啟發,目前在搜索結果排序方面已產生了一系列基于網頁鏈接分析的有效而成功的算法,其中尤以搜索引擎Google1998年開發的PageRank算法最具影響力。

          傳統的搜索結果排序算法主要建立在網頁內容與用戶搜索請求相關性判斷的基礎上,這種方法深受網頁關鍵詞作弊的危害。作為一種新型的排序算法,PageRank的研制直接受到了傳統文獻計量學引文分析研究思想的影響和啟發,兩者具有明顯的相似之處。

          引文分析研究的基本前提假設之一是:一篇文獻的學術水平、(或質量)可由它被其他文獻引用的次數來評定,被引用的次數越多,則它的學術水平(或質量)就越高。于是,PageRank算法將這種思想推廣、應用到了網頁鏈接分析中。PageRank的基本算法思想可以概括為以下三點:①如果一個頁面被多次引用(或鏈接),那么這個頁面很可能是重要的;②如果一個頁面盡管沒有被多次引用,但卻被一個重要的頁面引用,那么這個頁面很可能是重要的;③一個頁面的重要性被均分,并傳遞到它所引用(或鏈接)的頁面。據此,對網絡中每個Web頁面的鏈接狀況進行全面分析并賦予它們不同的PageRank值(即重要性值),便可以應用于網頁搜索的結果排序。

          由于這種排序思想主要建立在網頁鏈接分析的基礎上,不僅獨立于網頁的語言和內容,而且不需要人工干預就能自動發現Web上的重要資源,因而提供了一種衡量網頁質量的有效方法。

          PageRank算法的研制和應用不僅為Coogle贏得了巨大的成功,而且迅速催生了一系列類似的排序算法,例如用于博客搜索結果的PeopleRank算法、在網絡自由分類法使用過程中的UserRank算法、TagRank算法和FolkRank算法等。其中,PeopleRank算法主要基于博客用戶之間的聯系(具體聯系方式包括好友鏈接或朋友列表、博文閱讀、回復與評論等)來自動發現重要的博客用戶,并依此作為博客搜索結果排序的一個重要因素;UserRank算法的提出,主要用在基于自由分類法的檢索結果顯示時,要求按照提出被認可標簽的數量多少對用戶進行排序;而TagRank算法則是基于UserRank的標簽排序;至于FolkRank算法的排序機制,則又整合了UserRank和TagRank,認為由重要用戶標注的重要標簽下的資源是重要的(且用戶和標簽擁有同等地位),并以此作為自由分類法檢索結果的排序依據。所有這些衍生的排序算法,其基本思想(或出發點)都與PageRank算法是一致的,只不過應用場合不同,鏈接分析的對象也由網頁換成了博客用戶、標簽用戶、標簽等。

          4、網絡引文索引工具的研制與使用

          隨著學術研究、信息交流與傳播等活動的日益網絡化,傳統的引文索引工具已無法適應e-Science時代引文分析的研究需求。為此,各種網絡化引文索引工具的編制逐漸被提到議事日程,并在當前的引文分析研究工作中逐步獲得應用。

          1998年,第一個網絡引文索引CiteSeer開始研制,并于1999年正式投入使用。2004年,CiteSeer更名為CiteSeer.IST。作為一個主要面向計算機和信息科學領域學術資源的網絡引文索引與檢索工具,CiteSeer主要基于自動引文索引(AutonomousCitationIndefing,簡稱ACI)技術編制而成。其主要編制步驟是:①使用多個搜索引擎,基于關鍵詞對網絡中的學術性文獻資源(主要是PostScript和PDF2種格式的學術論文)進行自動搜索和下載,并通過檢查是否存在參考文獻或書目來確認其是否為學術性文獻;如是學術性文獻,則對其進行文本轉換和識別,建立全文索引。②從文獻中自動識別、抽取引文信息,包括引文環境(即上下文)、引文子字段等,特別是對以不同格式標注的相同引文進行歸類處理。③采用多種文獻相似性測度方法,對相關文獻和相似文獻進行自動識別。在運用ACI先進技術的過程中,CiteSeer的編制還充分借鑒、結合了傳統引文分析研究中對文獻之間引用和被引用關系的揭示方法,因此在為網絡用戶提供免費訪問和檢索使用時,CiteSeer不僅能夠返回一個與檢索請求相匹配的結果文獻列表,而且對列表文獻中包含的引證與被引證關系建立了全面的關聯鏈接,以方便用戶對檢索結果以及文獻引用與被引用數據的查看和跟蹤。

          針對網絡學術論文的特點,CiteSeer主要提供以下3項特色的文獻引文服務功能:①引文上下文(con-text)信息顯示,把文獻中引文出現位置前后的若干詞組或句子以粗體字標注出來,使用戶不需閱讀原文就能直接獲知引文被引用的上下文環境。②相關文獻揭示,具體包括基于語句分析的相似文獻、基于文本分析的相似文獻、動態相關文獻書目(ActiveBibliogra.phy)和基于共引關系的相關文獻(RelatedDocumentsfromCo-citation)等不同方式。③引文圖,以圖形方式直觀地顯示文獻被引用的時間分布狀況。

          目前,CiteSeer可在線查詢和獲取的學術資源數量已接近100萬。與SCI、SSCI等傳統引文索引數據庫相比,CiteSeer在全文可獲得性、全面性、及時性、費用等方面都具有明顯優勢。例如,一旦有學術性文獻在網絡上出現,就能自動進行搜索和索引,并把包括預印本、技術報告、會議錄等不同類型學術文獻的引證關系考慮進來;提供免費的網上服務,極大地發揮了引文索引的文獻檢索和評價功能;一些附加的網絡服務(如論文修正(correet)鏈接功能等)可以鏈接到討論區,及時查看相關的評論、綜述以及新的研究成果等。

          除了秉承E,Garfield博士引文分析思想編制的CiteSeer引文索引工具外,2004年由著名搜索引擎Coode推出的學術搜索服務——CoogleScholar,也成功引入了引文分析方法。其中,它提供的一大功能亮點——引文鏈接服務,就主要建立在引文分析基礎上:通過自動分析和摘錄學術文獻的引文信息,并將它們作為搜索結果的一部分單獨組織;當用戶查看搜索結果中的相關文獻記錄時,點擊“Citedby”功能即可搜索到其所有的引用文獻信息,而且這些引用文獻信息不僅來自各種數據庫的存儲內容,還包含了在圖書和各類非聯機出版物中的引用文獻信息。

          與傳統的引文索引數據庫系統(SCI、SSCI等)相比,CoogleScholar在多個方面擁有創新性功能。首先,在收錄范圍與文獻類型方面,它不僅收錄普通網頁中的學術論文,還廣泛包括來自學術出版商、專業學會網站、預印本庫、機構庫等提供的同行評議論文、學位論文、圖書、預印本、文摘、技術報告等多種文獻,內容覆蓋醫學、物理學、經濟學、計算機科學等多個學術領域。此外,OpenArchivesInitiative中OAIster所包含的上百萬篇論文也可通過Google,SiCScholar進行查詢,并可提供CrossRef鏈接服務。其次,在學術文獻引用與被引用關系的揭示方面,GoogleScholar不僅能反映學術期刊文獻之間的相互引用關系,還能廣泛反映學術期刊、書籍、預印本庫、機構庫、各類非聯機出版物等多種類型文獻之間的相互引用關系,使得文獻相互引用關系網絡覆蓋的范圍大大拓展。

          通過上述對CiteSeer和GoogleScholar的分析不難看出,在當前的網絡化數字科研時代,傳統的引文分析研究工作急需突破和拓展,相應地,傳統的引文分析工具也亟待完善。根據國內學者以WebofScience(SCI、SSCI和A&HCI的集成系統)和GoogleScholar分別作為引文分析工具進行的實證研究和結果對照,未來的引文分析研究再單純依賴傳統的WebofScience等工具,將越來越難以獲得全面、真實的引文數據,并會導致引文分析結果的嚴重偏差。特別是,隨著網絡環境下學術交流渠道的日益多樣化和開放訪問運動的蓬勃發展,這樣的偏差將會越來越大。因此,可以說,當前以CiteSeer和GoogleScholar為代表的新型引文分析工具的出現,一方面可看作是傳統引文分析思想的網絡化實踐與應用;另一方面它們也為未來引文分析研究工作的開展提供了新的思路和工具基礎。不過,在目前的狀態下,不論是CiteSeer還是GoogleScholar,要完全取代WebofScience,或者作為一種權威性的引文分析工具來使用,都還為時尚早。它們面臨的困難或障礙主要有:①收錄范圍不明確;②覆蓋的學術資源領域受限;③回溯年代短;④各學科開放訪問運動發展的不平衡;⑤ACI技術與網絡搜索技術的缺陷等。所有這些困難和問題,都需假以時日不斷克服或予以解決。

          5、結語

          本文主要從三個方面分析討論傳統引文分析方法的網絡化發展和應用。這些發展和應用成果不僅充分體現了引文分析思想的研究價值,也為未來引文分析工作的深入開展提供了新的探索方向和工具基礎。作為一種獨具特色的研究方法,期望網絡環境下的引文分析能夠日益完善,并不斷獲得理論上的創新和應用中的突破。