首頁 > 文章中心 > 正文

          Web數據挖掘技術

          前言:本站為你精心整理了Web數據挖掘技術范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

          Web數據挖掘技術

          [摘要]隨著Internet的發展,Web數據挖掘有著越來越廣泛的應用,Web數據挖掘是數據挖掘技術在Web信息集合上的應用。本文闡述了Web數據挖掘的定義、特點和分類,并對Web數據挖掘中使用的技術及應用前景進行了探討。

          [關鍵詞]數據挖掘Web挖掘路徑分析電子商務

          一、引言

          近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。數據挖掘是面向發現的數據分析技術,通過對大型的數據集進行探查。可以發現有用的知識,從而為決策支持提供有力的依據。

          Web目前已成為信息、交互和獲取的主要工具,它是一個巨大的、分布廣泛的、全球性的信息服務中心。它涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務和其他許多信息服務。面向Web的數據挖掘就是利用數據挖掘技術從Web文檔及Web服務中自動發現并提取人們感興趣的、潛在的有用模型或隱藏的信息。

          二、概述

          1.數據挖掘的基本概念

          數據挖掘是從存放在數據庫、數據倉庫、電子表格或其他信息庫中的大量數據中挖掘有趣知識的過程。數據挖掘基于的數據庫類型主要有:關系型數據庫、面向對象數據庫、事務數據庫、演繹數據庫、時態數據庫、多媒體數據庫、主動數據庫、空間數據庫、遺留數據庫、異質數據庫、文本型、Internet信息庫以及新興的數據倉庫等。

          2.Web數據挖掘

          Web上有少量的數據信息,相對傳統的數據庫的數據結構性很強,即其中的數據為完全結構化的數據。Web上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的數據而言。由于Web的開放性、動態性與異構性等固有特點,要從這些分散的、異構的、沒有統一管理的海量數據中快速、準確地獲取信息也成為Web挖掘所要解決的一個難點,也使得用于Web的挖掘技術不能照搬用于數據庫的挖掘技術。因此,開發新的Web挖掘技術以及對Web文檔進行預處理以得到關于文檔的特征表示,便成為Web挖掘的重點。

          三、Web數據挖掘分類

          Web數據有三種類型,它們分別是:HTML標記的Web文檔數據、Web文檔內的廉潔的結構數據和用戶訪問數據,相應地,Web數據挖掘可分為三類:內容挖掘(Webcontentmining)、結構挖掘(Webstructuremining)和用戶訪問模式挖掘(Webusagemining)。如下圖所示。

          1.Web內容挖掘

          Web內容挖掘是從文檔內容或其描述中抽取有用信息的過程,Web內容挖掘按實現方法分為兩大類:信息檢索(IR)方法和數據庫方法。且有兩種策略:直接挖掘文檔的內容和在其他工具搜索的基礎上進行改進。

          IR方法主要處理非結構數據和Web中由HTML標記的半結構化數據。前者一般采用詞集方法,用一組組詞條來表示無結構的文本。后者主要利用傳統的數據挖掘技術:如關聯規則、分類算法、演繹邏輯和規則學習等。

          2.Web結構挖掘

          Web結構挖掘是從Web組織結構和鏈接關系中推導知識。挖掘頁面的結構和Web結構,可以用來指導對頁面進行分類和聚類,找到權威頁面、中心頁面,從而提高檢索的性能。同時還可以用來指導頁面采集工作,提高采集效率。Web結構挖掘可以分為Web文檔內部結構挖掘和文檔問的超鏈接結構挖掘。

          Web結構挖掘的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然后利用圖論對Web的拓撲結構進行分析。常見的算法有HITS(HypertextInducedTopicSearch),PageRank,發現虛擬社區的算法、發現相似頁面的算法、發現地理位置的算法和頁面分類算法。Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。查詢相關算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關算法和查詢獨立算法的代表。

          3.Web訪問挖掘

          Web訪問挖掘是從服務器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的模式,通過分析這些數據可以幫助理解用戶隱藏在數據中的行為模式,做出預測性分析,從而改進站點的結構或為用戶提供個性化的服務。

          Web訪問挖掘一般分為兩種:一般訪問模式跟蹤和定制使用跟蹤。一般訪問模式跟蹤通過分析Web日志來理解用戶的訪問模式和傾向;定制使用跟蹤分析單個用戶的偏好,根據其訪問模式為每個用戶定制符合其個人特色的Web站點。Web的log數據包括:senrerlog,proxyserverlog,client端的cookielog等。Web使用記錄挖掘通常需要經過三個階段:數據預處理階段(主要包括數據清洗和事物識別兩個部分):模式識別階段(采用統計法、機器學習等成熟技術.從Web使用記錄中挖掘知識):模式分析階段(采用合適的成熟的技術和工具進行模式的分析,從而輔助分析人員理解.使采用各種工具挖掘出的模式得到很好利用)。對Web使用記錄挖掘采用的算法有:路徑分析、關聯規則和有字模式的發現、聚類分類等,為了提高精度,使用記錄挖掘也用到站點結構和頁面內容等信息。四、Web數據挖掘中的關鍵技術

          Web數據挖掘中常用的技術有Web使用的特有的路徑分析技術,數據挖掘領域常用的關聯規則、序列模式、分類聚類技術等。

          1.路徑分析技術

          用路徑分析技術進行Web數據挖掘時,最常用的是圖,因為Web可以用一個有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超連接集合,頁面定義為圖中的頂點,而頁面之間的超連接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網站結構圖,從圖中確定最頻繁的訪問路徑。

          2.關聯規則挖掘技術

          關聯規則挖掘技術主要用于從用戶訪問序列數據庫的序列項中挖掘出相關的規則,就是要挖掘出用戶在一個訪問期間(SESSION),從服務器上訪問的頁面/文件之間的聯系,這些頁面之間可能并不存在直接的參引(RIFERENCE)關系.最常用的是用APRIOR算法,從事務數據庫中挖掘出最大頻繁訪問項集,這個項集就是關聯規則挖掘出來的用戶訪問模式。

          3.序列模式挖掘技術

          序列模式數據挖掘就是要挖掘出交易集之間的有時間序列關系的模式.它與關聯挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規律,關聯挖掘技術更注重事務內的關系,序列模式技術則注重事務間的關系。

          4.聚類分類技術

          分類規則可以挖掘出某些共同的特性,這個特性可以用來對新添到數據庫里的數據項進行分類。在Web數據挖掘中,分類技術可以根據訪問這些用戶而得到的個人信息或共同的訪問模式得出訪問某一服務器文件的用。特征。聚類技術則是對符合某一訪問規律特征的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。

          五、Web數據挖掘的應用

          隨著中國經濟的高速發展,數據挖掘將在中國形成一個產業,目前Web數據挖掘已廣泛地應用于金融業、遠程通訊業、政府管理、制造業、醫療服務以及體育事業中,基于Web的數據挖掘技術已經成為一個熱點,下面主要介紹Web數據挖掘的三個應用前景。

          1.在電子商務中的應用

          在電子商務中,運用Web挖掘技術從服務器和瀏覽器端日志記錄中自動發現隱藏在數據中的模式信息,對此進行分析加工,通過對客戶進行分類和聚類,從中可得到商家用于向特定消費群體或個體進行定向營銷的決策信息。了解系統的訪問模式以及用戶的行為模式,從而做出預測性分析。同時有效地對這些Web日志進行定量分析,提示其中的關聯關系、時序關系、頁面類屬關系、客戶類屬關系和頻繁訪問路徑、頻繁訪問頁面等,從而為企業更有效地確認目標市場、改進決策獲得更大的競爭優勢提供幫助。

          2.在搜索引擎中的應用

          利用Web數據挖掘技術,通過對網頁內容的挖掘,可實現對網頁的聚類和分類,實現網絡信息的分類瀏覽與檢索;運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果;通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效率。

          3.在網站設計中的應用

          在網站建設中,使用Web挖掘通過對網站內容的挖掘,可有效地組織網站信息,例如采用自動歸類技術實現網站信息的層次性組織;分析用戶的Web訪問行為,可為用戶提供智能化、個性化服務。比如,可根據客戶的訪問興趣、訪問頻度、訪問時間,動態地調整頁面結構,迎合每個客戶的瀏覽興趣,使客戶在瀏覽時感覺自己是網站的惟一客戶;另外,網站還可以根據實際用戶的瀏覽情況,挖掘用戶的興趣點,定期為用戶推送相關信息,以及調整網站中網頁的鏈接結構和內容,為用戶提供個人的定制服務。

          六、結束語

          本文就Web數據挖掘技術及應用進行了分析,Web挖掘的應用研究是當前數據挖掘的研究熱點。隨著電子商務的迅速普及,網絡資源的廣泛利用,如何進一步開發Web數據挖掘,使用Web挖掘技術進行更深層次的應用是目前研究的重點。

          文檔上傳者