首頁 > 文章中心 > 正文

          網(wǎng)絡(luò)信息資源數(shù)據(jù)挖掘類型和應用

          前言:本站為你精心整理了網(wǎng)絡(luò)信息資源數(shù)據(jù)挖掘類型和應用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

          網(wǎng)絡(luò)信息資源數(shù)據(jù)挖掘類型和應用

          隨著Internet的飛速發(fā)展,網(wǎng)絡(luò)信息資源急劇增長,網(wǎng)絡(luò)信息過載問題日益突出,人們越來越多地關(guān)注如何開發(fā)和利用這些資源。然而,目前中英文搜索引擎均存在查準率、查全率不高的現(xiàn)象,這種現(xiàn)狀無法適應用戶對高質(zhì)量的網(wǎng)絡(luò)信息服務的需求;同時,電子商務以及各種網(wǎng)絡(luò)信息服務迅速興起,原有的網(wǎng)絡(luò)信息處理與組織技術(shù)無法趕上這樣的發(fā)展趨勢。網(wǎng)絡(luò)信息挖掘就是在這樣的環(huán)境下應運而生,并迅速成為網(wǎng)絡(luò)信息檢索、信息服務領(lǐng)域的熱點之一。

          網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘不僅包括對網(wǎng)頁內(nèi)容本身的挖掘,也包括其鏈接模式,以及用戶訪問、存取、瀏覽、、操作等操作行為、訪問行為所產(chǎn)生的信息的挖掘。有效地研究、挖掘、利用網(wǎng)絡(luò)信息可以增強網(wǎng)站的吸引力,有的放矢地吸引用戶群,更有效地利用網(wǎng)絡(luò)資源。

          一、網(wǎng)絡(luò)信息資源及其特點

          網(wǎng)絡(luò)信息資源是指放置在英特網(wǎng)上能滿足人們信息需求的信息集合。網(wǎng)絡(luò)信息資源極其豐富,包羅萬象,其內(nèi)容涉及農(nóng)業(yè)、生物、化學、數(shù)學、天文學、航天、氣象、地理、計算機、醫(yī)療和保險、歷史、法律、音樂和電影等幾乎所有專業(yè)領(lǐng)域,是知識、信息的巨大集合,是人類的資源寶庫。網(wǎng)絡(luò)信息資源是一種新型數(shù)字化資源,與傳統(tǒng)文獻相比有較大的差別。網(wǎng)絡(luò)信息資源具有一下特點:

          1、數(shù)量大,類型多傳播范圍廣。網(wǎng)絡(luò)信息類型多樣,有文本、數(shù)據(jù)、圖像、圖形、聲頻、視頻信息、多媒體信息等;內(nèi)容既有高質(zhì)量的信息,也有有害信息和虛假信息,有個人信息也有在政府信息。最為特殊的是各種非正式信息被廣泛生產(chǎn)與傳播。

          2、網(wǎng)絡(luò)信息資源沒有統(tǒng)一的管理機制,信息安全缺乏保障。黑客攻擊、計算機病毒和色情泛濫成為網(wǎng)絡(luò)的三大痼疾。為防止有害信息耗費了大量的社會資源。

          3、網(wǎng)絡(luò)信息資源分布零亂無序,信息更新快,壽命短,管理相對困難。信息自由,來源廣泛,內(nèi)容混雜,質(zhì)量不一,控制也比較困難。

          4、以網(wǎng)站為信息活動的單位,以網(wǎng)頁為信息和收集的單元。

          5、信息利用水平取決于網(wǎng)站軟硬件的技術(shù)水平和服務能力,網(wǎng)絡(luò)信息提供方式是以網(wǎng)站為基點并可在網(wǎng)站間靈活鏈接的信息服務網(wǎng)。

          6、網(wǎng)絡(luò)創(chuàng)造了多層次的信息交流模式,全面反應了社會生活的各個領(lǐng)域,形成了百科全書式的知識網(wǎng)絡(luò)和傳播功能。

          二、數(shù)據(jù)挖掘的語言

          數(shù)據(jù)挖掘語言有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標準化,推動數(shù)據(jù)挖掘應用的發(fā)展。數(shù)據(jù)挖掘語言根據(jù)功能和側(cè)重點的不同,可分為三種類型:數(shù)據(jù)挖掘查詢語言、數(shù)據(jù)挖掘建模語言、通用數(shù)據(jù)挖掘語言。

          (一)數(shù)據(jù)挖掘查詢語言DMQL

          數(shù)據(jù)挖掘查詢語言DMQL由數(shù)據(jù)挖掘原語組成。數(shù)據(jù)挖掘原語用來定義一個數(shù)據(jù)挖掘任務,通過查詢的方式實現(xiàn)與數(shù)據(jù)挖掘系統(tǒng)通信,獲得所需信息。數(shù)據(jù)挖掘查詢語言DMQL主要有五種基本的數(shù)據(jù)挖掘原語定義:任務相關(guān)數(shù)據(jù)原語、被挖掘的知識的種類原語、背景知識原語、興趣度測量原語、被發(fā)現(xiàn)模式的表示和可視化原語。DMQL是基于這五種數(shù)據(jù)挖掘原語設(shè)計的查詢式語言,類似于SQL語言的語法,因此很容易與SQL關(guān)系查詢語言集成,很容易從關(guān)系數(shù)據(jù)庫中挖掘知識信息。MSQL是另一個數(shù)據(jù)挖掘查詢語言,由Imielinski和Virmani提出。它使用了類似于SQL的語法和SQL原語,為了規(guī)范規(guī)則產(chǎn)生和規(guī)則選擇,提出了被稱作GetRule和SelctRule的原語。

          (二)數(shù)據(jù)挖掘建模語言PMML

          數(shù)據(jù)挖掘建模語言PMML全稱預言模型標記語言(PredictiveModelMarkupLanguage),是對數(shù)據(jù)挖掘模型進行描述和定義的語言,使數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有法可依,各種數(shù)據(jù)挖掘系統(tǒng)可以共享模型,又可以在應用程序系統(tǒng)中間嵌套數(shù)據(jù)挖掘模型,不需要獨自開發(fā),就能使數(shù)據(jù)挖掘達到深度挖掘的目的。預言模型標記語言PMML是一種基于XML的數(shù)據(jù)挖掘建模語言,利用XML描述和存儲數(shù)據(jù)挖掘模型,使用標準的XML解析器對PMML解析,可以得到預計的輸入和輸出數(shù)據(jù)類型。PMML2.0主要由:標題(header)、數(shù)據(jù)字典(datadictionary)、數(shù)據(jù)流(dataflow)、挖掘模型(miningschema)、數(shù)據(jù)轉(zhuǎn)換(DerivedValues、Statistics、Taxonomy、Normalization)、預言模型(TreeModel、NaiveBayes、GeneralRegression、RegressionModel、Sequences、GeneralStructure、AsscocationRules、NeuralNetwork、CenterandDistributionbasedClustering)、模型組合定義(ensemblesofmodels)、選擇和聯(lián)合模型和模型組合的規(guī)則(rulesforselectingandcombiningmodelsandensemblesofmodels)、異常處理的規(guī)則(rulesforexceptionhandling)等九個部分組成。對于復雜的數(shù)據(jù)挖掘任務,由多個數(shù)據(jù)源和數(shù)據(jù)挖掘模塊,需要在各個模塊之間交換結(jié)果,預言模型標記語言PMML的主要組成部分擁有這種靈活的模型交換能力和數(shù)據(jù)格式轉(zhuǎn)換能力,并實現(xiàn)模型與數(shù)據(jù)和工具部分分離。因PMML是基于XML的數(shù)據(jù)挖掘建模語言,適合部分學習、元學習、分布式學習的數(shù)據(jù)挖掘應用程序。

          (三)通用數(shù)據(jù)挖掘語言O(shè)LEDBforDM

          通用數(shù)據(jù)挖掘語言O(shè)LEDBforDM是2000年3月微軟公司推出的一個數(shù)據(jù)挖掘語言,目的是為數(shù)據(jù)挖掘行業(yè)提供一個業(yè)界標準。OLEDBforDM綜合了數(shù)據(jù)挖掘查詢語言DMQL和數(shù)據(jù)挖掘建模語言PMML的特點,既能定義模型,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互的和特殊的數(shù)據(jù)挖掘,實現(xiàn)了數(shù)據(jù)與模型真正分離。OLEDBforDM是一種基于SQL預言的協(xié)議,擴充了SQL語言語法,可以輕松地與關(guān)系型數(shù)據(jù)庫集成,可以將不同的數(shù)據(jù)挖掘算法嵌入數(shù)據(jù)挖掘應用程序。OLEDBforDM為了更接近關(guān)系型數(shù)據(jù)庫結(jié)構(gòu),定義了幾個重要的概念。

          數(shù)據(jù)挖掘模型(DataMiningModel,DMM):DMM像數(shù)據(jù)庫中的關(guān)系表,但是它包含了一些特殊的列,這些列被數(shù)據(jù)挖掘中的數(shù)據(jù)訓練和預言制定使用。DMM既可以用來創(chuàng)建預言模型,又可以產(chǎn)生預言。標準的關(guān)系表用來存儲原始數(shù)據(jù)而DMM存儲被數(shù)據(jù)挖掘算法發(fā)現(xiàn)的模式,對于從事WEB挖掘的開發(fā)人員,DMM所有的結(jié)構(gòu)和內(nèi)容都可以用XML字符串表示。

          預言聯(lián)接操作(PredicationJoinOperation):預言聯(lián)接操作類似于SQL語言中的連接操作,在一個訓練好的數(shù)據(jù)挖掘模型和輸入數(shù)據(jù)源之間映射一個連接查詢,將能得到符合需求的預言結(jié)果。這個預言結(jié)果通過OLEDB的行集合或者ADO記錄集(recordset)發(fā)送到消費者應用程序內(nèi)。OLEDBforDM模式行集合(SchemaRowsets):OLEDBforDM模式行集合用于特殊目的模式行集合允許消費者應用發(fā)現(xiàn)臨界的信息,例如:可利用的挖掘服務、挖掘模型、挖掘列和模型內(nèi)容等。

          三、網(wǎng)絡(luò)信息挖掘的類型

          根據(jù)挖掘的對象不同,網(wǎng)絡(luò)信息挖掘一般可分為三類:網(wǎng)絡(luò)內(nèi)容挖掘(Webcontentmining)、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Webconstructmining)和網(wǎng)絡(luò)用法挖掘(Webusagemining)。

          (一)網(wǎng)絡(luò)內(nèi)容挖掘

          網(wǎng)絡(luò)內(nèi)容挖掘是指從網(wǎng)絡(luò)的內(nèi)容/、掘內(nèi)容挖掘語言。的關(guān)系表用來存儲原始數(shù)據(jù),據(jù)挖掘任務,數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息的過程。網(wǎng)絡(luò)信息資源類型眾多,目前WWW信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體,Internet出現(xiàn)之前的Gopher、FTP、Usenet資源逐漸隱藏到WWW形式之后,但這些資源仍可以通過Web進行訪問。然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)檢索服務的資源之外,一些網(wǎng)絡(luò)信息是“隱藏”著的數(shù)據(jù),如由用戶的提問而動態(tài)生成的結(jié)果,或是存放在DBMS(數(shù)據(jù)庫管理系統(tǒng))中的數(shù)據(jù),或是那些私人數(shù)據(jù),它們無法被索引,從而無法提供對它們有效的檢索方式。以上是從網(wǎng)絡(luò)信息源的角度探討,若從資源形式看,網(wǎng)絡(luò)信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等等形式的數(shù)據(jù)組成的,因而我們所說的網(wǎng)絡(luò)內(nèi)容挖掘?qū)⑹且环N多媒體數(shù)據(jù)挖掘形式。

          (二)網(wǎng)絡(luò)結(jié)構(gòu)挖掘

          網(wǎng)絡(luò)結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)、Web文檔結(jié)構(gòu)及其鏈接關(guān)系中推導知識。主要是針對Web潛在的鏈接結(jié)構(gòu),通過網(wǎng)頁鏈接找到隱藏在頁面之后的鏈接結(jié)構(gòu)模型。網(wǎng)絡(luò)結(jié)構(gòu)挖掘的目的是發(fā)現(xiàn)Web和頁面的結(jié)構(gòu)及其蘊含在這些結(jié)構(gòu)中的有用模式,對頁面及其鏈接進行分類和聚類,由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息,有助于用戶找到相關(guān)主題的權(quán)威站點,并且可以通過瀏覽權(quán)威網(wǎng)站企業(yè)可以了解本行業(yè)的最新動態(tài)信息,了解一些著名的大型企業(yè)的發(fā)展動態(tài)。還可以發(fā)現(xiàn)Web文檔自身的結(jié)構(gòu),這種結(jié)構(gòu)用于用戶的瀏覽,也利于對網(wǎng)頁進行比較和系統(tǒng)化。

          (三)網(wǎng)絡(luò)用法挖掘

          通過網(wǎng)絡(luò)用法挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘則不同于前兩者,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務器訪問記錄、服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等。

          四、網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘的應用

          隨著Internet的迅速發(fā)展和不斷的普及應用,網(wǎng)絡(luò)信息資源越來越豐富,如何分析和利用這些海量的數(shù)據(jù)是當前比較突出的一個問題。網(wǎng)絡(luò)信息挖掘在實際工作中具有重要的實踐意義和廣闊的應用前景。

          通過網(wǎng)絡(luò)信息挖掘,可以收集政治、經(jīng)濟、政策、科技、競爭對手、供求、客戶等有關(guān)的信息,分析和處理這些信息,并根據(jù)分析結(jié)果找出經(jīng)營管理過程中出現(xiàn)的各種問題,有利于改善管理的效率和效果。網(wǎng)絡(luò)信息挖掘可以應用在許多方面,例如:

          1、科學研究。隨著先進的科學數(shù)據(jù)收集工具的使用,如觀測衛(wèi)星、遙感器、生物信息技術(shù)等,所涉及的數(shù)據(jù)量非常大,傳統(tǒng)的數(shù)據(jù)分析工具無能為力,網(wǎng)絡(luò)數(shù)據(jù)挖掘作為一種強大的智能型自動數(shù)據(jù)分析工具得以廣泛應用。

          2、市場營銷。利用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)通過對用戶數(shù)據(jù)進行分析,可以得到關(guān)于顧客購買取向和興趣的信息,從而為商業(yè)決策提供可靠的依據(jù)。

          3、金融投資。由于金融投資的風險很大,在進行投資決策是,更需要對各種投資方向的數(shù)據(jù)進行分析。數(shù)據(jù)挖掘可以通過對已有數(shù)據(jù)的處理,找到數(shù)據(jù)對象之間的關(guān)系,然后利用學習得到的模式進行合理的預測。

          4、產(chǎn)品制造。數(shù)據(jù)挖掘?qū)Ξa(chǎn)品數(shù)據(jù)的分析,有助于對改進產(chǎn)品質(zhì)量提出有針對性的建議,或提出信息的更高效的控制模式,從而為制造廠家?guī)砀嗟幕貓蟆?/p>

          5、教學管理。如遠程教育中的網(wǎng)絡(luò)資源發(fā)現(xiàn),分析教學網(wǎng)站的結(jié)構(gòu)組織是否符合學生學習和教師教學的規(guī)律、教學評價等。教學評價的技術(shù)水平是衡量一個國家教育發(fā)展水平的重要尺度。傳統(tǒng)的定性與定量教學評價存在許多問題。將數(shù)據(jù)與挖掘這種新的數(shù)據(jù)分析技術(shù)應用于教學評價之中,可以提高教些評價技術(shù)水平,使之更好地為教學服務。

          6、Internet或其他通信網(wǎng)絡(luò)管理等的應用。

          下面主要介紹網(wǎng)絡(luò)信息挖掘在電子商務、網(wǎng)絡(luò)廣告和競爭情報中的應用。

          (一)網(wǎng)絡(luò)信息挖掘在電子商務中的應用

          1、網(wǎng)絡(luò)信息挖掘在電子商務中應用的必要性

          電子商務是指個人或企業(yè)通過國際互聯(lián)網(wǎng)絡(luò),采用數(shù)字化方式進行商務數(shù)據(jù)交換和開展商務業(yè)務活動。電子商務過程中產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)挖掘是對這些數(shù)據(jù)進行分析的有效方法。由于Web的易用性、實用性,它很快占據(jù)了網(wǎng)絡(luò)信息主導地位,目前已經(jīng)成為使用最為廣泛、最有前途的信息傳播技術(shù)。電子商務中產(chǎn)生的數(shù)據(jù)有其自身的特點,把數(shù)據(jù)挖掘技術(shù)與電子商務進行有機結(jié)合,選用適合電子商務數(shù)據(jù)的挖掘方法,可以提供數(shù)據(jù)挖掘的效率,讓數(shù)據(jù)挖掘更好地為電子商務服務。電子商務是以網(wǎng)絡(luò)技術(shù)和Web數(shù)據(jù)庫技術(shù)為支持的,其中,Web數(shù)據(jù)庫技術(shù)是電子商務的核心技術(shù),Web數(shù)據(jù)庫的發(fā)展成為新的熱點和難題。Web數(shù)據(jù)庫能將數(shù)據(jù)庫技術(shù)與Web技術(shù)很好地融合在一起,是數(shù)據(jù)庫系統(tǒng)成為Web的重要有機組成部分,能夠?qū)崿F(xiàn)數(shù)據(jù)庫與網(wǎng)絡(luò)技術(shù)的無縫有機結(jié)合。客戶是數(shù)據(jù)挖掘研究的對象之一,它能發(fā)現(xiàn)客戶的共性和個性、必然和偶然、獨立和關(guān)聯(lián)、現(xiàn)實和預測等知識。通過這些知識可以對客戶的消費行為如客戶消費的心理、能力、動機、需求等作出比較客觀的統(tǒng)計和準確的分析,為電子商務的管理者提供決策依據(jù)。電子商務組織管理者必須通過訪問網(wǎng)絡(luò)最新和最準確的信息,對產(chǎn)品、客戶、合作伙伴和進程做出明智的決策,從而贏得競爭優(yōu)勢。

          近年來,電子商務站在企業(yè)商貿(mào)領(lǐng)域占據(jù)著越來越多的市場份額,網(wǎng)絡(luò)信息挖掘主要用于商品的市場定位和消費分析,以輔助制定市場策略,還可以用來分析購物模式,預測銷售行情等。

          2、網(wǎng)絡(luò)信息挖掘在電子商務中的主要應用

          (1)針對不同客戶提供個性化的產(chǎn)品

          銷售商可以獲知訪問者的個人愛好更加充分地了解客戶的需要,根據(jù)各個細節(jié)市場,甚至是每一個顧客的獨特需求提供個性化的產(chǎn)品,有利于提高客戶的滿意度。為了使網(wǎng)絡(luò)信息挖掘技術(shù)更好地應用,商家必須記錄訪問者的特征及條款特征。當訪問者訪問某網(wǎng)站時,有關(guān)訪問者的數(shù)據(jù)便會逐漸積累起來。

          (2)發(fā)現(xiàn)潛在客戶

          對一個電子商務網(wǎng)站來說,了解、關(guān)注在冊客戶全體是非常重要的,但從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體也同樣非常關(guān)鍵。如果發(fā)現(xiàn)某些客戶為潛在客戶群體,就可以對這類客戶實施一定的策略,使他們盡快成為在冊客戶群體。在對客戶訪問記錄的挖掘中,利于分類技術(shù)可以在網(wǎng)絡(luò)上找到潛在客戶。先對已經(jīng)存在的訪問者進行分類,一般分為三種:新來訪者、偶然來訪者和常客。對于新來訪者,通過分類發(fā)現(xiàn),識別出這個客戶與已經(jīng)分類的老客戶的一些公共屬性,從而對這個新客戶進行正確的歸類。然后根據(jù)歸類判斷,決定是否要把這個新來訪者作為潛在的客戶來對待。

          (3)挽留老顧客

          二八定律表明企業(yè)80%的業(yè)務收入來自于20%的客戶,而向新客戶進行推銷的花費要6倍于向現(xiàn)有的客戶進行推銷的花費。通過Web數(shù)據(jù)挖掘,可發(fā)現(xiàn)什么樣的顧客群在網(wǎng)站上購買了什么商品,哪些是網(wǎng)站的忠誠客戶,以便對其進行個性化營銷和人性化關(guān)懷。

          (4)延長客戶的駐留時間

          為了使客戶在自己的網(wǎng)站上駐留更長的時間,就應該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動態(tài)地調(diào)整Web頁面,以滿足客戶的需要。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求,并根據(jù)需求動態(tài)地向客戶推薦頁面,提供特有的一些商品信息和廣告,以使客戶能繼續(xù)保持訪問站點的興趣。

          (5)改進站點設(shè)計

          站點上頁面內(nèi)容的安排就如超級市場中物品在貨架上的擺設(shè)一樣,把具有一定支持度和信任度的相關(guān)聯(lián)的物品擺放在一起有助于銷售,利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以針對客戶動態(tài)調(diào)整站點的結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的文件間的鏈接能夠比較直接,讓客戶更容易訪問到想訪問的頁面。網(wǎng)站如果具有這樣的便利性,就能給客戶留下較好的印象,增加了下次訪問的幾率。對Web站點鏈接結(jié)構(gòu)的優(yōu)化可從兩方面來考慮:一是通過對Web日志的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而在密切聯(lián)系的網(wǎng)頁之間增加鏈接,方便用戶的使用。二是通過對Web日志挖掘,發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立鏈接,從而實現(xiàn)對Web站點的優(yōu)化。

          (6)電子商務推薦系統(tǒng)

          推薦系統(tǒng)就向客戶推薦商品或提供信息來引導客戶購買什么商品。推薦系統(tǒng)可以根據(jù)其他客戶的信息或此客戶的信息,模擬銷售人員幫助客戶完成購買過程,為客戶提供個性化服務。推薦的形式包括向客戶推薦商品,提供個性化的商品信息等。推薦系統(tǒng)具有如下作用:(1)將瀏覽者轉(zhuǎn)變?yōu)橘徺I者。有時人們只是看看網(wǎng)站的內(nèi)容而沒有購買的意思。推薦系統(tǒng)可以幫客戶找到他們感興趣的、愿意買的商品。(2)增加交叉銷售。基于用戶已經(jīng)購買的商品,推薦客戶購買一些相關(guān)的商品。(3)建立忠誠度。客戶往往愿意到那些最能滿足自己需求的網(wǎng)站購物。

          3、實例:顧客行為模式分析

          由于數(shù)據(jù)挖掘技術(shù)一般不是在線創(chuàng)建模型,因此首先要將諸如會員基本信息、會員在線消費文檔、會員在線行為文檔\服務器認證日志等所有的相關(guān)數(shù)據(jù)從服務器上下載下來,并按照以下步驟處理這些數(shù)據(jù)。

          (1)數(shù)據(jù)聚合與過濾

          在這一步中,從不同的文檔聚集所有數(shù)據(jù)匯成一組基本數(shù)據(jù)記錄,在聚集的處理過程中,這些信息中有錯誤和漏掉的部分都需要得到修正。例如在信息提取的過程中,遇到購買為零時會導致空白,因此需填充缺省值來處理空白。然后將與該模式無關(guān)緊要的欄消去。例如,消去顧客的ID欄,因為它自始至終對于顧客行為模式?jīng)]有任何作用。

          (2)數(shù)據(jù)整合

          預處理過的數(shù)據(jù)才可被挖掘工具進行整合。要注意數(shù)據(jù)挖掘工具只能處理數(shù)字,因此文字數(shù)據(jù)就要提前處理轉(zhuǎn)化出來。不同的數(shù)據(jù)挖掘工具可能采用不同的挖掘技術(shù),如有的可利用遺傳算法,有的則可采用神經(jīng)網(wǎng)絡(luò)技術(shù)等等。因此,得出的結(jié)論也可能會因為數(shù)據(jù)整合的方法不同而有差別。以下是兩個實例,表4-1是提取和過濾過的會員數(shù)據(jù),表4-2是分析的顧客行為模式。

          表4-1會員數(shù)據(jù)

          NO.

          性別

          職業(yè)

          年齡

          IP

          停留時間(分)

          購物時間(年)

          消費總計

          購買的產(chǎn)品

          1

          2

          3

          4

          5

          student

          IT

          student

          clerk

          doctor

          22

          35

          24

          28

          32

          12.23

          33.27

          23.46

          52.12

          40.06

          34

          58

          24

          82

          40

          3

          6

          2

          5

          4

          566

          340

          454

          531

          480

          A

          B

          C

          A

          D

          表4-2顧客行為模式

          依據(jù)購物的時間

          依據(jù)消費總計

          依據(jù)購買的商品

          Ifuser’ssexisfemaleanduser’soccupationisstudent

          Thenthisuser’sformerpurchasestimeis3

          Ifuser’ssexismaleanduser’soccupationisITprofessionalanduser’sIPis33.27

          Thenthisuser’sformerpurchasesis6

          (二)網(wǎng)絡(luò)信息挖掘在網(wǎng)絡(luò)廣告分析中的應用

          網(wǎng)絡(luò)廣告是指在Internet站點上的,數(shù)字化格式的各種經(jīng)營性廣告。網(wǎng)絡(luò)廣告一般是指多媒體廣告,能將文字、圖像和聲音有機的組合在一起,傳遞多種感官的信息,讓顧客如身臨其境,感受商品或服務。這種圖、文、聲、像相結(jié)合的廣告形式,將大大增強網(wǎng)絡(luò)廣告的實效。

          對于網(wǎng)站來說,它必須意識到一個成功的網(wǎng)絡(luò)廣告不僅僅找到一個業(yè)主,為它放上一個超鏈接這么簡單,要想讓廣告主看到成效、增加宣傳費,除了網(wǎng)站要完善自身建設(shè),擴大用戶群外,還應主動向廣告主提供用戶信息,由于點擊廣告的用戶基本上是對此產(chǎn)品有興趣的潛在顧客,因此,廣告主也愿意付出較高的費用。網(wǎng)站要想長期大量的而擁有廣告主的投資,利用數(shù)據(jù)文件技術(shù)為廣告主提供細致周到的服務至關(guān)重要。數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域的成功應用,文件算法的日趨成熟,都為網(wǎng)站提供這種服務創(chuàng)造了條件。

          網(wǎng)絡(luò)信息挖掘技術(shù)主要分為三個階段:數(shù)據(jù)準備、挖掘操作、結(jié)果表達。就數(shù)據(jù)準備而言,網(wǎng)絡(luò)廣告主所需的數(shù)據(jù)主要來自兩個方面:一方面是用戶的背景信息,這部分信息主要來自于用戶的登記表;而另一部分數(shù)據(jù)主要來自于用戶的點擊流,這部分信息主要來自于用戶的行為表現(xiàn)。人們在訪問某網(wǎng)站的同時,便提供了個人對網(wǎng)站內(nèi)容的反饋信息:點擊了哪一個鏈接,在哪里瀏覽時間最多,用了哪個搜索項、總體瀏覽時間、個人姓名和住址等。所有這些信息都被保存在一個數(shù)據(jù)庫中,生成大量的記錄文件和登記表,利用這些數(shù)據(jù)進行分析、挖掘,充分了解用戶的喜好、購買模式,不僅可以使網(wǎng)站設(shè)計出滿足不同用戶群體需要的個性化網(wǎng)頁,增加競爭力,而且可以為廣告主提出行之有效的廣告方案,實現(xiàn)商家渴望的個性化市場營銷。在數(shù)據(jù)準備階段一定要保證數(shù)據(jù)的質(zhì)量和時效性,這是數(shù)據(jù)挖掘成功與否的關(guān)鍵。不同的問題需要用不同的方法去解決,即使對于同一個問題,也肯定有多種算法。目前有很多廠商正在開發(fā)專門用于網(wǎng)站挖掘的軟件,可以根據(jù)網(wǎng)絡(luò)用戶瀏覽廣告時留下的個人信息,利用基于數(shù)據(jù)挖掘的概率知識庫和模糊知識庫,對信息進行概率分析,通過對廣告訪問者潛在的信息特征進行模糊劃分,判斷哪些網(wǎng)絡(luò)用戶是本產(chǎn)品的真正客戶,而不是一般性的瀏覽訪問者,從而為廠家組織生產(chǎn)和商家營銷計劃提供科學的決策信息。

          利用網(wǎng)絡(luò)數(shù)據(jù)挖掘,廣告主可以通過網(wǎng)站提供的用戶信息,有的放矢地發(fā)送廣告。可見網(wǎng)絡(luò)公司在已有的條件下,加大數(shù)據(jù)分析力度,無論是對自身發(fā)展還是個廣告主的宣傳都是有利策略。當然,數(shù)據(jù)挖掘技術(shù)并不能包治百病,要想獲得最佳的網(wǎng)絡(luò)廣告效果,不僅與網(wǎng)絡(luò)廣告投放的位置,所選網(wǎng)站的日常瀏覽量,廣告自身的視覺效果等密切相關(guān),還有許多其他的影響因素。而且,就數(shù)據(jù)挖掘而言,也不應把它看得過分神秘,認為只要有了一個數(shù)據(jù)挖掘工具,就能自動挖掘初所需要的信息,能更好地進行企業(yè)、商業(yè)運作,這是認識上的誤區(qū)。其實,要想真正做好數(shù)據(jù)挖掘,工具只是其中的一個方面,同時還需要對企業(yè)、企業(yè)業(yè)務的深入了解和數(shù)據(jù)分析經(jīng)驗。無論是企業(yè)還是網(wǎng)站要想在未來的市場中具有競爭力,必須有些數(shù)據(jù)挖掘方面的專家,專門從事數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。在同其他部門協(xié)調(diào),才能做到量身定做廣告。

          (三)網(wǎng)絡(luò)信息挖掘在競爭情報工作中的應用

          1、網(wǎng)絡(luò)信息挖掘在競爭情報工作中的作用

          競爭情報是指通過合法手段收集和分析商業(yè)競爭中有關(guān)商業(yè)行為的優(yōu)勢、劣勢和機會的信息。互聯(lián)網(wǎng)為競爭情報工作提供了豐富的信息資源,但是沒有一個很好的網(wǎng)絡(luò)信息挖掘工具很難獲取其中有價值的信息。隨著商業(yè)競爭的日益激烈,各個企業(yè)都紛紛建立了自己的競爭情報系統(tǒng),以提高自身的競爭力。尤其是在網(wǎng)絡(luò)環(huán)境下,誰忽視了網(wǎng)絡(luò)信息資源的開發(fā)與利用誰就已經(jīng)失去了領(lǐng)先的機會。在企業(yè)競爭情報工作中有兩個重要方面,就是獲取競爭對手和客戶的信息。隨著互聯(lián)網(wǎng)在企業(yè)中應用的不斷深入,從網(wǎng)上可挖掘的企業(yè)信息越來越多,涉及的內(nèi)容也越來越廣泛。從網(wǎng)絡(luò)信息挖掘技術(shù)的實現(xiàn)流程來看,網(wǎng)絡(luò)信息挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,網(wǎng)絡(luò)信息挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點、有重要價值的“隱藏”信息,并且能夠監(jiān)視和預測用戶的訪問習慣,這對于企業(yè)開展競爭情報工作是非常重要的。

          2、網(wǎng)絡(luò)信息挖掘在競爭情報搜集和處理中的應用

          隨著互聯(lián)網(wǎng)在企業(yè)中應用的不斷深入,從網(wǎng)上可挖掘的企業(yè)信息越來越多,涉及的內(nèi)容也越來越廣泛。通過網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘可以從大量完整、彼此關(guān)系不明確的敏感信息中找出隱含的和事先未知的有用信息,揭示數(shù)據(jù)內(nèi)在的復雜性,幫助情報人員進行深層次的分析,獲得更多的、更有價值的競爭情報。

          (1)充分獲取、開發(fā)和利用競爭對手和客戶的信息

          網(wǎng)絡(luò)信息挖掘不僅能夠從Web的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且能夠發(fā)現(xiàn)權(quán)威站點、有重要價值的“隱藏”信息,并且能夠監(jiān)視和預測用戶的訪問習慣、購買行為,發(fā)現(xiàn)顧客購買模式趨勢。

          (2)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式

          通過分析和研究Web日志記錄中的規(guī)律,可以識別電子商務潛在客戶,增強對最終用戶的互聯(lián)網(wǎng)信息服務的質(zhì)量,并改進Web服務器的性能。

          (3)網(wǎng)絡(luò)信息挖掘在反競爭情報子系統(tǒng)中的應用

          反競爭情報子系統(tǒng)是企業(yè)競爭情報活動的重要組成部分,忽視競爭對手的競爭情報活動,低估競爭對手搜集競爭情報的能力勢必導致企業(yè)失去已有的競爭優(yōu)勢。Web站點是企業(yè)與外界進行交流的窗口,同時也是競爭對手獲取競爭情報的一個重要信息源,因此,對它進行監(jiān)控是企業(yè)了解競爭對手的競爭情報的重要途徑。在競爭情報計算機系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運用分析訪問者的Ip地址、客戶端所屬域、訪問路徑分析等Web監(jiān)控技術(shù)、統(tǒng)計敏感信息訪問率等方法實現(xiàn)對競爭對手的防范,以達到識別競爭對手保護企業(yè)敏感信息的目的。

          結(jié)論

          網(wǎng)絡(luò)信息挖掘是網(wǎng)絡(luò)信息處理領(lǐng)域中的一項新技術(shù),是指在大量訓練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象間的內(nèi)在特性,并以此為依據(jù)在網(wǎng)絡(luò)資源中進行有目的的信息提取。網(wǎng)絡(luò)信息挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的一個重要應用,也是一項嶄新的研究課題。隨著Internet的迅速發(fā)展和不斷的普及應用,網(wǎng)絡(luò)信息資源越來越豐富,如何分析和利用這些海量的數(shù)據(jù)是當前比較突出的一個問題。網(wǎng)絡(luò)信息挖掘在實際工作中具有重要的實踐意義和廣闊的應用前景。

          參考文獻.

          [1]馮艷.數(shù)據(jù)挖掘技術(shù)在電子商務上的應用[J].湖南商學院學報.2002,19(2):125-126.

          [2]郝先臣.數(shù)據(jù)挖掘工具和應用中的問題[J].東北大學學報.2001,22(2):183-186.

          [3]董慧等.網(wǎng)絡(luò)信息資源開發(fā)及利用[M].武漢:武漢大學出版社,2001:116-187.

          [4]王娜.網(wǎng)絡(luò)信息資源挖掘研究概述[J].圖書館學刊.2007(1):123-124.

          [5]南京航空航天大學圖書館.網(wǎng)絡(luò)信息采集與應用[M].北京:清華大學出版社,2005:86-88.

          [6]李村合.網(wǎng)絡(luò)信息挖掘技術(shù)及其應用研究[J].情報科學.2002,20(11):1212-1214.

          [7]宋瑞祺.Web文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)檢索中的應用[J].山西財經(jīng)大學學報.2007,10(1):95-96.

          [8]陳萍麗.Web挖掘及其在競爭情報系統(tǒng)的應用[J].情報科學.2003,21(9):998-1001.

          [9]陳敏.數(shù)據(jù)采掘與信息資源的開發(fā)利用[J].現(xiàn)代圖書情報技術(shù).2001(2):27-34.

          [10]張燕.淺談網(wǎng)絡(luò)信息挖掘[J].情報探索.2000(4):34-36.

          [11]徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預取中的應用研究[J].計算機學報.2001,24(4):430-436.

          [12]黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社,2007:159-213.

          [13]姜東琳.網(wǎng)絡(luò)信息挖掘技術(shù)及應用[J].計算機技術(shù).2005(3):52-58.

          [14]柯平,高潔.信息管理概論[M].北京:科學出版社,2002:60-62.

          [15]JiaweiHan,MichelineKambr.DataMining:ConceptsandTechniques[M].北京:高等教育出版社,2001:107-246.

          [16]YimingMa.WebforDataMining[J].SIGKDDExplorations.2000,2(1):16-23.

          文檔上傳者

          相關(guān)期刊

          衛(wèi)星與網(wǎng)絡(luò)

          部級期刊 審核時間1個月內(nèi)

          工業(yè)和信息化部

          網(wǎng)絡(luò)與信息

          省級期刊 審核時間1個月內(nèi)

          遼寧省發(fā)展和改革委員會

          農(nóng)業(yè)網(wǎng)絡(luò)信息

          部級期刊 審核時間1個月內(nèi)

          農(nóng)業(yè)部