前言:本站為你精心整理了數據挖掘在營銷中的運用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1數據挖掘的任務
數據挖掘的任務常見的有4種類型:
分類用于預測事件所屬的類別.其中樣本數據中包含標識樣本事件所屬類別的數據項,類別是已知的,由數據挖掘根據樣本數據構建對這些類別的模式的描述,再利用所發現的模式,參照新的數據的特征變量,將其映射入已知類別中.如在醫療應用中,可根據患者的各種特征進行疾病診斷等.
聚類用于描述和發現數據庫中以前未知的數據類別.其中樣本數據中不包含類別變量,數據挖掘將具有共同趨勢和模式的數據元組聚集為一類,使類內各元組相似程度最高,類間差異最大.常用于市場細分,可根據已有顧客的數據,利用聚類技術將市場按顧客的消費模式的相似性分為若干細分市場,以進行有針對性的市場營銷.
關聯用于發現給定事件或紀錄中經常一起發生的項目,由此推斷事件間潛在的關聯,識別有可能重復發生的模式.關聯分析的典型例子是市場籃子分析,描述顧客的購買行為.如尿布與啤酒的故事就屬于關聯分析,可幫助零售商決定商品的擺放和捆綁銷售策略.序列模式與關聯分析類似,只是擴展為一段時間的項目集間的關系,常把序列模式看作由時間變量連接起來的關聯.序列分析可分析長時期的相關紀錄,發現經常發生的模式.
2數據挖掘過程
數據挖掘系統主要有四個模塊:用戶界面、數據準備(也稱為數據預處理)、挖掘及模式的解釋和評價(后處理).
2.1數據準備
數據準備對于數據挖掘的成功應用至關重要,IBM等咨詢公司已經證實了數據準備需消耗整個數據挖掘過程中50%~80%的資源[3],事實上如果沒有數據的預處理階段,單純進行數據挖掘將成為一個盲目搜索的過程,可能會得出毫無意義或錯誤的結果.目前對數據挖掘的研究仍主要集中在數據挖掘技術上,數據準備一直未得到應有的重視,DorlanPyle在其新著《DataPreparationforDataMining》中,對數據挖掘中的數據準備作了詳細的論述.數據準備大致分為3步:數據集成,數據選擇,數據轉化[3].
1)數據集成.從多個異質操作性數據庫、文件或遺留系統提取并集成數據,解決語義二義性,統一不同格式的數據,消除冗余、重復存放數據的現象.同時還要清洗數據,包括對噪聲數據、缺失數據及異常數據等的處理.
2)數據選擇.在相關領域和專家知識的指導下,辨別出需要進行分析的數據集合,縮小挖掘范圍,避免盲目搜索,提高數據挖掘的效率和質量.
3)數據縮減和轉化.選定的數據在經過挖掘前,必須要加以精煉處理,如通過縮減高維復雜數據的維數,減少有效變量的個數等.
另外在數據準備階段中,通過用戶交互引入領域專家知識也很重要,可幫助定義具體問題和用戶需求,使模型更直觀;限制搜索空間,以便高效率的發現更精確的知識;對發現的結果進行后處理,從中過濾出有意義、有價值的知識和信息.
2.2挖掘知識和信息
作為數據挖掘技術的核心,知識與信息的挖掘主要有下面幾部分構成:
1)確定挖掘的任務類型.確定系統要實現的功能及任務,是屬于分類或關聯等中哪種類型.
2)選擇合適的挖掘技術.在確定挖掘任務的基礎上,選擇適當的數據挖掘技術.如分類模型常由有指導的神經元網絡或歸納技術(如決策樹)來實現;聚類常用聚類分析技術;關聯分析使用關聯發現和序列發現技術等[4].
3)選擇算法.根據選定的技術選擇一具體的算法,如采用ID3算法為定性的變量建立分類模型;BP算法用于解決連續的定量變量的情況等.選擇數據挖掘算法要確定搜索數據中隱藏模式的方法,如確定適當的模型和參數集合,還應將這一具體的技術與數據挖掘的全局目標匹配[4].
4)挖掘數據.用選定的算法或算法組合在模式空間中進行反復迭代的搜索,從數據集合中抽取出隱藏的、新穎的模式.
2.3模式的解釋和評價
對數據挖掘發現的模式進行解釋和評價,過濾出有用的知識.具體包括消除無關的、多余的模式,過濾出要呈現給用戶的信息;利用可視化技術將有意義的模式以圖形或邏輯可視化的形式表示,轉化為用戶可理解的語言.一個成功的數據挖掘的應用應能將原始數據轉換為更簡潔、更易理解、可明確定義關系的形式.此外還包括解決發現的結果與以前知識的潛在沖突,及利用統計方法對模式進行評價,決定是否需要重復以前的操作,以得到最優、最適合的模式[4].數據挖掘抽取的信息經過事后處理可用于解釋當前或歷史現象,預測未來可能發生的情況,使決策者參照從過去發生的事實中抽取的信息進行決策制定.
3常用技術及算法
數據挖掘的核心是采用機器學習、統計等方法進行知識學習的階段.數據挖掘算法的好壞將直接影響到所發現知識的好壞,因此選取適當的算法或算法組合至關重要,目前對數據挖掘的研究也主要集中在算法及其應用方面.
事實上并不存在評判算法優劣的確定標準,因為不同的目標和情況需要的算法也不同;另外每種技術都有其內在局限性,不加判斷的應用數據挖掘技術是毫無意義的.事實上某種算法在解決一特定問題時可能比其他算法性能更好,因此選擇采用的算法具有某種藝術性,要由具體應用的目標和情況決定,而不能僅僅由算法的性能判斷.
數據挖掘方法通常分為兩類:統計模型和機器學習技術,其中機器學習與數據挖掘關系最密切.統計模型應用于數據挖掘主要是進行評估,常用的統計技術有概率分布、相關分析、回歸、聚類分析和判別分析等;機器學習是人工智能的一個分支,也稱為歸納推理,通過學習訓練數據集,發現模型的參數,并找出隱含的規則[5].常用的機器學習方法如人工神經元網絡、決策樹和遺傳算法在數據挖掘中的應用都很廣泛.
人工神經元網絡(ANN)是在數據挖掘中應用最廣泛的技術,模仿人腦的機能,通過反復學習訓練數據集,發現用于預測和分類的模式.神經元網絡尤其擅長于解決極復雜的問題,但神經元網絡最大的缺點是其不透明型,無法解釋結果是如何產生的及其在推理過程中所用的規則.
決策樹(DT)是一種樹型結構的預測模型,其中樹的非終端節點表示屬性,葉節點表示所屬的不同類別.根據訓練數據集中數據的不同取值建立樹的分支,形成一決策樹,對其進行反復修剪后轉化為規則,可用于對新數據分類.與神經元網絡最大的不同在于其決策制定的過程是可見的,可以解釋結果是如何產生的.典型的例子是CART(回歸決策樹)方法.遺傳算法(GA)是一種基于生物進化理論的優化技術.其基本觀點是“適者生存”,用于數據挖掘中,則常把任務表示為一種搜索問題,利用遺傳算法強大的搜索能力找到最優解.具體來講,就是模仿生物進化的過程,反復進行選擇、交叉和突變等遺傳操作,直至滿足最優解.具體來講,就是模仿生物進化的過程,反復進行選擇、交叉和突變等遺傳操作,直至滿足進化停止的條件.遺傳算法是最成功的機器學習技術之一,常與其他技術結合使用,如用于優化神經元網絡的模型和參數集等.
4數據挖掘在營銷中的應用
數據庫營銷(DatabaseMarketing)是數據挖掘目前最成功商業應用,作為一種結合了信息技術和營銷理論的新型營銷方式,通過搜集消費者和同類企業等的大量信息,并利用OLAP(On-LineAnalyticalProcessing)和數據挖掘等分析技術對其進行分析處理,據此確定相應的營銷策略和特定的目標顧客群[6].
數據挖掘在營銷中的主要應用有:關聯分析即市場籃子分析,用于了解顧客的購買習慣和偏好,有助于決定市場商品的擺放和產品的捆綁銷售策略;序列模式與市場籃子分析相似,不過是用某時間點發現的產品購買或其他行為模式來預測將來購買產品或服務類別的概率;聚類用于市場細分,將顧客按其行為或特征模式的相似性劃分為若干細分市場,以采取有針對性的營銷策略;分類用于預測哪些人會對郵寄廣告和產品目錄、贈券等促銷手段有反應,還可用于顧客定級、破產預測等.
目前國外許多大型零售企業和金融保險行業都已建立了營銷數據庫,并利用數據挖掘技術發現對某種產品感興趣的顧客,幫助制定認識和保留最佳顧客的計劃,增進與顧客的關系,識別并跟蹤有發展前景的市場,根據顧客反饋確定產品開發計劃,提高銷售人員調配的效用,這些都為企業帶來了獨特的競爭優勢.如美國Firstar銀行使用Marksman數據挖掘工具,根據客戶的消費模式來預測應在什么時候向哪些客戶提供哪些產品;美國運通公司(AmericanExpress)有一個用于記錄信用卡業務的數據庫,通過對這些數據進行挖掘,制定了“關聯結算(RelationshipBilling)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,既增加了商店的銷售量,也可以增加運通卡在該商店的使用率.美國的讀者文摘(Reader''''sDigest)出版公司運行著一個積累了40年的業務數據庫,其中容納有遍布全球的一億多個訂戶的資料,并保證數據不斷得到實時的更新,基于對客戶資料數據庫進行數據挖掘的優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務,極大地擴展了自己的業務范圍.
5結束語
數據挖掘技術是目前國際上的一個研究熱點[7],并已在各行業如金融證券業、零售業等得到了應用,初步發揮了其優越性和潛力[8],但同時它也面臨著一些不可避免的問題,如需要進一步研究在不同抽象層次挖掘多類型知識的有效方法;更靈活、方便的數據挖掘語言或接口;研究針對面向對象的數據庫、空間數據庫和多媒體數據庫之類的高級數據庫系統的數據挖掘技術;挖掘不同來源的數據;Internet信息系統的數據挖掘;所發現知識的應用;發現的知識與專家定義的知識的集成;以及確保在數據挖掘中對隱私的保護方法等,都是以后需深入研究的重要論題[1].
隨著數據挖掘技術的迅速發展,越發掀起了投資數據挖掘項目的高潮.但在實現這一復雜、昂貴的技術同時,也暴露了很多問題.投資者往往對其存有過高期望,低估成本,帶來了極大的風險;另外還需要有專門的內部專業技術人員或咨詢機構解釋、評價數據挖掘結果,增加了成本[9].因此信息管理人員和投資者還需充分認識其潛在的問題,要從需求、數據、財力及技術4個方面考慮,認真進行成本/效益分析,避免不必要的開支和風險.