前言:本站為你精心整理了詮釋數據倉庫及數據運用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:本文闡述了數據倉庫及數據挖掘的有關概念,簡述了數據倉庫、數據挖掘的實施過程,介紹了如何應用數據挖掘。并對數據倉庫與挖掘技術結合應用的發展做了展望。
關鍵詞:數據倉庫;數據挖掘;
1數據倉庫
數據倉庫的含義:“數據倉庫是用于支持企業或組織的決策分析處理的,面向主題的、集成的、不可更新的、且隨著時間不斷變化的數據集合?!被ヂ摼W中的數據浩如煙海,如果用戶在其中搜尋的話,基本上是大海撈針。而數據倉庫便解決了此類問題,它把龐大的數據及信息從互聯網中收集起來,并進行適當的處理、加工和分類,把這些凌亂的數據轉換成公共的數學模型,這樣便能夠解決數據與數據之間的沖突、表達不一致等問題,同時還方便用戶查詢自己所需要的信息,這樣便使得數據和信息在決策查詢上理便捷。
2數據挖掘
互聯網中,實際的應用操作數據往往都是數量很大,不完整且具有模糊性和隨機性。而數據挖掘所要做的便是提取這類數據中隱含的、不為人知的,但對人們又有潛在用途的信息和知識。并把提取的知識和信息存放于數據倉庫或其他信息庫中,所以說,數據挖掘是運用統計學、人工智能、機器學習、數據庫技術等方法發現數據的模型和結構、發現有價值的關系或知識的一門交叉學科。另一個角度來講,數據倉庫中的數據,利用挖掘技術的算法,將源數據收集起來,并進行適當的篩選及過濾變成相應信息。數據挖掘基于的數據庫類型有:關系、面向對象、事務、演繹、時間和時間序列、多媒體、空間、遺產、文本、Web型以及新興的數據倉庫等。對于數據庫的描述,通常是指面向對象的數據庫在面向對象的程序為規范的程序設計標準。其描述對象可以是一定時期的人口、流量等數據。而關于一個對象的代碼在一個單元中的封裝,對象可以與其他對象或數據庫系統通信??臻g數據庫涉及空間的信息,如地理、醫療和衛星圖像數據庫等,通過數據挖掘可以發現,描述各個地區的人口或者可以根據現有的關于某小區距離中心主要道路的距離的描述來表達這個小區低價的變化程度。通過縱軸和橫軸的序列數據庫我們可以看出,數據挖掘可以根據數據庫中的數據的變化隨時隨地的進行調整,從而發現數據的變化特點和變化趨勢,通過對這種變化的趨勢和特點的變化,幫助人們處理計劃,制定發展策略等。在文本數據庫中大部分是高度化的長句和短文,數據挖掘的作用是發現、描述對象和類的特征,進行關鍵詞和內容關聯性分析以及文本對整理象的聚類。多媒體數據庫存儲的是圖像、音頻、視頻數據,在其上進行數據挖掘,這是存儲和搜索技術相結合的新興技術,這種技術中,進行多媒體數據的特征的提取和基于相似性的模式匹配等。
數據庫的建設是以程序設計為標準的。無論何種先進的技術都有它的局限性,數據挖掘也亦如此,它只能對信息進行初期處理,也就是說,如果收集的數據中出現丟失或沖突的現象,用數據挖掘的算法是不可行的。
3數據挖掘技術
3.1數據挖掘分析方法數據挖掘的分析方法可分為兩類:直接數據挖掘和間接數據挖掘。直接數據挖掘指:L在指定的數據中,按照某一法則,提取其中可用數據,建立一個數學模型,并用此模型對余下的數據,或是對有的數據進行描述。直接數據挖掘有:分類、估值、預言。間接數據挖掘指:目標中的數據都是沒有規則的,因而不能確定某一具體的變量,所以不能用模型來對其進行系統上的描述,只能通過數據之間聯系,將彼此組合起來。間接數據挖掘有:相關性分組或關聯規則、聚集、描述和可視化。下面本文將對分類和預測、關聯分析和聚類分析三種數據挖掘方法介紹。
3.1.1分類和預測數據分析一般分為分類和預測兩種形式,如果想要知道某種數據未來的走向,或是提取某種模型中重要的數據,可以利用數據分析形式的屬性對其進行描述,然后得到自己想要的模型,并把數據合理的分類,以便使用原有數據對新數據進行預測。數據分析的兩種形式,在信譽證實、醫療診斷、性能預測和選擇購物等方面的用途也十分廣泛。如在金融證券領域,想要在銀行貸款,必須要分析貸款是否有足夠安全性,風險性是否很高,如此便要建立一個分類模型,對其進行預測,例如想要成功銷售一批計算機設備,我們必須要預測、分析哪類人可能是潛在的用戶。
3.1.2關聯分析關聯分析在交易數據、關系數據以及其他信息載體中應用較為廣泛,可以查找有關于某一個項目集合或者對象集合之間存在的頻繁模式、關聯、相關性、或因果結構。當然這種關聯分析也可以用最小置信度和支持度找出所選范圍內所有感興趣的規則。其中最為著名的關聯規則發現方法常用的是Apriori算法。關聯分析大多應用在消費者一次購物時同時購買锪商品購物分析、某些商品和另外一些物品次序推銷或促銷以及大型工廠、制造廠里生產的產品目錄設計等。如某所大學,所有學生記錄中,有2%的人專業是會計且選修了數據庫且成績為A;在專業是計算機科學CS且選修了數據庫DB的學生中有75%的人成績為A。
3.1.3聚類分析聚類分析的方式就按照某種程度的度量方式來進行度量方法,這種方法中將用戶的數據根據需要分解成相應有意義子集合。通過能否用于大數據量和不同的數據類型,能夠發現不同開關和類型的聚集;對領域知識的要求晝少;對噪聲或數據不同的順序不敏感,來判斷優劣,根據模型可解釋。如:①一些特定癥狀的聚集可能預示了一個特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
3.2數據挖掘的一般步驟
3.2.1數據準備在數據挖掘初期,我們的目的是要完成初始數據的項目。而建模人員的工作要務就是在這些收集的現有數據中,提取與客戶提供的主題相關的數據項,然后初步分析數據,首選用已有的程序去提取收集好的數據,然后進一步收集好的數據。然后進一步衍生變量,重復進行若干次(直到我們所要的數據變量都變成合格。)最后把這些數據整理,分類成一個文件,存于數據集市中。
3.2.2取樣工作人員在上步的數據集中隨機抽取樣本。
3.2.3建立模型取樣后,建模人員要對所取的樣本進行逐個分析,并將數據分為兩類:訓練數據集體和驗證數據集體,然后選用最佳方案來建立模型或規則集。一般來說,有多種方法來出庫數據挖掘的問題的類型,而這些方法通常也是與數據在形式上一一壓的。因此,在建立模型的工程中,經常需要返回到初級準備階段。
3.2.4驗證模型模型確立后,建設人員還應該根據驗證前后模型的準確性。
3.2.5模型評估模型評估的標準是根據上面三個步驟的模型來作為評分的。挖掘主機評分的主程序中的數據都是由已建立的模型通過循環的方式獲得的。
3.2.6執行如若要運用模型對新的數據進行處理,可以保留或改善模型。數據挖掘的步驟并不是一個流水線,所以它不可能一次性做完所有任務。過程中有許多乃至全部的步驟需要循環進行,所以每一個階段不是一成不變的。
3.3數據挖掘工具的新的技術和應用熱點介紹文本挖掘、網絡挖掘兩種。
3.3.1文本挖掘文本挖掘,顧名思義,就是從非結構化的文本中發現潛在的概念以及概念間的相互關系。在這項技術中,是分詞技術中的關鍵部分,詞典的運行。只有讓計算機依據詞典完成正確之后,才可以實現將非結構化信息轉化為結構化信息,然后就可以進一步研究文本之間的關系。目前,像IBM、微軟等主流挖掘工具以及google和SNS網站都已經在使用廣西挖掘技術。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。
3.3.2網絡挖掘網絡挖掘從主體上來看,可分為三種挖掘:文本挖掘、結構挖掘以及點擊挖掘。
4數據挖掘(DM)實際應用
DM工具和軟件已經在各個領域中得到廣泛的應用,收到的效益顯著。
4.1金融方面為了讓市場經理以及業務員能夠更好的融入到公司活動和設計新的市場活動中,可以整理用DM對不同的業務,不同的信息走向,以及一些決策進行合理的劃分。
4.2客戶關系管理方面DM不僅可以協助了解客戶的行為,還可以找出產品的使用模式,從而一定程度上改變通道管理的程序,就好比只有理解顧客的作息周期性規律,才能更好的進行銷售。
4.3在過程控制/質量監督保證方面大量變量之間的相互作用是通過DM來協調的,某些異常數據,DM會自動識別,并進行相應的處理措施,從而讓技術人員能夠發現問題所在的范圍,并及時處理。
4.4遠程通訊部門基于DM的分析協助組織策略變更以適應外部世界的變化,根據市場要求進行模式化的該百年來知道市場行為。在網絡容量利用方面,DM客戶在服務使用的結構和模式的了解,從而指導容量計劃人員對網絡設施作出最佳投資決策。
4.5使用DM進行軍號事信息系統中的目標特征提取、態勢關聯規則挖掘等。
5總結
發展數據倉庫可以促進數據挖掘越來越成熟,但是數據挖掘并不一定要有數據倉庫的支持。因為數據倉庫并不是數據挖掘的必要條件,有很多數據挖掘可直接從操作數據源中挖掘信息,而且數據挖掘仍然經常被看做是數據的后期市場產品。數據倉庫平臺的數據挖掘的構造具有很強的實用性,效率很高,節省資源。