前言:本站為你精心整理了醫學決策樹技術的作用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1概念與特點
1.1概念
決策樹方法(decisiontree)是通過一系列規則對數據進行分類的過程。具體講是利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的屬性字段,建立決策樹的一個節點,再根據該屬性字段的不同取值建立樹的分支,在每個分支子集中重復建立樹的下層節點和分支的過程[1]。也可以從幾何意義上直觀理解:將訓練樣本集中的每一個數據看成是n維空間上的一個點,決策樹的分支就是按照一定規則完成對n維空間的區域劃分。當決策樹建好,n維空間便分成了若干個小區域,由于n維空間不直觀,不易理解,便以樹形結構展現[2]。
1.2特點
決策樹學習屬于機器學習的范疇,是一種類似于判別分析的有監督的學習方法。從統計角度看,與假定數據源呈一固定概率分布,然后進行參數估計的常規分類方法相比,決策樹屬于嚴格“非參”方法,對于輸入數據高維屬性和分類標識具有更好的彈性和穩健性。決策樹對于問題的分類是基于邏輯,而不是像傳統統計分類模型一樣基于樣本的統計屬性。決策樹分類耗時短,占用計算機資源少,效率高。分類結果簡單、明確、結構直觀,適用于較大規模的數據集研究。與神經網絡和貝葉斯分類相比,決策樹更容易理解,能處理缺失值,同時處理有數值型、兩分類和多分類,有序型變量的數據,能清楚顯示對分類或預測有意義的變量,并可生成一些規則(從根節點到每個葉子節點對應的路徑就是“規則”)為決策提供依據[3~8]。
2歷史與發展
決策樹是迄今為止發展最為成熟的一種概念學習方法。它最早產生于20世紀60年代,是由Hunt等人研究人類概念建模時建立的學習系統(CLS,ConceptLearningSystem)。到70年代末,J.RossQuinlan提出ID3算法,當時他目的在于減少樹的深度,卻忽略了葉子數目的研究。1975年和1984年,分別有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦稱BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法為基礎研究出C4.5/C5.0算法,新算法在對預測變量的缺失值處理、剪枝技術、派生規則等方面作了較大改進,C5.0是C4.5的商業改進版,與see5相對應[2,9~10]。
3種類與算法
3.1種類
按照不同的標準,決策樹可以劃分為不同的種類。①按照分類精確度和樹復雜程度的大小,分為單個決策樹和多個決策樹,多個決策樹是由單個決策樹合并得到。②根據分割內部節點時使用統一的還是不同的算法,分為單一決策樹和復合決策樹。其中,單一決策樹又可分為單變量(特征)決策樹和多變量決策樹,前者在樹中每一內部節點處由數據的單一屬性決定樹的分支,后者在內部節點處由通過數學或邏輯算子將某些屬性組合起來的新屬性決定樹的分支;復合決策樹中常用的算法有決策樹算法、線性判別函數和K最臨近分類器。③根據每一樹葉子節點內是否只含有相同類別的對象,可分為確定性決策樹和非確定性決策樹。④根據分類或預測變量的特征,分為分類樹和回歸樹,分類樹是對離散變量做決策樹,回歸樹是對連續變量做決策樹[3~10]。
3.2算法
決策樹技術中有多種算法,最為有影響的是Quinlan以信息熵的減少作為選取分裂屬性標準的ID3算法。該算法基本原理中引入了信息論的概念,簡要介紹如下。假設訓練實例集為X,目標分類為n。設屬于第i類的訓練實例個數為Ci,X中總的訓練實例個數為X,若選擇屬性a進行測試,在得知a=aj的情況下屬于第i類的實例個數為Cij個,則P(Ci;a=aj)=CijX為在測試屬性a的取值為aj時它屬于第i類的概率。此時決策樹對分類的不確定程度,即訓練實例集對屬性a的條件熵是H(Xj)=-∑ip(Ci/a=aj)logp(a=aj),決策樹的學習就是使得對劃分的不確定程度逐漸減少。又因為在選擇屬性a后伸出的每個a=aj葉結點Xj對于分類信息的信息熵為H(X/a)=∑jp(a=aj)H(Xj),所以屬性a對于分類提供的信息量即信息增益為I(X;a)為:I(X;a)=H(X)-H(X/a)。C4.5算法建立決策樹時就是選擇信息增益最大的屬性作為分裂屬性[11]。盡管決策樹算法很多,但各有優勢與不足。從事機器學習的專家學者一直在潛心改進現有算法并研究新算法,改進的著眼點主要圍繞提高樹的分類精度、減少樹的大小、降低復雜性等幾個方面。僅就ID3算法而言,就有二叉樹判定算法、按信息比值進行估計、按分類信息估值、按劃分距離估值、基于ID3的ID3-MAX、ID3-SD算法等幾種改進[11]。此外,還有其它基于粗集的改進、基于深度優先搜索的改進、分類規則簡化生成算法、加權模糊熵算法[6~8,12]等。
4核心問題與應用條件
4.1核心問題
決策樹算法圍繞的核心是決策樹的生長和剪枝。生長,就是利用訓練樣本集完成決策樹建立的過程;剪枝,就是利用檢驗樣本集對形成的決策樹進行優化處理,防止發生擬合過度的過程。剪枝方法主要包括預剪枝和后剪枝。預剪枝意為事先定好決策樹的大小從而阻止其自由生長,停止準則常基于統計意義下的χ2檢驗或信息增益等度量,預剪枝計算量較少,但難以精確估計何時應該停止樹的生長。后剪枝意為讓決策樹充分生長之后然后用所選的精度準則回頭去除擬合過度的分支,主要分為減少分類錯誤修剪、最小描述長度修剪和最小代價-復雜性修剪等方法。后修剪通常能產生更可靠的樹,因此在實踐中應用更多一些。
4.2應用條件
決策樹算法很多,可實現的軟件也很多,常被應用的軟件有SAS/EM、CART、See5-demo、KnowledgeSEEKER、KnowledgeSTUDIO、BusinessMiner、Decisionseries等。現以決策樹較為常用的CART、CHAID、C4.5三種算法為例,說明它們在SAS/EM(SAS軟件EnterpriseMiner)中各自的應用條件及選擇分裂屬性的標準。
4.2.1CART算法軟件中輸入變量(即自變量)的類型可以為名義型、數值型,如果是有序型,則可當作數值型變量處理。目標變量(即應變量)可以為兩分類、多分類、數值型和有序型變量。不同的目標變量采用不同的分裂標準(splittingcriterion),兩分類目標變量采用基尼系數(GiniCoefficient)、twoing和orderedtowing標準,其中后兩個分裂標準使用頻率不高;多分類變量采用基尼系數和twoing兩個標準;數值型目標變量采用方差減少量或最少絕對差減少量標準;有序型目標變量采用的分裂標準為orderedtowing。
4.2.2CHAID算法輸入變量的類型可以為名義型、有序型,因為選擇分裂變量的算法不針對數值型變量,所以遇到數值型輸入變量需先將其分段后再進入軟件參與分析。目標變量可以為名義型或數值型,名義型和數值型變量選擇分裂變量的標準分別是基于和卡方F分布的P值,決策樹在構建過程中的停止均以卡方或F分布統計顯著性為準。
4.2.3C4.5算法輸入變量的類型可以為兩分類、多分類名義型和數值型變量,目標變量可針對兩分類或多分類名義型變量,分裂標準可選取信息熵(entropy)、信息增益(informationgain)或信息增益比(gainratio)。
5醫學領域中應用
在國外,決策樹應用領域較為廣泛,其在商業、工業、農業、天文、醫學、風險分析、社會科學和分類學等領域中的應用已經取得了很好的經濟和社會效益。國內目前有關決策樹的研究多是圍繞算法的改進以及決策樹在商業、工業等領域的運用,在醫學領域應用較少。現將決策樹在國內外醫學中的應用情況集中概括為以下幾個方面:
5.1疾病診斷治療
臨床醫生為病人做出醫療診斷可以看作是一個分類的過程:醫生根據他的知識和經驗將病人分類到一個特定的疾病群中。決策樹產生的結果簡潔明了,易于理解,并能提取相應的診斷規則,其應用于疾病的分類診斷往往可以提高診斷正確率,并為經驗較少的臨床醫師提供幫助,因而得到了廣泛的應用。ErnaKentala等人曾從赫爾辛基大學附屬醫院的鼻神經專家系統數據庫ONE中提取前庭區與暈頭有關的6種發病人數較多的疾病資料,分別為6種疾病建立不同規模的決策樹,并針對6棵樹單獨分析影響每一種疾病發生的重要因素,而且從決策樹中提取診斷規則,從而將專家經驗知識轉化成了可供年輕醫師隨時參考的有價值的信息[13]。決策樹在臨床醫學中應用范圍較廣,除了可以對疾病分類以外,還可以對疾病程度分級,篩選危險因素、決定開藥處方大小以及選擇治療方法等[14~20]。
5.2基因與高分子序列分析
隨著人類基因組計劃的進行,目前已獲得數十億的核苷酸和上百萬的氨基酸數據,如何對基因進行功能分類已成為基因研究人員非常關心的問題。而關于高分子序列,大約4000種蛋白質已經被排序,但只有10%的蛋白質的三維結構被研究過,三維結構基本決定蛋白質的功能,所以需要有一種可靠方法從氨基酸序列中預測出它的功能結構,數據挖掘中的決策樹技術可以滿足上述需求。有人利用決策樹對已知功能分類的基因建立分類樹,歸納出蘊含在數據中關于分類的信息并提煉成規則,從而實現對未知功能分類的基因進行分類預測[21]。DakeWang等人則利用決策樹對已知功能分類的蛋白質序列進行研究,建立了已知功能分類的蛋白質序列決策樹模型,實現了模型對未知功能分類的蛋白質序列功能的預測。結果表明決策樹方法比傳統方法有效[22]。
5.3醫院信息系統挖掘
醫院HIS(HospitalInformationSystem)系統包括管理信息系統(ManagementInformationSystem,MIS)和臨床信息系統(ClinicalInformationSystem,CIS)兩部分。目前的HIS可以高效地實現數據的錄入、查詢和統計功能,但在決策支持方面存在明顯不足,難以發揮其潛力。而將數據挖掘決策樹技術運用到該系統之后,可以從中提取大量隱含的、事先未知的、對決策有潛在價值的信息,為管理決策和臨床決策提供支持。決策樹在HIS系統的主要用途可以表現為醫療需求預測、醫療市場分析、預測未來某段時間內常發生的疾病種類、未來某段時間內的藥品使用頻率、分析疾病之間的關系以及疾病的影響因素、總結各種治療方案的治療效果等[23]。
5.4醫療政策分析
一個國家國民的健康保障在很大程度上依賴于其完備的醫療衛生政策,政策的制定離不開理論的分析與方法的探討,離不開已積累的與人群健康狀況相關的各種數據。從目前積累的各型數據庫來看,利用知識管理優化庫信息并從中提取知識結構為政策分析提供依據已經成為衛生管理人員和信息開發人員的共同任務。研究人員多次嘗試將數據挖掘中的決策樹技術在此進行應用。韓國的YoungMoonChae與SeungHeeHo等人便利用以監測衛生狀態和開發國民健康促進程序為特征的韓國醫療保險公司數據庫,成功地將決策樹應用于人群健康狀態評估以及為高血壓管理提供政策信息[24]。
5.5醫療衛生保健
衛生保健是衛生領域內的一個重要內容,保健的需求與利用評價、不同保健方式的選擇以及保健的經濟和社會效益評價一直是衛生保健人員關心的問題。利用決策樹方法可以解決諸如家庭護理保健的需求分析、兒童預防保健的干預、為不同的衛生保健群體提供實際可行的決策支持系統等一系列問題,為保健政策的制定與實施提供了相應的基礎[25]。
5.6醫療資源利用評價
盡管當今社會醫療科技手段日新月異,醫療技術水平不斷提高,但并不表明醫療衛生資源的極大豐富。醫療資源合理分配、恰當運用仍是醫學研究中不可忽略的重要問題。把決策樹技術引入對有潛在急癥的病人是否進行預檢查而導致醫療資源占用情況不同的比較其成功地顯示出決策樹在處理此類問題的重要意義[26]。
隨著數據挖掘技術的廣泛應用,決策樹算法的不斷改進與完善,決策樹可實現軟件的普及推廣,決策樹處理醫學資料功能的日顯強大,相信決策樹方法在醫學領域與管理決策中的應用范圍將會越來越廣泛,帶來的經濟和社會效益將會更多更可觀,必將顯示出重要的實用價值和廣闊的發展前景。