首頁 > 文章中心 > 機器學習

          機器學習

          前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇機器學習范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

          機器學習范文第1篇

          Phase Transitions in

          Machine Learning

          2011,416pp

          Hardback

          ISBN9780521763912

          學習涉及意識在不同層次上的重要功能,從感官刺激到對高級抽象推理復雜概念的獲取。盡管對學習尚缺精確的定義,但是有一個被廣泛接受的由Langley 提出的定義,它把學習看作是一組機理,通過它們,智能能隨著時間的推移而改善它們的行為。但凡采用了有關的足夠寬泛的觀點,這個定義似乎是合理的。機器學習根植于好幾個學科之中,其中值得一提的是統計學、模式識別、認知科學及控制理論。機器學習的主要目的是為人類學習提供計算模型,支持學習的認知研究。盡管機器學習具有吸引力,它還是遇到了幾個困難,甚至在今天,仍然阻礙著它的全面利用。主要的障礙在于多數機器學習算法對計算資源有很高的要求,特別是那些較為接近人類學習過程的算法。從上世紀30年代孕育機器學習的時期起,計算機科學這個內容豐富而又嚴格的領域就一直關注進行計算時所需要的時間和存儲器資源。核心問題是,無論采用怎樣的輸入方式,一個給定的算法是否能夠在有限的時間內結束計算。如果能夠的話,在它展現的復雜類中,所給出的控制變量是多項式的,還是指數的等等。

          1991年,Cheseman等三人發表的題為《實際的難題在那里?》的論文有如晴天霹靂。他們提出盡管分析最壞情況是重要的,尋求計算的典型復雜性同樣是必須的。本書內容的構建就是圍繞著學習中的計算復雜性概念這一核心的。本書把計算機科學、統計物理及機器學習的基本觀點編織在一起,向讀者提供了足夠的數學和物理背景,使得人工智能以及其他計算機科學社團的研究人員可以理解這個課題。作者還對公開的研究作了討論,并且對進一步研究中有希望的方向給出了他們的建議。

          本書共有14章,還有2個附錄。1.緒論,對機器學習、計算復雜性及二者關系作了簡介;2.統計物理與相轉變;3.可滿足性問題;4.約束滿足問題;5.機器學習;6.搜尋假設空間;7.統計物理與機器學習;8.學習、可滿足性問題(SAT)及約束滿足問題(CSP);9.FOL覆蓋測試中的相轉變;10.相轉變與關系學習;11.語法推理中的相轉變;12.復雜系統中的相轉變;13.自然系統中的相轉變;14.討論及公開問題。附錄A 在二個實例證中檢測到的相轉變。附錄B 一個引起興趣的觀點。

          本書的第一、二位作者均為意大利Piemonte Orientale 大學計算機科學系的教授。第三作者是法國巴黎AgroParisTech工程學校計算機科學系的教授。本書可供人工智能以及其他計算機科學專業的從業人員閱讀。

          胡光華,

          退休高工

          (原中國科學院物理學研究所)

          機器學習范文第2篇

          關鍵詞:機器學習;計算機科學;學習機理;策略研究

          隨著計算機技術的飛速發展,人們嘗試著使計算機具有和我們一樣或類似的學習能力,從而產生了一個新的研究學科-機器學習。總體而言,機器學習是指令計算機通過對目標的識別,利用人類提供的現有知識來獲取新知識和新技能,不斷改善性能,實現自我完善。

          1 機器學習發展史

          統計學習理論創始人之一的Vapnik將機器學習歸結為如下四個階段。

          1.1 學習機器的產生

          第一個學習機器的模型是F.Rosenblatt在1962年提出的感知器。它借鑒了神經生理學領域中感知器的思想,將其模型表示為一個計算程序,并通過簡單的實驗說明了這個模型的結果可以進行推廣和泛化。感知器通過給定的樣本構造一條判斷準則來區分不同類別的數據,因此可以用來解決模式識別問題。

          1.2 學習理論基礎的創立

          1968年,Vapnik和Chervonenkis提出VC維和VC熵來解決模式識別問題。利用這些概念學者發現了大數定律和關于收斂速率的非漸近界。1989年,Vapnik和Chervonenkis提出的經驗風險最小化原則、正則化理論、解決密度估計問題的非參數方法,以及算法復雜度思想,都對學習理論的發展產生了深遠的影響。

          1.3 神經網絡的產生

          1986年,LeCun和Rumelhart各自獨立地提出了后向傳播方法。該方法采用連續的Sigmoid逼近函數代替了感知器神經元中的不連續符號函數,使人們可用任何基于梯度的方法來逼近預期函數。它的出現標志著學習機器歷史進入了一個新紀元。

          1.4 統計學習理論的創立

          為了根本解決傳統統計學理論中過學習等弊端,Vapnik于20世紀60-70年代創立了統計學習理論。與傳統統計學相比,它是一種專門研究有限樣本下機器學習規律的理論,不僅考慮了對漸近性能的要求,并且追求在有限信息下獲得最優結果,在理論研究和實際應用中都取得了良好效果。

          2 機器學習策略分類

          在眾多機器學習策略中,可從不同角度,根據不同原則對其進行分類。本文按照分類原則提出的先后順序以及所用推理策略的繁簡程度將其分為以下兩大類。

          2.1 傳統策略

          ⑴機械式學習。該方法是一種最簡單、原始,也最基本的學習策略。它通過記憶和評價外部環境所提供的信息達到學習的目的。學習系統要做的工作就是把經過評價所獲取的知識存儲到知識庫中,求解問題時就從知識庫中檢索出相應的知識直接用來求解問題。

          ⑵指導式學習。該方法通過由外部環境向系統提供一般性的指示或建議,把它們具體地轉換為細節知識并送入知識庫。在學習過程中要反復對形成的知識進行評價,使系統的知識庫不斷完善。

          ⑶歸納學習。該方法應用歸納推理進行學習。歸納推理指從足夠多的事例中歸納出一般性的知識,是一種從個別到一般的推理。常用的方法有枚舉歸納、聯想歸納、類比歸納、逆推理歸納和消除歸納等。

          ⑷類比學習。類比是人類認識世界的一種重要方法,也是誘導人們學習新事物、進行創造性思維的重要手段。類比學習就是通過對相似事物進行比較所進行的一種學習。

          ⑸基于解釋的學習。該方法通過運用相關領域知識,對當前提供的實例進行分析,從而構造解釋并產生相應知識。

          2.2 現代策略

          ⑴基于神經網絡的學習。神經網絡由神經元單元及其間帶權重的連接組成,每個單元的狀態由與其相連接其他單元的輸入共同決定。該方法使用樣本來訓練網絡,產生網絡的內部表示,并用來識別新樣本。

          ⑵基于統計學習理論的學習。Vapnik創立的統計學習理論針對有限樣本統計問題建立了一套新的理論體系,不僅考慮了對漸近性能的要求,并且追求在有限的信息條件下獲得最優的結果。其典型代表SVM,具有許多傳統統計學方法不具備的優點。

          ⑶強化學習。該理論是在上世紀80年代,基于試錯方法、動態規劃和瞬時誤差方法形成的。

          ⑷集成學習。該方法集成若干單分類器的分類結果來綜合決定最終分類,可取得比單分類器更好的性能。其主要方法有Bagging、Boosting、Stacking、樸素貝葉斯集成、決策樹集成、人工神經網絡集成、K-近鄰集成、在線集成等等。

          ⑸主動學習。該方法模擬人的學習過程,選擇標記部分樣例加入訓練集,迭代提高分類器的泛化性能。

          [參考文獻]

          機器學習范文第3篇

          關鍵詞:機器學習

          數據挖掘

          人工智能

          中圖分類號:TP181

          文獻標識碼:A

          文章編號:1002-2422(2010)03-0093-02

          1機器學習概述及方法分類

          1,1機器學習的概念、應用及發展概況

          機器學習是一種使獲取知識自動化的計算方法的學習。機器學習在人工智能的研究中具有十分重要的地位。其應用已遍及人工智能的各個分支,如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。

          對機器學習的研究大致經過以下四個階段:

          (1)20世紀50年代的神經模擬和決策理論技術,學習系統在運行時還很少具有結構或知識。主要方法是建造神經網絡和自組織學習系統,學習表現為閾值邏輯單元傳送信號的反饋調整。

          (2)20世紀60年代早期開始研究面向概念的學習,即符號學習。使用的工具是語義網絡或謂詞邏輯,不再是數值或者統計方法。在概念獲取中,學習系統通過分析相關概念的大量正例和反例來構造概念的符號表示。

          (3)20世紀70年代中期,研究活動日趨興旺。1980年在卡內基?梅隆大學召開的第一屆機器學習專題研討會,標志著機器學習正式成為人工智能的一個獨立研究領域。

          (4)20世紀80年代中后期至今,機器學習研究進入一個新階段,已趨向成熟。神經網絡的復蘇,帶動著各種非符號學習方法與符號學習并駕齊驅,并且已超越人工智能研究范圍,進入到自動化及模式識別等領域,各種學習方法開始繼承,多策略學習已經使學習系統愈具應用價值,而運用機器學習的數據挖掘在商業領域中的應用則是最好的例子。

          1,2機器學習方法的分類

          Bose和Mahapatra歸納了數據挖掘中使用的機器學習技術主要有以下五種:

          (1)規則歸納:規則歸納從訓練集中產生一棵決策樹或一組決策規則來進行分類。決策樹可以轉化成一組規則,分類規則通常用析取范式表示。規則歸納主要優點是處理大數據集的能力強,適合分類和預測型的任務,結果易于解釋,技術上易于實施。

          (2)神經網絡:由類似人腦神經元的處理單元組成,輸入節點通過隱藏節點與輸出節點相連接從而組成一個多層網絡結構。節點的輸入信號等于所有通過其輸入鏈接到達此節點的信號的加權和。神經網絡由相互連接的輸入層、中間層、輸出層組成。中間層由多個節點組成,完成大部分網絡工作。輸出層輸出數據分析的執行結果。

          神經網絡的最大優點是能精確地對復雜問題進行預測。其缺點是處理大數據集時效率較低,用戶在使用這種方法的時候需要具備相當的建立和運行該系統的工具知識。

          (3)事例推理:每個事例都由問題描述和問題的解決方法兩部分構成。提出問題后,系統會尋找匹配事例和解決方法。其優點是能夠較好地處理污染數據和缺失數據,非常適用于有大量事例的領域。

          (4)遺傳算法:是一種基于生物進化過程的組合優化方法。其基本思想是適者生存,基本操作包括繁殖、雜交和變異三個過程。繁殖過程是從一個整體中選擇基于某種特定標準的信息并對要求解的問題編碼,產生初始群體,計算個體的適應度。雜交過程是把一個信息的某一部分與另一個信息的相關的部分進行交換。變異過程隨機改變信息的某一部分以得到一個新的個體。重復這個操作,直到求得最佳或較佳的個體。遺傳算法的優點是能夠較好地處理污染數據和缺失數據,易于和其它系統集成。

          (5)歸納性邏輯程序:用一級屬性邏輯來定義、描述概念。首先定義正面和負面的例子,然后對新例子進行等級劃分。這一方法具有較強的概念描述機制,能較好地表達復雜關系,體現專業領域知識,因而用該方法得出的模型易于理解。

          2數據挖掘中機器學習技術的特性

          商業數據庫往往含有噪音,體現在存在錯誤和不一致性。如果數據驗證過程不夠充分,則可能允許用戶輸入不正確的數據,而數據遷移也可能產生破壞。

          商業數據庫的另一個常見問題是數據的缺失,尤其是當數據來自于不同的數據源時。由于數據編碼標準和聚集策略的不同,有可能將導致無法對所有的屬性進行分析。

          另外,在商業數據挖掘中,數據集的大小從幾吉到幾兆不等,并往往還有大量的屬性,所以可測量性是數據挖掘技術的一個重要方面。商業數據庫含有多種屬性類型,如果機器學習技術能夠處理不同的數據類型,則將對數據挖掘產生更大的作用。

          數據挖掘技術的預測精度是評價挖掘效果的一個非常重要的因素。遵循監督學習過程的機器學習系統首先被訓練,但是系統對真實數據的預測精度往往低于對訓練數據的預測精度。所以,能對真實數據得到較高的預測精度顯然是一個所需的特性。

          結果的可解釋性是另一個重要的所需特性。在商業數據挖掘應用中往往需要使用不同的DSS或DBMS,所以與其他信息系統的易整合性也是一個需要的特性。不同的機器學習技術需要終端用戶具有一定程度的工具知識和領域知識,一些技術還需要對數據進行大量的預處理工作,因此對于終端用戶來說,易于理解和需要較少預處理工作的機器學習技術是比較好的。

          3機器學習方法與數據挖掘任務類型

          Bose和Mahapatra把運用于數據挖掘的機器學習方法在商業應用時的任務類型可以歸結為如下;

          (1)分類:利用一個訓練集來確定最大可區分屬性,當分類確定好之后,新的實例可以通過分析進行合適的分類。

          (2)預測:根據已觀測到的數據來找出可能的將來值和/或屬性的分布。主要的任務之一是確定對要預測的屬性影響最大的屬性。

          (3)關聯:在尋找實體之間或者實體屬性之間的潛在聯系規律的關聯分析當中,最常見的就是市場菜籃子分析。

          (4)偵察:偵察的目的在于尋找異常的現象、離群數據、異常模式等等,并且給出支持決策的解釋。

          機器學習方法及其所對應解決的數據挖掘中的任務類型總結如表1所示。

          機器學習范文第4篇

          近期,印第安納大學與普渡大學印第安納波利斯聯合分校的研究人員開發了一種機器學習算法,可以90%預測急性骨髓性白血病(AML)的復發,以及100%準確預測緩解,當患者在初診時,白血病細胞為1012,經過導入療法的化學治療以后,白血病細胞減少到大約109以下時,就不能再從血液和骨髓中發現白血病細胞,這時候,病人即可以達到完全緩解的程度。這項小型研究凸顯了機器學習具備取代傳統診斷方法的潛力,研究者使用的是來自AML患者的骨髓細胞、病史數據以及其他健康個體的信息。

          傳統診斷方式主要是手動分析來自流式細胞術(流式細胞術是對懸液中的單細胞或其他生物粒子,通過檢測標記的熒光信號,實現高速、逐一的細胞定量分析和分選的技術)的數據,而機器學習方法體現了它的高準確率和及時性。

          普渡大學生物科學中心計算生物學研究助理教授Bindley Bartek Rajwa解釋,他的計算系統采用流式細胞術的數據作為輸入。流式細胞術是一種廣泛使用的技術,可以快速地提供樣本中單個細胞的特性,如血液或骨髓細胞。

          Rajwa是該研究的第一作者,該論文已經被IEEE 生物醫學工程學期刊收錄。

          “魍車牧魘較赴術的結果是由受過高度培訓的人類專家評估,而不是機器學習算法,”他補充說,“但是計算機通常比人類更擅長從復雜數據中提取知識。”

          斯坦福大學醫學院教授和遺傳學教授Michael Snyder博士,同意計算機在復雜癌癥病例診斷中是關鍵的輔助工具,也許最終會取代人類醫生。

          在8月份的時候,他使用機器學習來區分不同類型的肺癌,他認為病理學的觀點非常主觀,“兩個高度熟練的病理學家評估同一張幻燈片時,只有60%的部分是共同認可的。使用機器學習的方法,可以用復雜、定量的測量結果來取代主觀性,我們認為很有希望改善患者的診斷結果。

          機器學習正在迅速地成為許多疾病類別預測分析和診斷的流行工具,包括膿毒癥、創傷護理、心臟病、人群健康管理、視力保健和精神衛生保健。

          2015年,來自哥倫比亞大學,布宜諾斯艾利斯大學和IBM計算生物學中心的一項研究也使用機器學習實現準確無誤的預測診斷記錄,他們使用自然語言處理技術來標記可能進入精神病發作的心理健康患者。

          隨著開發人員和研究人員改進他們的機器學習方法,以及供應商更多工具,從事高級分析的機構可以訪問龐大的計算能力,診斷準確率會普遍得到顯著提升。

          印第安納大學與普渡大學印第安納波利斯聯合分校的病毒進展研究的高級作者、計算機副教授Murat Dundar表示,教會計算機識別AML是非常簡單的,一旦你開發了一個強大的魯棒算法,能將以前的工作提升到接近100%的準確率。

          “有挑戰性的是如何超越確診AML工作本身。我們要讓計算機準確地預測AML患者的疾病變化方向,從新的數據中理解并預測未知走向,知道哪些新的AML患者將進入緩解狀態,哪些會進入復發狀態。

          機器學習范文第5篇

          作者簡介:靳雪茹(1986-),女,河北邢臺人,碩士研究生,主要研究方向:分類法映射; 齊建東(1976-),男,內蒙古赤峰人,副教授,博士,主要研究方向:計算機網絡、智能信息處理; 王立臣(1982-),男,吉林敦化人, 碩士研究生, 主要研究方向:虛擬現實、智能信息處理; 周林志(1984-),男,浙江臺州人,碩士研究生,主要研究生方向:計算機網絡、智能信息處理。

          文章編號:1001-9081(2011)07-1781-04doi:10.3724/SP.J.1087.2011.01781

          (1.北京林業大學 信息學院,北京 100083; 2.北京信息科技大學 自動化學院,北京 100192;

          3.北京航空航天大學 網絡信息與計算中心,北京 100191)

          ()

          摘 要:專利和期刊隸屬于不同的知識組織體系,要實現專利與期刊文獻的交叉瀏覽和檢索必須解決兩種分類法(中國圖書館分類法(CLC)和國際專利分類法(IPC))之間的映射問題。在調研現有分類法類目映射方法的基礎上,討論了基于機器學習實現中國圖書館分類法和國際專利分類法之間類目映射的方法。通過對中圖法某個類目標識的語料進行訓練得到該類目的分類器,然后用其對國際專利分類法標識的語料進行分類,對分類結果進行分析得出類目間的映射關系。對比實驗證明了該方法的有效性。

          關鍵詞:類目映射; 國際專利分類法; 中國圖書館分類法; 樸素貝葉斯方法; 決策樹

          中圖分類號:TP181;TP391文獻標志碼:A

          Approach of classification mapping between international patent

          classification and chinese library classification based on machine learning

          JIN Xue-ru1,QI Jian-dong1,WANG Li-chen2,ZHOU Lin-zhi3

          (1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China;

          2. School of Automation,Beijing Information Science and Technology University,Beijing 100192,China;

          3. Network Center,Beihang University,Beijing 100191,China)

          Abstract: Patents and journals belong to different knowledge organization systems. To achieve the cross-browsing and cross-retrieval between journal literature and patents,the mapping problem between two classifications Chinese Library Classification (CLC) and International Patent Classification (IPC), must be addressed. According to the survey of the existing methods of classification mapping, this paper discussed a method to achieve the mapping between CLC and IPC based on machine learning. The learner was got by training the corpus identified by the CLC category, with which to classify the corpus identified by the IPC category. The mapping relations can be found after analyzing the classification results. And the comparison experiment proves the effectiveness of this method.

          Key words: classification mapping; International Patent Classification (IPC); Chinese Library Classification(CLC); Nave Bayes (NB) method; decision tree

          0 引言

          互聯網的迅猛發展,信息化的不斷推進使得文獻信息處理網絡化、全球化已成為潮流,這為文獻資源的共享創造了條件;與此同時,由于文獻資源加工、處理方法及檢索語言的多種多樣,又為文獻資源的共享帶來了障礙。交叉瀏覽是指用戶可以通過一種知識組織體系,可以瀏覽另一種體系中的信息,可以將不同體系中相同或相似的信息以某種方式呈現給用戶,為用戶提供一個集成式的服務,實現不同知識組織體系間的互操作。

          專利反映了解最新科研動態、研究課題開發現狀、技術水平和法律狀態。而期刊文獻作為信息傳遞和交換的產物,是科研信息的重要來源。在專利信息越來越受關注的今天,實現專利與期刊文獻的互操作以獲取更加準確、詳細、全面的信息具有重要的意義。專利文獻和期刊文獻是按照不同的組織方式進行組織管理的,其中國際專利分類法(International Patent Classification,IPC)是一種國際通用的管理和使用專利文獻的工具,而中文期刊庫以及其他中文文獻信息則更普遍地使用中國圖書館分類法(Chinese Library Classification,CLC)。通過找到IPC與CLC類目間的映射關系可以實現這兩種分類體系之間的互操作。

          國內外信息領域都已經致力于不同知識組織系統間的互操作研究,并取得一定的研究成果。例如,英國高層敘詞表項目(High-Level Thesaurus Project,HILT),歐盟Renardus項目,我國山西省圖書館等聯合研制了“計算機文獻標引對照系統”,由戴劍波、侯漢清研制的CLC4和DDC21自動映射系統等[1]。另外,國家“十一五” 科技支持計劃項目研究的知識組織系統是由多個領域詞表構成的,每個詞表包含了該領域的詞匯,并且定義、規范了詞匯間的各種語義關系,是該實驗以及其他自然語言處理過程中的重要支撐工具。目前,有關分類法映射的研究中采用的方法主要有以下幾種:

          1)基于同現統計[2]。

          分類法的實質是一系列文獻情報內容概念及其相關關系的號碼標識系統,可以用不同分類法的分類號來標識同一文獻;反之,標識同一文獻或圖書的不同分類號之間必定具有一定的關聯,所以可以基于不同分類法的同現信息來確定類目之間的映射關系。

          2)基于類目相似度[2-3]。

          體系分類法一般是通過類目名稱、注釋、上下位類等來表達各種復雜概念,在進行類目映射時,不僅要考慮類目的表達形式,還要考慮類目所表達的概念在外延和內涵上的相符程度。通過選擇類目對應的類名詞、注釋詞及其上下位類名詞等詞匯作為類目概念詞并進行相似度計算,可以確定類目之間的映射關系。

          3)交叉瀏覽[4]。

          通過使用一種分類法在一個使用另外一種分類法來組織的語料庫中進行檢索,通過對檢索結果的分析從而建立這兩種分類法之間的映射。

          以上三種方法是當前分類法類目映射中常用的方法。從其他角度考慮,類目映射的問題實質上就是分類的問題[5-6],即能否將兩個類目看做是“同類”的,由此本文提出了基于機器學習中分類算法的類目映射方法。

          1 基于機器學習的映射方法

          本文提出的基于機器學習的類目映射方法的基本原理是:類目映射可以看做是一個分類的問題,將其中一個分類法(以下稱為“源分類法”)中某個類目(如類目A)標識的語料信息作為訓練集,訓練得到該類目的分類器(如LearnersA),然后用該分類器測試由另一分類法(以下稱為“目標分類法”)的類目(如類目Ⅰ)標識的語料是否可以歸類到類目A。如果可以,則表明類目A與類目Ⅰ之間存在一定的映射關系。

          圖1 基于機器學習的映射過程

          本方法對文檔的標題和內容分開進行處理,首先經過預處理得到文本標題和內容向量集合,然后由訓練得到的標題和內容分類器對目標分類法的文檔(與訓練集同一維度空間的向量集合)進行分類,最后分析分類結果得到目標分類法的哪些類目可以與源分類法的類目進行映射。

          1.1 預處理

          由于文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先將文本轉化為可由計算機處理的結構化形式。

          1.1.1分詞

          詞條是信息表達的最小單位,是自然語言中重要的知識載體與基本操作單元。所有涉及中文內容處理的系統,如果沒有一個好的中文詞法分析系統支持,正確率都會受很大影響。本實驗使用中國科學院計算技術研究所研制的開源ICTCLAS[7]系統的Java版本ictclas4j來完成文本分詞。

          1.1.2 提取特征詞

          對文本分詞以后,進一步使用中國科學技術信息研究所建設的“汽車領域主題詞”作為詞典篩選出關鍵詞語,將文本中承載的與分類無關或關聯較少的信息,如停用詞、數字、標點符號等都過濾掉,可以提高特征詞的質量、計算的效率和分類的準確度。

          1.2 特征選擇

          目前人們通常采用向量空間模型來描述文本信息,但是如果直接用分詞算法和詞頻統計方法得到的詞匯來表示文本向量中的各個維,那么這個特征空間的維數將高達幾萬,甚至更高。這不僅會降低分類效率也會降低分類精度,因此需要從原始特征空間中選出部分特征,來降低原始特征空間的維數,也就是特征選擇的過程。

          特征選擇的常用標準有文本頻度(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,MI)、CHI統計及TFIDF(Term Frequency Inverse Document Frequency)等[8]。其中,TFIDF是一種權重計算方法,因其算法簡單并且準確率較高,文本分類的特征選擇也常常基于此算法完成。但此算法只反映特征與頁面間的關系,具有一定的局限性,而MI標準反映了特征與類別間的關系,在一定程度上彌補了TFIDF的不足,因此本實驗將采用TFIDF和MI兩種標準進行特征詞選取。

          1)TFIDF標準。

          TFIDF用特征的TF×IDF值來評估一個特征。TF指特征頻度,TF值表示一個特征和某個文檔的相關性,反映了該特征相對于這個頁面的重要程度,默認為出現的次數越多越重要。IDF 因子表示逆文檔頻度,即包含某特征的文檔越多,則該特征越不重要。TFIDF計算公式如下:

          TFIDF(termi,documentj)TF(termi,documentj)×

          IDF(termi)TF(termi,documentj)×lg(1)

          其中,TF(termi,documentj)定義為特征termi在文檔documentj中出現的次數(1≤i≤|V|, 1≤j≤N,V為所有訓練文檔中的特征構成的集合,N 為訓練文檔總數)。IDF(termi)定義為lg,DF(termi)為含有特征termi的文檔數。

          2)MI標準。

          互信息在統計語言模型中被廣泛應用,它可以度量特征詞和類別的共現關系,反映了特征和類別之間的關聯程度,MI值為0就代表特征的分布和類別無關。MI計算公式如下:

          MI(term,class)lb

          lb(2)

          其中:P(term,class)表示特征term在類別class中出現的概率,P(term)表示特征term在整個訓練集中出現的概率。

          本實驗采用以上兩種標準來對特征詞進行選擇。首先,計算每個文檔中所有詞條的TFIDF值以及這些詞條與當前類別的MI值,然后選取MI值大于0且TFIDF值大于設定閾值的詞條作為最終的特征詞將該文檔表示為一個向量。

          1.3 訓練分類器

          用語料信息訓練源分類法某個類目的分類器時,選擇由該類目標識的文檔作為訓練集的正面樣本,其他類目標識的文檔作為負面樣本。從這些樣本集中可以得到兩個分類器:標題分類器和內容分類器。標題分類器就是用文檔的標題作為訓練集來進行訓練得到的,采用標題作為訓練集的理由是:標題是一個文檔最簡單、最準確的概括,在對文檔進行分類時,甚至只看到標題就知道應該將該文檔歸到哪一類。文檔的內容可以提供更加詳細、更加深入的主題思想,但與此同時文檔攜帶的信息也隨之增多,可能會影響文檔的正確分類。因此,在本實驗中將文檔標題和文檔內容結合起來考慮,以提高分類的準確度。

          目前,文本分類的經典算法有:樸素貝葉斯分類(Nave Bayes,NB)[10]、決策樹方法(Decision Tree,DT)、Rocchio方法、K近鄰算法(K-Nearest Neighbors,KNN)和支持向量機(Support Vector Machine,SVM)等[9]。其中,樸素貝葉斯和決策樹因其較高的分類性能和簡單性,是當前使用最廣泛的兩種分類模型。本實驗也將采用這兩種算法完成分類工作。

          樸素貝葉斯以概率統計中的貝葉斯定理為理論基礎,基于特征獨立性假設,根據已知的先驗概率以及條件概率得到后驗概率。文本d屬于某類別C的概率可表述如式(3)。最終文本將分類到概率最大的那個類別中。

          P(C|d) (3)

          其中:P(d)為常數,可以忽略;P(C)為類別C的先驗概率,由類別C的文本數與訓練集的文本總數的比值得到。文檔d由特征向量表示后,其條件概率可表述如下:

          P(d|C)P((w1,w2,…,wn)|C)∏ni1P(wi|C)(4)

          決策樹[11]又稱判定樹,通過構造樹,產生一定的規則來解決分類問題。樹的每個非葉子節點都是對訓練文本向量中的一個非類別屬性的測試或決策,根據屬性的取值,建立樹的分支。每個葉子節點表示一個類別或類分布。從根節點一直向下判定,當到達一個葉子節點時,一個決策或規則便形成了。目前,決策樹典型算法有:ID3、C4.5、CART、SLIQ、SPRINT等。

          1.4 對目標分類法的文檔進行分類

          用訓練好的源分類法中類目A的分類器LearnerA和TitleLearnerA對目標分類法的語料信息進行分類,通過對分類結果的分析得出源分類法的類目A與目標分類法的哪個或哪些類目能確定映射關系。

          2 實驗及結果分析

          2.1 實驗數據

          IPC和CLC是兩部龐大的分類體系,本實驗選取分類法中和汽車相關的類目。與CLC類目相關的數據由中國科學技術信息研究所提供的中文期刊語料庫選取;和IPC類目相關的數據是從知識產權專利局網站上獲取的有關車輛的專利

          信息。

          本實驗以CLC分類法中的類目U461.91(汽車的安全性)[12]所標識的所有文本(共40篇)和從CLC語料隨機選擇的100篇其他類目的文本作為分類的訓練集。由于對分類結果進行的分析是基于統計的,所以選取了IPC語料庫中標識文本數量大于50的類目作為待映射的類目(共118個類目),將這些類目所標識的文本作為分類的測試集。

          2.2 結果分析

          本實驗采用開源的機器學習及數據挖掘軟件WEKA[13]完成分類器的訓練及分類測試集的工作。首先將U461.91類目標識的文檔內容和文檔標題分別用樸素貝葉斯、決策樹(C4.5算法)分類方法進行訓練,并進行十交叉檢驗,得到分類器的正確率、召回率、F值如表1所示。

          表1 采用不同分類方法得到的分類器的對比

          通過表1的實驗結果可以看出,對文檔內容進行分類時,使用樸素貝葉斯分類方法可以取得更好的效果,而對文檔標題分類時,決策樹是更好的選擇。另外,對其他類目的分類實驗也可以得到相同的結論,如在對U463進行分類的實驗中,對文檔內容用樸素貝葉斯分類的正確率是0.776,用決策樹分類時為0.757,而對文檔標題用樸素貝葉斯分類時正確率為0.712,用決策樹時為0.741。因此,在本實驗中選用樸素貝葉斯分類方法來訓練得到文檔內容的分類器,標題分類器的訓練采用決策樹方法。

          然后用訓練好的U461.91類目分類器對IPC文檔分別按內容和標題分類以后,可以得到IPC各個類目中分類到U461.91中的文檔的比例。綜合兩個分類器的分類準確率和分類到該類目文檔的比例得到U461.91與IPC各類目間的映射關系。

          mapping(A,Ι)correct(learnerA)×doc(Ι,learnerA,A)+

          correct(TitleLearnerA)×doc(Ι,TitleLearnerA,A)(5)

          其中,mapping(A,Ι)是兩個類目A與Ι可以映射的判斷依據;correct(learner)指分類器learner的準確率,是對該分類器的信任程度;doc(Ι,learner,A)指Ι類目標識的文檔通過分類器learner分類到類目A的比例。

          最后選擇mapping值最大的n個目標分類法的類目作為與源分類法類目進行映射的候選類目,由專家進行審核得到最終結果。本實驗中,U461.91的候選映射類目(n6)如表2所示。

          表2 CLC類目U461.91與IPC類目映射結果

          用基于交叉瀏覽的類目映射方法得到的結果[4]如表3所示。

          由表2、3可以看出,基于機器學習的類目映射方法找到了與汽車安全相關的IPC類目信息,當然,這些類目很大程度上依賴于實驗中選取的IPC 類目文檔的語料信息。例如,從表3可以看到一些與安全帶相關的類目信息,由于這些類目所標識的文本數量小于設定值,所以并不在本實驗的測試集之中,因此,實驗結果并沒有與之相關的類目。

          表3 基于交叉瀏覽的CLC類目U461.91與IPC類目映射結果

          3 結語

          本文根據訓練集文檔的標題和內容的特點,將它們分開進行訓練,并根據對比實驗結果分別采用決策樹和樸素貝葉斯分類模型得到各自的分類器。然后利用這兩種分類器對測試集的文檔進行分類,最后綜合兩者的分類結果分析得到類目間的映射關系。實驗的結果表明此方法可以找到CLC與IPC這兩種分類法之間相映射的類目,具有一定的可行性。

          參考文獻:

          [1] 劉華梅,侯漢清.近十年情報檢索語言互操作研究進展[J].圖書館理論與實踐,2006(4):31-33.

          [2] 劉華梅.基于情報檢索語言互操作技術的集成詞庫構建研究[D].南京:南京農業大學,2006.

          [3] 戴劍波,侯漢清. 文獻分類法自動映射系統的構建――以《中國圖書館分類法》與《杜威十進分類法》為例[J].情報學報,2006,25(5):594-599.

          [4] 周林志.國際專利分類法與中圖分類法類目映射研究[D].北京:北京林業大學,2010.

          [5] DOAN A,DOMINGOS P,HALEVY A. Reconciling schemas of disparate data sources: A machine learning approach〖C〗// Proceedings of International Conference on Management of Data. New York: ACM, 2001:509-520.

          [6] DOAN A,MADHAVAN J,DOMINGOS P. Ontology matching: A machine learning approach[EB/OL].[2010-10-06].citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.8.2185&reprep1&typepdf.

          [7] 漢語分詞系統〖EB/OL〗.〖2010-09-20〗./

          [8] 代六玲,黃河燕,陳肇雄.中文文本分類征抽取方法的比較研究[J].中文信息學報,2003,18(11):26-32.

          [9] 蒲筱哥.自動文本分類方法研究述評[J]. 情報科學,2008,26(3):469-475.

          [10] MITCHELL T M. 機器學習[M]. 曾華軍,張銀奎,譯. 北京: 機械工業出版社,2003.

          [11] 王桂芹,黃道. 決策樹算法研究及應用[J]. 電腦應用技術,2008(1):1-7.

          [12] 中國圖書館分類法[EB/OL].[2010-10-08]./.