前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的深度范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
1 研究背景
手寫數字識別是一個經典的模式識別問題。從0 到9這10 個阿拉伯數字組成。由于其類別數比較小,它在些運算量很大或者比較復雜的算法中比較容易實現。所以,在模式識別中數字識別一直都是熱門的實驗對象。卷積神經網絡 (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經網絡的神經元是局部連接,神經元之間能夠共享權值。深度卷積神經網絡不但可以解決淺層學習結構無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經網絡
深度卷積神經網絡是一種具有多層監督的神經網絡,隱含層中的卷積層和池采樣層是實現深度卷積神經網絡提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數來進行權重參數逐層反向調節,再經過迭代訓練提高分類精確度。
深度卷積神經網絡的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結果。正常情況下,一個卷積后面都跟一個子采樣層。基于卷積層里權值共享和局部連接的特性,可以簡化網絡的樣本訓練參數。運算之后,獲得的結果通過激活函數輸出得到特征圖像,再將輸出值作為子采樣層的輸入數據。為了實現縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數據就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網絡的樣本訓練參數,降低計算難度。這些良好的性能是網絡在有監督方式下學會的,網絡的結構主要有局部連接和權值共享兩個特點:
2.1 局部連接
深度卷積神經網絡中,層與層之間的神經元節點是局部連接,不像BP 神經網絡中的連接為全連接。深度卷積神經網絡利用局部空間的相關性將相鄰層的神經元節點連接相鄰的上一層神經元節點。
2.2 權重共享
在深度卷積神經網絡中,卷積層中每一個卷積濾波器共享相同參數并重復作用,卷積輸入的圖像,再將卷積的結果變為輸入圖像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區域來劃分卷積特征,降維后的卷積特征會被這些區域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結果
為了驗證卷積神經網絡的有效性,本實驗中使用以最經典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數字MNIST數據庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數字USPS 數據庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經網絡在MNIST 和USPS 庫上的識別結果。從表1中可知,深度卷積神經網絡對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經網絡算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經網絡在識別手寫體字符時有著較好的分類效果。
4 總結
本文介紹深度卷積神經網絡的理論知識、算法技術和算法的結構包括局部連接、權重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經網絡對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經網絡相融合的手寫體數字識別簡介[J].計算機科學,2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛, 蔣蓉蓉.基于最近鄰規則的神經網絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
作者簡介
關鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷。現為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。
關鍵詞:卷積神經網絡;深度學習;圖像處理;訓練時間
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)33-0167-04
如今在機器學習領域中,深度學習方法已經占據了相當重要的地位,通過模仿人X學習方式構造模型,在圖像、文本、語音處理方面取得了顯著成果[1]。目前應用較為廣泛的深度學習模型包含多層感知器模型(MLP)[2],卷積神經網絡模型和限制性玻爾茲曼機模型等[4]。多層感知器[2]網絡結構的神經節點一般分層排列,主要由輸入層,輸出層和一些隱層組成,同層之間的神經元節點無連接,相鄰的兩層神經元進行全連接,前一層的神經元的輸出作為后一層神經元的輸入,但本身此種算法存在著一些問題,那就是它的學習速度非常慢,其中一個原因就是由于層與層之間進行全連接,所以它所需要訓練的參數的規模是非常大的,所以對其進行改進,產生了卷積神經網絡模型。卷積神經網絡模型在圖像識別方面的應用十分廣泛[5,8,9]。從它的結構上來看,層與層之間的神經元節點采用局部連接模式,而并非MLP的全連接模型,這樣就降低了需要訓練的參數的規模。而在它卷積層中,它的每一個濾波器作為卷積核重復作用于整個輸入圖像中,對其進行卷積,而得出的結果作為輸入圖像的特征圖[6],這樣就提取出了圖像的局部特征。而由于每一個卷積濾波器共享相同的參數,這樣也就大大降低了訓練參數的時間成本。而本文,以卷積神經網絡為研究對象,在其模型的基礎上通過對其結構中卷積核也就是濾波器的大小進行調整并結合卷積核個數調整和gpu加速等已有的訓練提速方法,達到降低訓練時間并且對識別結果并無太大影響的目的。
1 卷積神經網絡
卷積神經網絡在MLP的基礎上,已經對結構進行了優化,通過層與層之間的局部連接以及權值共享等方式對要訓練的參數的進行了大幅減低。
1.1局部連接
BP神經網絡中,神經元在本層中呈線性排列狀態,層與層之間進行全連接,而在卷積神經網絡中,為了減少每層之間的可訓練參數數量,對連接方式進行了修改,相對于BP神經網絡的全連接,卷積神經網絡采取了局部連接的連接方式[7],也就是說按照某種關聯因素,本層的神經元只會與上層的部分神經元進行連接。
2.2 權值共享
在CNN中,卷積層中的卷積核也就是濾波器,重復作用在輸入圖像上,對其進行卷積,最后的輸出作為他的特征圖,由于每個濾波器共享相同的參數,所以說他們的權重矩陣以及偏置項是相同的。
我們從上圖看出,相同箭頭連線的權值是共享的,這樣在原有的局部連接的基礎上我們又降低了每層需要訓練的參數的數量。
2.3卷積過程
特征圖是通過濾波器按照特定的步長,對輸入圖像進行濾波,也就是說我們用一個線性的卷積核對輸入圖像進行卷積然后附加一個偏置項,最后對神經元進行激活。如果我們設第k層的特征圖記為[hk],權重矩陣記為[Wk],偏置項記為[bk],那么卷積過程的公式如下所示(雙曲函數tanh作為神經元的激活函數):
2.4 最大池采樣
通過了局部連接與權值共享等減少連接參數的方式卷積神經網絡中還有另外一個重要的概念那就是最大池采樣方法,它是一種非線性的采樣方法。最大池采樣法在對減少訓練參數數量的作用體現在兩個方面:
1 )它減小了來自m-1層的計算復雜度。
2 )池化的單元具有平移不變性,所以即使圖像在濾波后有小的位移,經過池化的特征依然會保持不變。
3卷積神經網絡整體構造以及減少訓練時間的方法
3.1使用GPU加速
本次論文實驗中,使用了theano庫在python環境下實現卷積神經網絡模型,在lenet手寫數字識別模型上進行改進,由于theano庫本身支持GPU加速,所以在訓練速度上實現了大幅度的提高。
3.2 數據集的預處理
本次實驗使用的兩個數據集是mnist手寫數字庫以及cifar_10庫
Mnist手寫數字庫具有60000張訓練集以及10000張測試集,圖片的像素都為28*28,而cifar_10庫是一個用于普適物體識別的數據集,它由60000張32*32像素的RGB彩色圖片構成,50000張圖片組成訓練集,10000張組成測試集。而對于cifar_10數據集來說,由于圖片都是RGB的,所以我們在進行實驗的時候,先把其轉換為灰度圖在進行存儲。由于實驗是在python環境下運行,theano函數庫進行算法支持,所以我們把數據集進行處理,此處我們對使用的數據集進行了格式化。格式化的文件包括三個list,分別是訓練數據,驗證數據和測試數據。而list中每個元素都是由圖像本身和它的相對應的標簽組成的。以mnist數據集為例,我們包含train_set,valid_set,test_set三個list,每個list中包含兩個元素,以訓練集為例,第一個元素為一個784*60000的二維矩陣,第二個元素為一個包含60000個元素的列向量,第一個元素的每一行代表一張圖片的每個像素,一共60000行,第二個元素就存儲了對相應的標簽。而我們取訓練樣本的10%作為驗證樣本,進行相同的格式化,而測試樣本為沒有經過訓練的10000張圖片。在以cifar_10數據集為實驗對象時,把其進行灰度化后,進行相同的格式化處理方式。
3.3實驗模型結構
本次實驗是在python環境下基于theano函數庫搭建好的lenet模型進行參數的調整,以達到在實驗準確度可接受情況下減少訓練時間的目的。
上圖為實驗中的基礎模型舉例說明實驗過程,首先以mnist數據集為例,我們的輸入圖像為一個28*28像素的手寫數字圖像,在第一層中我們進行了卷積處理,四個濾波器在s1層中我們得到了四張特征圖。在這里要特別的說明一下濾波器的大小問題,濾波器的大小可根據圖像像素大小和卷積神經網絡整體結構進行設置,舉例說明,假如說我們的輸入圖像為28*28像素的圖像,我們把第一層卷積層濾波器大小設置為5*5,也就是說我們用一個大小為5*5的局部滑動窗,以步長為一對整張圖像進行滑動濾波,則滑動窗會有24個不同的位置,也就是說經過卷積處理后的C1層特征圖的大小為24*24。此處的濾波器大小可進行調整,本論文希望通過對濾波器大小的調整,已達到減少訓練時間的目的,并尋找調整的理論依據。C1層的特征圖個數與卷積過程中濾波器數量相同。S1層是C1經過降采樣處理后得到的,也就是說四點經過降采樣后變為一個點,我們使用的是最大池方法,所以取這四個點的最大值,也就是說S1層圖像大小為12*12像素,具有4張特征圖。而同理S1層經過卷積處理得到C2層,此時我們濾波器的大小和個數也可以自行設置,得到的C2層有6張特征圖,C2到S2層進行降采樣處理,最后面的層由于節點個數較少,我們就用MLP方法進行全連接。
3.4實驗參數改進分析
由此可見,我們對濾波器的大小以及個數的改變,可以直接影響到卷積訓練參數的個數,從而達到減少訓練時間的目的。
從另一種角度來看,增大濾波器的大小,實際效果應該相似于縮小輸入圖像的像素大小,所以這樣我們可以預測增大濾波器的大小會減少樣本的訓練時間,但是這樣也可能會降低訓練后的分類的準確率,而濾波器的大小是如何影響訓練時間以及分類準確率的,我們通過對兩種圖片庫的實驗來進行分析。
4 實驗結果與分析
4.1以mnist手寫數字數據集作為實驗數據
我們知道卷積層可訓練參數的數字與濾波器的大小和數字有關,所以我們通過對卷積層濾波器大小的變化來尋找較為普遍的可減少訓練參數從而達到減少訓練時間的目的。在實驗記錄中,我們表格縱列記錄兩層卷積層濾波器大小,橫列分別為對已經過訓練圖像識別和對未經過訓練的驗證圖像進行識別的錯誤率,最后記錄每種濾波器大小搭配的使用時間。我們設定每次試驗都進行100次重復訓練,每次對權重矩陣進行優化。
此處我們記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。兩層濾波器大小相加后相同的元素我們把其對應時間做平均。
4.2以cifar_10數據集作為實驗數據
同樣是以100次循環訓練進行測試,通過改變兩層中濾波器的大小來尋找減少訓練時間的設定。
此處以同樣的方法,記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。
4.3實驗結果分析
從兩組試驗中,在不同的數據集下,我們得到了濾波器的大小與訓練時間成反比的關系,而在減少了訓練時間的同時確實增大了訓練的錯誤率。
5 總結
通過實驗結果分析表明,增大卷積層濾波器大小的方法,在此兩種數據庫的情況下,是有效減小訓練時間的方式,而在不同的數據庫對分類準確率的影響程度不同,mnist手寫數字數據庫中圖像之間的相似度非常高,所以濾波器的增大對準確率產生的負面影響較小,而ifar_10數據集中圖像之間的相似度較小,所以增大濾波器的大小對其分類結果的準確率的負面影響較大。
參考文獻:
[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.
[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.
[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.
[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.
[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.
黑匣認為,復雜神經網絡、LSTMs(長短期記憶網絡)、注意力模型(Attention Models)等十大趨勢將塑造人工智能未來的技術格局。
上述判斷來自NIPS(神經信息處理系統) 2015大會。NIPS始于1987年,是人工智能領域兩大重要學習會議之一,由于AI的爆炸式發展,近年來逐漸成為許多硅谷公司必須參加的年度會議。在蒙特利爾召開的NIPS 2015吸引了眾多AI學界與業界的頂級專家,與會人數接近4000。大會總共收錄了403篇論文,其中深度學習課題約占11%。來自Dropbox的高級軟件工程師Brad Neuberg分享了他所注意到的十大技術趨勢,黑匣將對每種趨勢做了詳細分析。
1、神經網絡的架構正變得越來越復雜
感知和翻譯等大多數神經網絡的架構正變得越來越復雜,遠非此前簡單的前饋神經網絡或卷積神經網絡所能比。特別需要注意的是,神經網絡正與不同的技術(如LSTMs、卷積、自定義目標函數等)相混合。
神經網絡是多數深度學習項目的根基。深度學習基于人腦結構,一層層互相連接的人工模擬神經元模仿大腦的行為,處理視覺和語言等復雜問題。這些人工神經網絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。未來的人工智能,最熱門的技術趨勢是什么?
(人工模擬神經元試圖模仿大腦行為|圖片來源:Frontiers)
但這一切都需要極高的計算能力。早在80年代初期,Geoffrey Hinton和他的同事們就開始研究深度學習。然而彼時電腦還不夠快,不足以處理有關神經網絡的這些龐大的數據。當時AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運作。
隨著計算能力的提升和算法的改進,今天,神經網絡和深度學習已經成為人工智能領域最具吸引力的流派。這些神經網絡還在變得更復雜,當年“谷歌大腦”團隊最開始嘗試“無監督學習”時,就動用了1.6萬多臺微處理器,創建了一個有數十億連接的神經網絡,在一項實驗中觀看了千萬數量級的YouTube圖像。
2、酷的人都在用LSTMs
當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續性,你不會丟棄已知信息而從頭開始思考。傳統神經網絡的一大缺陷便是無法做到這一點,而遞歸神經網絡(RNN)能夠解決這一問題。
RNN擁有循環結構,可以持續保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在于一種特殊的RNN——長短期記憶網絡(LSTMs)。
普通的RNN可以學會預測“the clouds are in the sky”中最后一個單詞,但難以學會預測“I grew up in France…I speak fluent French。”中最后一個詞。相關信息(clouds、France)和預測位置(sky、French)的間隔越大,神經網絡就越加難以學習連接信息。這被稱為是“長期依賴關系”問題。未來的人工智能,最熱門的技術趨勢是什么?
(長期依賴問題|圖片來源:CSDN)
LSTMs被明確設計成能克服之一問題。LSTMs有四層神經網絡層,它們以特殊的方式相互作用。這使得“能記住信息很長一段時間”可以被視作LSTMs的“固有行為”,它們不需要額外學習這一點。對于大多數任務,LSTMs已經取得了非常好的效果。
3、是時候注意“注意力模型(attention models)了
LSTMs是人們使用RNNs的一個飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經網絡在執行任務時知道把焦點放在何處。我們可以讓神經網絡在每一步都從更大的信息集中挑選信息作為輸入。
例如,當神經網絡為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。未來的人工智能,最熱門的技術趨勢是什么?
(擁有“注意力”的RNN在圖像識別中的成功運用|圖片來源:Github)
4、神經圖靈機依然有趣,但還無法勝任實際工作
當你翻譯一句話時,并不會逐個詞匯進行,而是會從句子的整體結構出發。機器難以做到這一點,這一挑戰被稱為“強耦合輸出的整體估計”。NIPS上很多研究者展示了對跨時間、空間進行耦合輸出的研究。
神經圖靈機(Neural Turing Machine)就是研究者們在硅片中重現人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經網絡,它們可以適應與外部存儲器共同工作,這使得神經網絡可以存儲記憶,還能在此后檢索記憶并執行一些有邏輯性的任務。未來的人工智能,最熱門的技術趨勢是什么?
(模仿人類短期工作記憶的神經圖靈機|圖片來源:arXiv)
2014年10月,Google DeepMind公布了一臺原型電腦,它可以模仿一些人類大腦短期工作記憶的特性。但直到NIPS2015,所有的神經圖靈機都過于復雜,并且只能解決一些“小玩具”問題。在未來它們或將得到極大改進。
5、深度學習讓計算機視覺和自然語言處理不再是孤島
卷積神經網絡(CNN)最早出現在計算機視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞歸神經網絡深度學習最早出現在NLP中,但現在也被納入計算機視覺神經網絡。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。想象一下程序為美劇自動嵌入中文字幕的場景吧。
6、符號微分式越來越重要
隨著神經網絡架構及其目標函數變得日益復雜和自定義,手動推導出“反向傳播”(back propagation)的梯度(gradients)也變得更加苦難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7、神經網絡模型壓縮的驚人成果
多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、迭代修剪和精細調優步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在移動設備上進行復雜模型的訓練。例如,不需要延遲就可以得到語音識別結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設備上也可以運用復雜神經網絡模型,從而近乎實時地完成計算機視覺任務。
8、深度學習和強化學習繼續交匯
雖然NIPS 2015上沒有什么強化學習(reinforcement learning)的重要成果,但“深度強化學習”研討會還是展現了深度神經網絡和強化學習相結合的前景。
在“端對端”(end-to-end)機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官數據直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。還有大量工作需要完成,但早期的工作已經使人感到興奮。
9、難道你還沒有使用批標準化?
批標準化(batch normalization)現在被視作評價一個神經網絡工具包的部分標準,在NIPS 2015上被不斷提及。
>> 深度信念網絡應用于圖像分類的可行性研究 PPP融資模式應用于廉租房建設的可行性研究 超越預算應用于高科技企業研發的可行性研究 網絡虛擬游戲應用于法語教學的可行性研究 左手材料應用于隱身領域的可行性研究與分析 3D影像技術應用于體育教學的可行性研究 PLC技術應用于遠程抄表的可行性研究 價值投資應用于中國股票市場的可行性研究 將安檢系統應用于廣州地鐵的可行性研究 Solidworks應用于船體生產設計的可行性研究 微信公眾平臺應用于高校教育領域的可行性研究 超微粉碎技術應用于羊藿的可行性研究 風能、太陽能應用于農業生產的可行性研究 腦電信號應用于消費心理研究可行性研究 硅―改瀝青應用于沙漠地區公路的可行性研究 關于無線傳感器網絡應用于變電站的可行性研究 循證護理模式應用于胸外重癥患者中的可行性研究 臨床護理路徑應用于藥物治療腦出血患者護理的可行性研究 基于數字圖像處理的裂縫寬度測量可行性研究 基金積累制應用于新型農村社會養老保險制度的可行性研究 常見問題解答 當前所在位置:l.
[19]曹林林,李海濤, 韓顏順,等.卷積神經網絡在高分遙感影像分類中的應用[EB/OL]..
[20]龔丁禧,曹長榮.基于卷積神經網絡的植物葉片分類[J].計算機與現代化,2014(4):1215,19.
關鍵詞:人機大戰;人工智能;發展前景
中圖分類號:TP391 文獻標識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰”終于落下帷幕,最終Google公司開發的“AlphaGo”以4∶1戰勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認為,人工智能已經上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍”戰勝國際象棋世界冠軍卡斯帕羅不同。主要表現在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是AlphaGo已經擁有了深度學習的能力,能夠學習已經對弈過的棋盤,并在練習和實戰中不斷學習和積累經驗。
(2)圍棋比國際象棋更加復雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局數的所有可能性是冪為171的指數,這樣的計算量相當巨大。英國圍棋聯盟裁判托比表示:“圍棋是世界上最為復雜的智力游戲,它簡單的規則加深了棋局的復雜性”。因此,進入圍棋領域一直被認為是目前人工智能的最大挑戰。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學習”能力。深度學習是源于人工神經網絡的研究,得益于大數據和互聯網技術。本文就從人工智能的發展歷程與現狀入手,在此基礎上分析了人工智能的未來發展前景。
1.人工智能的發展歷程
AlphaGo的勝利表明,人工智能發展到今天,已經取得了很多卓越的成果。但是,其發展不是一帆風順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學科。回顧人工智能的發展歷程,可大致分為孕育、形成、暗淡、知識應用和集成發展五大時期。
孕育期:1956年以前,數學、邏輯、計算機等理論和技術方面的研究為人工智能的出現奠定了基礎。德國數學家和哲學家萊布尼茨把形式邏輯符號化,奠定了數理邏輯的基礎。英國數學家圖靈在1936年創立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”。總之,這些人為人工智能的孕育和產生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術語。這是人類歷史上第一次人工智能研討會,標志著人工智能學科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學家的努力下,人工智能取得了矚目的突破,也在當時形成了廣泛的樂觀思潮。
暗淡期:20世紀70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復雜的問題。隨著AI遭遇批評,對AI提供資助的機構也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應用期:在80年代,“專家系統”(Expect System)成為了人工智能中一個非常主流的分支。“專家系統”是一種程序,為計算機提供特定領域的專門知識和經驗,計算機就能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。不同領域的專家系統基本都是由知識庫、數據庫、推理機、解釋機制、知識獲取等部分組成。
集成發展期:得益于互聯網的蓬勃發展、計算機性能的突飛猛進、分布式系統的廣泛應用以及人工智能多分支的協同發展,人工智能在這一階段飛速發展。尤其是隨著深度學習和人工神經網絡研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發展到今天,出現了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當前人工智能的研究熱點主要集中在自然語言處理、機器學習、人工神經網絡等領域。
2.人工智能l展現狀與前景
人工智能當前有很多重要的研究領域和分支。目前,越來越多的AI項目依賴于分布式系統,而當前研究的普遍熱點則集中于自然語言處理、機器學習和人工神經網絡等領域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學與人工智能的交叉學科,其主要功能就是實現讓機器明白人類的語言,這需要將人類的自然語言轉化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結構、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態度。
當前自然語言的處理主要有兩大方向。一種是基于句法-語義規則的理性主義理論,該理論認為需要為計算機制定一系列的規則,計算機在規則下進行推理與判斷。因此其技術路線是一系列的人為的語料建設與規則制定。第二種是基于統計學習的經驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學習并進行統計推斷的方式不停地從數據中“學習”語言,試圖刻畫真實世界的語言現象,從數據中統計語言的規律。
機器學習:機器學習(Machine Learning)是近20年來興起的人工智能一大重要領域。其主要是指通過讓計算機在數據中自動分析獲得規律,從而獲取“自我學習”的能力,并利用規律對未知數據進行判斷和預測的方法。
機器學致可以分為有監督的學習和無監督的學習。有監督的學習是從給定的訓練數據集中練出一個函數和目標,當有新的數據到來時,可以由訓練得到函數預測目標。有監督的學習要求訓練集同時有輸入和輸出,也就是所謂的特征和目標。而依據預測的結果是離散的還是連續的,將有監督的學習分為兩大問題,即統計分類問題和回歸分析問題。統計分類的預測結果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標是連續的,如天氣、股價等的預測。
無監督學習的訓練集則沒有人為標注的結果,這就需要計算機去發現數據間的聯系并用來分類等。一種常見的無監督學習是聚類分析(Cluster Analysis),它是將相似的對象通過靜態分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數據對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數據對象進行分類。
機器學習還包括如半監督學習和增強學習等類別。總而言之,機器學習是研究如何使用機器來模擬人類學習活動的一門學科,而其應用隨著人工智能研究領域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領域越來越廣泛地應用到了機器學習中。
人工神經網絡:在腦神經科學領域,人們認為人類的意識及智能行為,都是通過巨大的神經網絡傳遞的,每個神經細胞通過突出與其他神經細胞連接,當通過突觸的信號強度超過某個閾值時,神經細胞便會進入激活狀態,向所連接的神經細胞一層層傳遞信號。于1943年提出的基于生物神經元的M-P模型的主要思想就是將神經元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數f對輸入x1,x2…,xn進行處理并模擬神經細胞的激活模式。主要的傳遞函數有階躍型、線性型和S型。
在此基礎上,對神經網絡算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認知模型提出了卷積神經網絡計算模型。通過學習訓練獲取到卷積運算中所使用的卷積系數,并通過不同層次與自由度的變化,可以得到較為優化的計算結果。而AlphaGo也正是采用了這種深度卷積神經網絡(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發展前景
總體來看,人工智能的應用經歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領域中,既是縱向發展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現邏輯推理等功能,隨著計算機處理能力的進步以及深度學習等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領域,隨著自然語言處理的進步,機器已經基本能對人類的語音與語言進行感知,并且能夠已經對現實世界進行視覺上的感知。基于大數據的處理和機器學習的發展,機器已經能夠對周圍的環境進行認知,例如微軟的Kinect就能夠準確的對人的肢體動作進行判斷。該領域的主要實現還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經滲透到生活中的各個領域。機器已經能識別語音、人臉以及視頻內容等,從而實現各種人際交互的場景。在醫學領域,人工智能可以實現自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領域,機器也承擔了越來越多的輔助教育,智能交互的功能。在交通領域,一方面無人車的發展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領域也有非常廣闊的發展前景。總之,人工智能在一些具有重復性的和具備簡單決策的領域已經是一種非常重要的工具,用來幫助人們解決問題,創造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經濟導刊,2016 (6):69-74.