前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇深度神經網絡綜述范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
【關鍵詞】人工智能 圖像識別 深度學習
1 概述
圖像識別技術是人工智能研究的一個重要分支,其是以圖像為基礎,利用計算機對圖像進行處理、分析和理解,以識別不同模式的對象的技術。目前圖像識別技術的應用十分廣泛,在安全領域,有人臉識別,指紋識別等;在軍事領域,有地形勘察,飛行物識別等;在交通領域,有交通標志識別、車牌號識別等。圖像識別技術的研究是更高級的圖像理解、機器人、無人駕駛等技術的重要基礎。
傳統圖像識別技術主要由圖像處理、特征提取、分類器設計等步驟構成。通過專家設計、提取出圖像特征,對圖像M行識別、分類。近年來深度學習的發展,大大提高了圖像識別的準確率。深度學習從大量數據中學習知識(特征),自動完成特征提取與分類任務。但是目前的深度學習技術過于依賴大數據,只有在擁有大量標記訓練樣本的情況下才能夠取得較好的識別效果。本文認為研究如何在標記數據有限的情況下繼續利用深度學習完成物體識別任務具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統圖像識別技術
傳統的圖像識別技術包括:圖像獲取、預處理、特征提取、分類。在圖像輸入后,需要先對圖像進行預處理。一幅標準灰度圖像,如果每個像素的像素值用一個字節表示,灰度值級數就等于256級,每個像素可以是0~255之間的任何一個整數值。一幅沒有經過壓縮處理的640×480分辨率的灰度圖像就需要占據300KB的存儲空間。通常我們需要將圖片的亮度及對比度調整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細化處理(如指紋細化,字符細化等),以便獲取主要信息,減少無關信息。細化操作,可以得到由單像素點組成的圖像輪廓,便于后續特征提取操作。
基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結合相應的閾值得到這些關鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預處理和特征提取之后,我們便能夠對圖像進行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(SVM),人工神經網絡(ANN)等等。K-近鄰算法原理是,當一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應當屬于同一類別。支持向量機是通過尋找支持向量,在特征空間確定最優分類超平面,將兩類樣本分開。人工神經網絡模仿生物大腦中的神經網絡結構,通過誤差反向傳播不斷優化參數,從而得到較好的分類效果。
3 基于深度學習的圖像識別技術
一般認為深度學習技術是由Hinton及其學生于2006年提出的,其屬于人工神經網絡分支。深度神經網絡模仿人腦的神經機制來分析樣本,并盡可能地對樣本的特征進行更深度的學習。以圖片為例,利用深度學習技術對樣本的特征進行學習時,由低層特征到高層特征越來越抽象,越來越能表達語義概念。當樣本輸入后,首先對圖像進行卷積與下采樣操作,卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入,深度學習技術可以自動學習得到較好的特征提取器(卷積參數)。深度學習的訓練過程,首先將當前層的輸出作為下一層的輸入,進行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯合優化,即同時優化所有層,目標是分類誤差最小化。
傳統的深度神經網絡往往網絡中的節點數太過龐大,難以訓練。人們構造出卷積神經網絡,以權值共享的方式減少了節點數量,從而能夠加深學習的深度,使系統能學習到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學習網絡結構有AlexNet、GoogLeNet、ResNet等。
與傳統識別技術相比,深度學習技術具有以下優勢:
(1)無需人工設計特征,系統可以自行學習歸納出特征。
(2)識別準確度高,深度學習在圖像識別方面的錯誤率已經低于人類平均水平,在可預見的將來,計算機將大量代替人力進行與圖像識別技術有關的活動。
(3)使用簡單,易于工業化,深度學習由于不需要領域的專家知識,能夠快速實現并商業化,國內較知名的深度學習創業公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學習具備諸多優點,但目前來看深度學習仍有許多不足之處。首先,由于深度學習模型為非凸函數,對其的理論研究十分困難,缺乏理論保證。在對數據進行調整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學習過于依賴數據量和計算資源。對一個新概念的學習,往往需要數百個甚至更多有標記的樣本。當遇到有標記的樣本難以獲取或者代價太大時,深度學習就無法取得好的學習效果。并且深度學習需要十分昂貴的高性能GPU,這使得深度學習難以平民化。目前深度學習訓練速度較慢,往往需要幾天甚至一個月。其模型擴展性差,缺少“舉一反三”的能力,樣本稍加變化,系統性能便會迅速下降。目前的深度學習屬于靜態過程,與環境缺乏交互。
對其的解決方案目前主要有兩點:
(1)針對于模型擴展性差的問題,通過引入遷移學習,研究不同任務或數據之間的知識遷移,提高模型的擴展能力、學習速度,同時降低學習成本,便于冷啟動。
(2)與強化學習結合,研究在動態環境下進行深度學習,提高深度學習與環境交互的能力。
參考文獻
[1]蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術綜述與展望[J].計算機研究與發展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術綜述[J].中國圖象圖形學報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學,2016.
[4]孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學習研究進展[J].軟件學報,2015:26-39.
[6]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004:86-100.
關鍵詞:卷積神經網絡;深度學習;年齡分類
0引言
人臉作為人類個體鮮明顯著的生物特征之一,包含著豐富的個人信息。隨著計算機視覺和機器學習技術的發展,相關的人臉識別等技術已成為這些項目任務的熱點課題,并在法醫、電子化客戶關系管理、安防、生物識別和娛樂影音等諸多領域中得到廣泛應用。人臉除了可進行身份認證和識別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機交互和商業智能等應用中,因此年齡估計研究具有重要的科學意義和實用價值。
相對于人臉識別,人臉所能表征的年齡信息要受到很多因素的影響,例如不同個體的基因差異、生活習慣、環境、抗壓能力、健康情況和種族差別等有很大的關系。同時,相同個體因發型、化妝和表情的不同也會影響年齡的估計。因此,如果要基于傳統的分類算法(如支持向量機)并利用人臉圖像信息來進行年齡分類將很難得到理想的結果。針對這些問題,目前的研究還相對不足,如果能有效解決上述問題,對大部分潛在的應用領域也都將帶來深刻的影響。
1相關工作
年齡分類的主要流程是先根據人臉圖像獲取特征,再通過機器學習方法構建模型,通過把年齡分為多個年齡區段,即每個年齡段對應一個類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個二分類或者多分類的分類問題來進行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強調重要特征點的選擇。2002年Lanitis等人提出了能自動對年齡實現估計的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關年齡估計技術的研究發展。王紹宇等人還基于SMV采用生物特征對人進行分類,分為小孩和成人。此外在2016年,董遠等人更將遷移學習和卷積神經網絡用于人的年齡和性別分類。
關鍵字:計算機視覺;作物病害診斷;進展;模式識別
中圖分類號:TP311 文獻標識號:A 文章編號:2095-2163(2015)02-
The Research Development of Computer Vision in the Plant Disease Diagnosis
PU Yongxian
(Computer Science Dept .Dehong Teachers'college, Dehong Yunnan 678400, China)
Abstract: according to the statistics, crop yield loss caused by disease in more than 12% on average, disease occurs not only affect the production, also decreased the quality of the product. Research by computer vision technology realizes fast and accurate diagnosis of crop disease, and provides scientific basis for disease prevention and control, which is the urgent demand of agricultural informatization development. Articles on computer vision technology is applied to the crop disease diagnosis has carried on the detailed analysis and research, in order to get these new technologies in the current situation of crop disease diagnosis each link, points out the shortages of computer vision in the diagnosis of crop diseases and research direction. The study on the development of crop disease intelligent detection technology will play an important role.
Key words:Computer Vision; Crop Disease Diagnosis; Progress; Pattern Recognition
0引言
在作物生產中,病害是制約作物質與量的重要因素。病害發生,往往致使作物的使用價值降低,甚至還會導致大面積減產,乃至絕收,造成巨大的經濟損失。因此,在作物生長過程中,病害防治是個關鍵的問題之一。因各種原因植保人員匱乏,而種植戶個體素質差異及受一些主觀人為因素的影響,對作物病害診斷存在主觀性、局限性、模糊性等,不能對作物病害的類型及受害程度做出客觀、定量的分析與判斷,結果要么是藥量不對、要么是藥不對癥,嚴重影響了作物的質與量。
計算機視覺也稱為機器視覺,是研究如何用計算機來模擬和再現人類視覺功能的科學,也被稱為圖像理解和圖像分析,是人工智能領域的一個重要分支。隨著計算機技術、圖像處理和人工智能等學科的發展,以及數碼相機、手機等攝像工具像素的提高,將機器視覺用于作物病害診斷,實現作物病害的無損檢測、快速診斷提供了新的途徑和方法[1]。報道最早的是在1989年穗波信雄等人[2]對采集的缺乏鈣、鐵、鎂營養元素的茨菇葉片圖像進行研究,在RGB模型中,利用直方圖分析了正常和病態的顏色特征。為適應農業信息化的迫切需求,國內外學者對機器視覺用于作物病害診斷進行了研究和實踐,而取得進展主要集中在近10年,涉及的作物有水稻、玉米、小麥、葡萄、黃瓜、甘蔗、蔬菜等病害[3-14],這些研究針對不同作物,從不同側面為作物病害實現自動化診斷提供了理論和實踐基礎。因機器視覺比人眼能更早發現作物因病蟲危害所表現的顏色、紋理、形狀等細微變化,所以利用這種技術病害病害與人工方式相比,提高了診斷的效率和精準度,為作物保護智能化、變量噴藥等提供了科學依據。
本文綜述和歸納了機器視覺診斷作物病害的主要技術:病害圖像采集、增強處理、病斑分割、特征提取、特征優化、病害識別等各環節的方法及現狀,指出了機器視覺診斷作物病害存在的不足和研究方向。該研究對實現作物病害的機器視覺診斷技術的發展將起到重要的推動作用。
1機器視覺識別作物病害的技術路線與進展
作物病害因其病原物種類不同會產生形狀、顏色、紋理等不同的病斑,通常專業植保技術人員就是根據這些特征判斷病害的。機器視覺診斷作物病害是通過無損采集病害圖像,利用圖像處理技術對圖像增強處理、分割病斑,提取病斑特征、優化特征,用模式識別技術診斷病害類別及危害程度,從而為病害的防治提供科學依據。圖1為機器視覺診斷作物病害的技術路線圖。
圖1機器視覺識別作物病害技術路線圖
Fig 1 Technology roadmap of machine vision recognition crop diseases
1.1病害圖像采集與增強處理
(1)病害圖像采集方法。圖像采集是病害識別的第一步,采集的質量會直接影響識別結果。常用采集設備有數碼攝像機、掃描儀、數碼相機、手機等。其中,數碼相機便于攜帶,能滿足圖像清晰度要求,符合野外作業等特點,因此病害圖像采集中用得較多。依據采集環境氛圍分為室內采集和室外(田間)采集兩種。室內采集是將田間采摘到的病害標本經密封保濕后使用CCD攝像機或數碼相機在室內攝取病害的標本圖像。在田間采集圖像中,有學者為了采集到高質量的圖像,采取了一系列措施以減少外界因素的影響。如陳佳娟[5]采用便攜式掃描儀采集圖像,以減少自然光照對圖像質量的影響。徐貴力等人[6]設計了活體采光箱,使照射光變成反射光,從而避免了陰影,以減少誤差。這種規范圖像采集方式雖簡化了后期圖像處理和識別的難度,但基層生產單位可能缺乏配套的技術設備,且會使病害識別過度依賴圖像。為擴展應用范圍和通用性,有學者對在田間自然光照射下直接獲取的病害圖像,用圖像處理和模式識別技術診斷病害進行了研究,如李宗儒[7]用手機拍攝了蘋果的圓斑病、花葉病等5種病害圖像,對病害圖像增強處理、分割病斑,提取病斑特征,用BP神經網絡識別病害,獲得了較好效果。姜武[8]用Canon EOS 50D相機在陽光充足的早晨拍攝山茶葉片圖像,進行顏色分形和RGB強度值提取,用支持向量機對山茶分類識別,取得了較好效果。
(2)圖像增強方法。在采集圖像過程中,因受設備、環境等因素影響,往往使采集到的圖像含有噪聲,若不對其增強處理會影響到病害的正確識別率。病害圖像增強是為病斑分割,特征提取做準備,所以應確保在去除噪聲的同時,保證病斑邊緣不模糊。圖像增強處理根據其處理的空間不同,分為空域法和頻域法。空域法是對圖像本身直接進行濾波操作,而頻域法是對圖像進行轉化,將其轉化到頻率域中去噪處理,之后再還原到圖像的空間域。圖像增強處理常用方法有:直方圖均衡化、對比度增強、均值濾波、中值濾波、高斯濾波、銳化等。王靜[9]利用數碼相機采集了赤星病與野火病兩種病害圖像80幅,采用灰度圖像直方圖均衡化及中值濾波兩種方法對圖像增強處理,實驗表明,中值濾波去噪效果最好,在保留圖像病斑邊緣信息的同時,使病斑輪廓與細節更加清晰,便于后期病斑分割及特征提取。劉芝京[10]采集黃瓜早、中、晚期的角斑病病害圖像,分別用均值濾波、中值濾波、高斯濾波等對圖像處理,實驗表明這些去噪方法中,高斯濾波效果最好。
1.2病斑特征獲取
(1)病斑分割
計算機視覺主要是依據病斑的特征信息診斷病害類別及危害程度的。因此,彩色病斑的準確分割,是后期提取病斑特征,病害類別的客觀、準確診斷的關鍵環節之一。當前針對作物病害圖像分割算法有閾值分割、空間聚類、區域分割、邊緣檢測分割、計算智能方法等。由于作物病害圖像存在背景復雜、病斑區域排列無序、顏色、紋理分布不均、病斑邊界模糊、葉片表面紋理噪聲等干擾,因此尚無一種魯棒性好,且簡單適用的通用方法,也還沒有一種判斷分割是否成功的客觀標準。近年來學者們對作物病害圖像的分割進行了大量研究,試圖尋找一種更具潛力的分割算法,以期獲得更完美,通用的分割方法。趙進輝等人[11]分析了甘蔗病害圖像的顏色與形狀特征,采用面積閾值及鏈碼分割赤腐病和環斑病病斑,收到了較好的效果。管澤鑫等人[12]提取水稻病斑與斑點外輪廓顏色,用最大類間方差法(Otsu[13])分割病斑,取得了較好的效果。邵慶等人[14]以小麥條銹病為例,對獲取的小麥病害圖像采用迭代閾值分割和微分邊緣檢測分割病斑。溫長吉等人[15].用改進蜂群算法優化神經網絡實現玉米病害圖像分割。祁廣云等[16]采用改進的遺傳算法及BP神經網絡對大豆葉片病斑分割,能有效提取病斑區域。毛罕平等人[17-18]利用模糊C均值聚類對棉花、玉米病害圖像的病斑進行分割。張飛云[19]采用K-means硬聚類算法對玉米葉部病害圖像分割,得到彩色病斑。張芳、仁玉剛[20-21]用采分水嶺算法分割黃瓜病害圖像,正確率均在90%以上。劉立波[22]對水稻葉部病害圖像的分割進行研究,結果證明,模糊C均值聚類法的分割效果較好,但速度欠佳,Otsu法分割效果略差,但速度較快。濮永仙[23]利用支持向量機檢測煙草病斑邊緣,以分割彩色病斑。石鳳梅等人[24]利用支持向量機分割水稻稻瘟病彩色圖像病斑,其分割效果優于Otsu法。
(2)病斑特征提取
計算機視覺識別作物病害用到的特征主要有顏色、紋理、形狀等特征。顏色是區分病害類別的重要特征,有RGB、HSI、Lab、YUV等7種顏色空間模型,可得到顏色特征值和顏色特征差異,而模型的選擇會影響到病害識別效果。紋理是指圖像中反復出現的局部模式及排列規則。作物病害圖像正常與病變部分的紋理在粗細、走向上有較大差異。紋理特征有基于灰度直方圖的統計測度,基于灰度共生矩陣的紋理特征和基于游程的紋理描述特征。提取紋理特征的方法有分形維數、小波變換、Gabor小波變換、局域二值模式,以及Gabor分塊局域二值模式方法等。形狀常與目標聯系在一起,形狀特征可以看作是比顏色和紋理更高層的特征,它能直觀描述目標和背景之間的區別,不同病害的病斑在尺寸大小、似圓性、長短軸等方面有不同特性,對旋轉、平移有很強的穩定性。提取病斑形狀特征的方法有弗里曼鏈碼法,傅里葉描述子,多尺度曲率空間方法等。王美麗等人[25] 在HSV顏色空間提取小麥白粉病和銹病病害圖像的顏色和形狀特征,對病害進行識別,識別率達96%以上。蔡清等人[26]對蟲食菜葉圖像處理后,提取其形狀的圓形度、復雜度、球形度等7個特征,用BP神經網絡識別病害。王克如[27]提取玉米病害圖像中紋理特征的能量、熵及慣性矩作為識別病害的特征,實驗得出,以單個特征識別正確識別率達90%,綜合應用三個紋理特征,識別率達100%。田有文等人[28]提取葡萄葉部病斑的顏色、紋理、形狀特征,用支持向量機識別,實驗表明,綜合應用三種特征的識別率比只用單一特征的識別高。李旺[29]以黃瓜葉部3種常見病害圖像為研究對象,提取病斑顏色、紋理和形態特征總共14個特征,用支持向量機識別,實驗表明,分別以顏色、紋理、形狀特征識別,識別率分別為72.23%、90.70%、90.24%,綜合3種特征識別率為96.00%。
(3)特征優化
特征優化是指在特征提取完成后,將特征因子中對識別病害貢獻低的因子丟棄,以確保在降低特征維度的同時,能提高病害的識別率。常用的特征優化方法有:逐步判別法、主成分分析法、遺傳算法等。實踐證明,優化后的特征能更好的表征病害,能在特征減少的情況下提高診斷的正確率。管澤鑫等人[12]提取水稻3種常見病害圖像的形態、顏色、紋理共63個特征,用逐步判別法對特征優化,用貝葉斯判別法識別病害,可使特征數減少到原來的35.2%,而病害準確識別率達97.2%。柴洋等人[30]提取了番茄早疫病、晚疫病等4種葉部病害圖像的顏色、紋理和形狀共18個特征,用逐步判別法優化,最終選取12個特征,用主成分優化后綜合成2個新變量,分別用貝葉斯判別法和用費歇爾判別函數識別病害,均取得了較好的效果。陳麗等人[31]提取了玉米5種葉部病害圖像病斑特征,用遺傳算法優化特征,用概率神經網絡識別病害,識別率為90.4%。彭占武[32]提取了黃瓜6種常見病害圖像的顏色、紋理、形狀特征14個,用遺傳算法優化得到8個特征,用模糊識別模式識別病害,其識別率達93.3%。濮永仙[33]提取了煙草常見病害圖像的顏色、紋理及形態共26個特征,用雙編碼遺傳算法與支持向量機結合優化特征,最后得到16個特征,該方法與沒有采用遺傳算法的支持向量機識別相比,在同等條件下,特征向量減少了38%,正確率提高了6.29%。所謂雙編碼遺傳算法,即二進制編碼和實數編碼結合,支持向量機作為底層分類器,分類精度作為遺傳算法的適應度對個體進行評估,在去除冗余特征的同時為保留的特征賦予權重,如圖2所示。韓瑞珍[34]提取了害蟲的顏色、紋理特征共35個,用蟻群算法對特征優化,將35個特征降低到29個,識別準確率從87.4%提高到89.5%。
圖2雙編碼遺傳算法中的個體
Fig 2 Individual in the double coding genetic algorithm
1.3病害模式識別
模式識別也叫模式分類,指依據輸入的原始數據,判斷其類別并采取相應的行為[35]。病害模式識別的任務是依據特征數據由分類器完成分類的,分類器設計和特征描述共同決定了模式識別系統的性能。用于病害識別的模式可分為統計模式、句法結構模式、模糊模式和機器學習方法四類。其中,統計模式識別是用概率統計原理,獲取滿足某種已知分布的特征向量,然后通過決策函數來分類,不同的決策函數能夠產生不同的分類方法。常見的統計模式識別方法有兩種:一是由Neyman決策和貝葉斯決策等構成的基于似然函數的分類方法,另一種是基于距離函數的分類識別方法。模糊模式識別是基于模糊理論利用模糊信息進行模糊分類的,主要方法有最大隸屬原則識別法、接近原則識別法和模糊聚類分析法三種。機器學習指計算機模擬或者實現人類的某些行為,它的應用已涉及很多領域。目前常用于作物病害識別的機器學習方法有人工神經網絡、支持向量機(SVM)、移動中心超球分類器等。其中,支持向量機分類器是目前機器學習領域的研究熱點之一,它能夠較好地解決小樣本、非線性、高維數的分類問題,且具有良好的推廣和泛化能力。神經網絡是基于經驗風險最小化原則,以訓練誤差最小化為優化目標,而SVM以訓練誤差作為優化問題的約束條件,以置信范圍最小化為優化目標,所以SVM的解具有唯一性,也是全局最優[36]。移動中心超球分類器是近年來新提出的一種分類器,它是一種對參考樣本進行壓縮的方法,可以節省空間,但其識別率不如人工神經網絡高。以下是在作物病害診斷中較成功的幾種識別模式及技術進展。
1.3.1 貝葉斯判斷法
貝葉斯判別法是一種典型的基于統計方法的分類器。它的基本原理是將代表模式的特征向量X分到m個類別(C1,C2,…,Cm)中的某一類。操作步驟為:
(1)設樣本有n個屬性(W1,W2,…Wn),每個樣本可看作是n維空間的一個點X=(x1,x2,…,xn);
(2)設有m個不同的類(C1,C2,…,Cm),X是一個未知類別的樣本,預測X的類別為后驗概率最大的那個類別;3)用貝葉斯后驗概率公式計算,并進行比較,依據后驗概率可將樣本X歸到Ci類中,當且僅當>,成立。貝葉斯分類器因其結構簡單、易于擴展等特點,被廣泛用于作物病害診斷。楊昕薇等人[37]對3種寒地水稻常見病害圖像處理、提取特征,用貝葉斯判別法識別病害,其識別率達97.5%。趙玉霞等人[38]提取玉米銹病、灰斑病等5種病斑圖像的特征,利用樸素貝葉斯分類器識別,其識別精度在83%以上。柴阿麗等人[39]提取了番茄早疫病、晚疫病等4種葉部病害圖像病斑的顏色、紋理和形狀特征,優化特征后,用貝葉斯判別法識別病害,其識別率達94.71%。
1.3.2 人工神經網絡識別法
神經網絡技術是目前廣泛使用的一種機器學習方法,其研究工作始于19世紀末20世紀初[40],因具有并行處理、非線性映射、自適應學習、魯棒容錯性等優點,以及采用數據驅動模式,故在模式識別領域得到廣泛應用。人工神經網絡診斷作物病害的基本步驟是:構建神經網絡識別模型,將已提取并優化好的病害圖像特征數據作為分類器的輸入特征矢量對模型訓練,經過訓練后的模型可實現作物病害的分類識別。目前應用于作物病害識別的人工神經網絡主要有:BP神經網絡、概率神經網絡、自組織特征映射網絡,并衍生出模糊神經網絡、量子神經網絡等。BP神經網絡具有較好的自學習性、自適應性、魯棒性和泛化性。概率神經網絡是徑向基網絡的一個重要分支,其分類器是一種有監督的網絡分類器,在識別過程中隨著訓練病害種類的增加[41],其運算速度會減慢。自組織特征映射網絡分類器是于1981年提出的一種由全連接的神經元陣列組成的自組織自學習網絡[42],可以直接或間接地完成數據壓縮、概念表示和分類的任務,多項實驗表明它的病害圖像識別率都在90%以上。模糊神經網絡是模糊理論同神經網絡相結合的產物,它匯集了神經網絡與模糊理論的優點,集學習、聯想、識別、信息處理于一體。量子神經網絡是量子計算理論和人工神經網絡結合的產物,并集成了兩者的優點。王軍英[43]以葡萄發病部位、病斑形狀、病斑顏色和主要癥狀為特征,用改進的BP神經網絡識別病害,識別率達95.36%。譚克竹等人[44]用BP神經網絡識別大豆的灰斑病、霜霉病和斑點病的特征與病害的關系,其輕度病害的識別精度為87.19%,中度病害的識別精度為90.31%,重度病害的識別精度為93.13%。魏清鳳等人[45]利用模糊神經網絡診斷模型以診斷蔬菜病害,其病害識別率達85.5%。張飛云[19]提取了玉米灰斑病、銹病和小斑病病害圖像的顏色、紋理、形狀特征,用量子神經網絡進行病害識別,其平均識別率達94.5%。陳麗等人[31]對田間采集的玉米葉部病害圖像,對圖像分割、特征提取,利用概率神經網絡識別病害,其識別率為90.4%,同樣條件下高于BP神經網絡。
1.3.3 支持向量機識別法
支持向量機[46](Support Vector Machine,簡稱SVM)是Vapnik等人提出的一款新型的機器學習方法。SVM有線性可分和線性不可分兩種情況,采用不同的核函數會有不同的SVM 算法。常用的核函數有:線性核函數、多項式核函數、徑向基核函數、Sigmoid核函數等。SVM在基于數據的機器學習領域,它兼顧訓練誤差和泛化能力,在解決小樣本、非線性、高維數、局部極小值等模式識別問題中表現出許多特有的優勢[47-48],在基于圖像診斷作物病害領域應用越來越多。宋凱等人[49]提取了玉米葉部病害圖像特征,選擇基于SVM的不同的核函數識別病害,其中徑向基核函數的正確識別率為89.6%,多項式核函數為79.2%,Sigmoid核函數的識別性能最差。劉鵬[50]提取甜柿病害圖像的紋理特征和顏色特征采用SVM識別病害,結果表明,當SVM類型為nu-SVR,核函數為Sigmoid,參數C=26、ξ=24時識別效果最好。田有文等人[51]用支持向量機識別黃瓜病害,實驗表明,SVM方法在處理小樣本問題中具有良好的分類效果,線性核函數和徑向基核函數的SVM分類方法在黃瓜病害的識別方面優于其他類型核函數的SVM。越鮮梅[52]提取了向日葵葉部的葉斑病、黑斑病、霜霉病3種病害圖像的顏色矩、紋理特征共9個特征,采用一對一投票決策的SVM多分類模型識別病害,取得了較好的效果。劉立波[22]提取了水稻常見葉部病害圖像的顏色、紋理、形狀等特征,對特征優化后,分別用最近鄰域、BP神經網絡和SVM方法識別病害,其中識別率最高的是SVM,BP神經網絡居中,最近鄰域法最差,BP神經網絡的訓練速度最慢。
2機器視覺識別作物病害存在的問題與進一步研究重點
將計算機視覺用于作物病害診斷,以改變傳統的診斷方式,為種植戶準確診斷病害,以及變量施藥提供了決策支持。目前,計算機視覺診斷作物病害雖然取得了一定的進展,但從研究的深度、應用的范圍和實用化角度看,還存在許多不足,還需進一步深入研究。
2.1機器視覺診斷作物病害存在的問題
筆者查閱了大量文獻,對目前常用的機器視覺識別作物病害的技術進行了研讀,目前機器視覺識別作物病害的技術還不夠成熟,存在以下問題:
(1)在實驗室條件下計算機視覺診斷作物病害正確率高,但應用到田間,難度較大,主要原因是大多研究是在簡單背景下、對少數幾種病害圖像診斷,而對大田復雜背景下診斷多種病害的研究還比較少。
(2)病害圖像分割背景簡單,對于自然狀態和復雜背景下的病害圖像分割有待進一步的研究。
(3)因作物病斑的大小、顏色等圖像特征在不同時期有差異,對于某一發病時期建立的作物病害診斷系統,用于不同發病時期診斷識別率會有所不同。
(4)許多分類算法和分類器都存在各自的優缺點,不能適合所有作物病害識別,沒有統一的評價標準,難以實現各診斷系統之間的客觀比較。
(5)不同研究者使用的病害圖像各不相同,難以比較不同。
(6)機器視覺診斷作物病還是少數專家對某類作物在局部范圍內的研究,很難滿足現實生產的多種作物、不同區域同時診斷的要求。
2.2進一步研究重點
根據以上存在的問題,今后的研究方向和重點為:
(1)機器視覺識別作物病害技術從實驗室向大田擴展時,需綜合考慮所提取的病害圖像特征在復雜背景下的可獲取性、穩定性、可操作性等。
(2)機器視覺診斷作物病害系統應充分考慮不同發病時期,識別特征的變化規律。
(3)研究適合多種作物在復雜背景下實現病斑分割、特征提取等高效的圖像處理算法,在模式識別方面要側重于模糊數學、支持向量機、神經網絡、遺傳算法、組合優化等理論與技術的研究。
(4)建立規范統一的作物病害圖像數據庫,圖像可普遍獲取,建立合理完善的病害分割、特征提取、病害種類識別等系統,以及病害評價標準。
(5)模式識別病害中的算法需進一步發展和優化,建立統一的評判標準,評價方法適合所有的識別算法和各應用領域,采用定量和客觀評價準則,可精確描述算法性能,評判應擺脫人為因素。
參考文獻:
[1]GEORGIEVA K, GEORGIEVA Y, DASKALOV D.Theoretical substantiation of model of system for evaluation a state of vine plants and taking a decision for plant protection activities[J]. Trakia Journal of Sciences (Series Social Sciences),2003,1:30-32.
[2]穗波信雄.圖像處理在植物生長信息提取中的應用[R].日本:農業機械學會關西支部研究會資,1992:63-46.
[3]SASAKI Y , OKAMOTO T. Automatic diagnosis of plantdisease-recognition between healthy and diseased leaf[J]. Journal of the Japanese Society of Agricultural Machinery,1999,61(2):119-126.
[4]陳佳娟,紀壽文,李娟,等.采用計算機視覺進行棉花蟲害程度的自動測定[J].農業工程學報,2001,17(2):157-160.
[5]賈浩.基于計算機視覺的玉米葉部病害識別技術研究[D]. 泰安:山東農業大學,2013.
[6]徐貴力,毛罕平,李萍萍,等.差分百分率直方圖法提取缺素葉片紋理特征[J].農業機械學報,2003,34(2):76-79.
[7]李宗儒.基于圖像分析的蘋果病害識別技術研究[D].楊凌:西北農林科技大學,2010.
[8]姜武.模式識別技術在山茶屬植物數值分類學和葉綠素含量預測中的應用研究[D]. 金華:浙江師范大學,2013.
[9]王靜.基于圖像處理技術的煙葉病害自動識別研究[D]. 昆明:昆明理工大學,2009.
[10]劉芝京.基于圖像處理的黃瓜細菌性角斑病的識別研究[D]. 成都:西華大學.2012.
[11]趙進輝,羅錫文,周志艷.基于顏色與形狀特征的甘蔗病害圖像分割方法[J].農業機械學報,2008,39(9).
[12]管澤鑫,唐健,楊保軍,等.基于圖像的水稻病害識別方法研究[J].中國水稻科學,2010,24(5):497~502.
[13]OTSU N A. Threshold selection method from gray-level histo-gram[J]. IEEE Trans Syst Man Cybenet, 1979, 15: 652-655.
[14]邵慶,張楠,路陽.小麥病害圖像識別處理及形狀特征提取研究[J].農機化研究,2013,35(8):35-37.
[15]溫長吉,王生生,于合龍,等.基于改進蜂群算法優化神經網絡的玉米病害圖像分割[J].農業工程學報,2013,29(13):142-147.
[16]祁廣云,馬曉丹,關海鷗.采用改進的遺傳算法提取大豆葉片病斑圖像[J].農業工程學報.2009,25(5).
[17]毛罕平,張艷誠,胡波.基于模糊C均值聚類的作物病害葉片圖像分割方法研究[J].農業工程學報.2008,24.
[18]張柏毅,朱景福,劉勇.基于模糊C-均值聚類的作物葉部病斑圖像分割[J].智能計算機與應用.2011,3(10).
[19]張云飛.基于量子神經網絡和組合特征參數的玉米葉部病害識別[J].南方農業學報,2013,44(8):1286-1290.
[20]張芳.復雜背景下黃瓜葉部病害識別方法研究[D]. 沈陽:沈陽農業大學,2014.
[21]任玉剛,張建,李淼,等.基于分水嶺算法的作物病害葉片圖像分割方法[J].計算機應用,2012,32(3):752-755.
[22]劉立波.基于圖像的水稻葉部病害診斷技術研究[D]. 北京:中國農業科學院,2010.
[23]濮永仙.基于支持向量機與多特征選擇的作物彩色病斑邊緣檢測[J].計算機應用系統,2014,9(23):118-123.
[24]石鳳梅,趙開才,孟慶林,等.基于支持向量機的水稻稻瘟病圖像分割研究[J].東北農業大學學報,44(2):128-135.
[25]王美麗,牛曉靜,張宏鳴,等.小麥葉部常見病害特征提取及識別技術研究[J].計算機工程與應用, 2014,50(7):154-157.
[26]蔡清,何東健.基于圖像分析的蔬菜食葉害蟲識別技術[J].計算機應用, 2010,7(30):1870-1872.
[27]王克如.基于圖像識別的作物病蟲草害診斷研究[D]. 北京:中國農業科學院,2005.
[28]田有文,李天來,李成華,等.基于支持向量機的葡萄病害圖像識別方法[J].農業工程學報,2007,23(6):175-179.
[29]李旺.基于圖像處理的黃瓜葉部病害識別研究[D]. 長沙:湖南農業大學,2013.
[30]柴洋,王向東.基于圖像處理的溫室大棚中番茄的病害識別[J].模式識別與仿真,2013,32(9):83-88.
[31]陳麗,王蘭英.概率神經網絡在玉米葉部病害識別中的應用[J].農機化研究,2011,(6):145-148.
[32]彭占武.基于圖像處理和模式識別技術的黃瓜病害識別研究[D].長春:吉林農業大學,2007.
[33]濮永仙,余翠蘭.基于雙編碼遺傳算法的支持向量機作物病害圖像識別方法[J].貴州農業科學,2013,7(41)187-191.
[34]韓瑞珍.基于機器視覺的農田害蟲快速槍測與識別研究[D].杭州:浙江大學,2014.
[35]邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2002:284-304.
[36]奉國和.基于聚類的大樣本支持向量研究[J].計算機科學,2006,33(4):145-147.
[37]楊昕薇,譚峰.基于貝葉斯分類器的水稻病害識別處理的研究[J].黑龍江八一農墾大學學報,2012,24(3):64-67.
[38]趙玉霞,王克如,白中英等.基于圖像識別的玉米葉部病害診斷研究[J].中國農業科學 2007,40(4):698-703
[39]柴阿麗,李寶聚等.基于計算機視覺技術的番茄葉部病害識別[J].園藝學報,2010,37(9):1423-1430.
[40]Han Jiawei,Kamber M.數據挖掘概念與技術[M].第二版. 范明,孟小峰,譯.北京:機械工業出社,2007:251-306.
[41]賀鵬,黃林.植物葉片特征提取及識別[J].農機化研究,2008(6):168-170.
[42]楊占華,楊燕.SOM神經網絡算法的研究與進展[J].計算機工程,2006,32(16):201-228.
[43]王軍英.基于BP神經網絡的葡萄病害診斷系統研究[J].農業信息網,2013,8:30-33.
[44]譚克竹,沈維政.基于BP神經網絡的大豆葉片病害診斷模型的研究[J].控制理論與應用,2013,32(12):5-7.
[45]魏清鳳,羅長壽,曹承忠,等.基于模糊神經網絡的蔬菜病害診斷模型研究[J].河南農業科學,2013,(9):4224-4227.
[46]BURGOS-ARTIST X P, RIBERA A, TELLAECHE A, et al. Improving weed pressure assessment using digital images from an experience-based reasoning approach [J]. Computers and Electronics in Agriculture, 2009, 65(2): 176-185.
[47] BURGES C J C. A tutorial on support vector machines for pattern recognition [J].Data Mining and Knowledge Discovery, 1998, 2(2):121-169.
[48]Steve R Gunn. Support vector machines for classification and regression [R].Southampton: University of Southampton, 1998:1-28.
[49]宋凱,孫曉艷,紀建偉.基于支持向量機的玉米葉部病害識別[J].農業工程學報,2007,23(1):155-157.
[50]劉鵬,屠康,徐洪蕊,等.基于支持向量機的甜柿表面病害識別[J].現代食品科技,2011,27(3):349-353.
[51]田有文,牛妍.支持向量機在黃瓜病害識別中的應用研究[J].農機化研究,2009,(3):36-38.
[52]越鮮梅.基于圖像識別的向日葵葉部病害診斷技術研究[D].呼和浩特:內蒙古工業大學,2013.
1 項目基金:云南省科學研究基金子課題(2013Y571)。
作者簡介:濮永仙( 1976-),女,云南騰沖人,碩士,副教授,主要研究方向:機器視覺診斷作物病害,智能農業方面的研究。
??
??
關鍵詞:卷積神經網絡;人臉識別;大樣本;對抗生成網絡
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓練數據的卷積神經網絡(Convolutional Neural Networks,CNN)在目標檢測、目標識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標簽的數據作為訓練集,學習出具有百萬參數的模型,從而使卷積神經網絡能夠有效提取對象的本質特征;
(2)不斷改進性能優異的網絡結構,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設備(如GPU)的支持,大大提高了CNN訓練模型的效率。其中,將標簽的大量數據作為訓練集起著至關重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現狀和發展方向。
有效的特征是目標識別的關鍵,對人臉識別問題來說亦如此。傳統的主成分分析(Principal Component Analysis,PCA)[4,5],線性區分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績。基于傳統特征的人臉識別受限于環境,此類特征作用在復雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數據集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數據中學習到可調節的參數。即CNN能自喲喲笫據中學習特征,無需人工設計特征。合理有效的特征需從大量數據和大量參數中自動學習獲取,從而達到優秀的識別性能。基于卷積神經網絡的世界領先方法均使用了上百萬的數據,其中最具有代表性的如VGG-Face網絡需要260萬個人臉圖像樣本進行訓練[10],Facebook的DeepFace網絡需要440萬個有標簽的人臉圖像樣本訓練[11]。而Google更使用了2億樣本數據來訓練FaceNet網絡[12]。
1 多樣本獲取現狀
如引言所述,有效合理的特征是目標識別的關鍵,而CNN能從大量有標簽的數據中自動學習圖像的本質特征。獲得圖像特征的關鍵因素是有標簽的大數據。因此許多研究的前提工作均聚焦在人工獲取數據和給數據加標簽方面。然而,獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。雖然也有一些公開免費的數據集,且收集該類數據相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數據集。在這種情況下,缺乏大量樣本直接阻礙了深度學習方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學習技術提取特征需要大量樣本外,已有研究證明[14-19],基于傳統方法的技術同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學習技術自動增加樣本集已成為必要手段。
無論基于傳統方法的識別問題,還是基于深度學習的識別問題,大量有標簽的數據作為訓練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網絡上獲取數據,例如在IMDb上,已經把9萬有標簽的數據集擴大到了26萬 [10]。除此之外,Facebook獲取了440萬個有標簽的人臉進行DeepFace網絡訓練[11],而Google使用2億個數據訓練FaceNet網絡[12]。
目前獲取方法具有如下局限:
(1)現有方法耗時耗力,需要經費支持。獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標簽的數據進行網絡訓練。而大多數情況下的數據收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數據普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫學圖像,遙感圖像,現實中數量本身就少,加之無法直接從網上獲取,因此小樣本很容易導致過擬合。
2 樣本集擴大算法研究現狀
2.1 基于傳統方法的多樣本算法研究現狀
對于傳統的樣本生成算法,如果數據集中有足夠的訓練樣本,均可得到比較滿意的識別結果,但在現實的人臉數據庫中,人臉的數據樣本卻是有限的。文獻[20]表明,增加圖像樣本的數量可以較大幅度提高識別的準確率。
為了增加樣本數量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產生虛擬樣本是一種有效的增加數據集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產生虛擬樣本,從而擴大數據集并提高人臉識別的正確率,Song[22]也提出相應的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數據集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據原始樣本的分布來產生虛擬樣本[19],Liu等也根據圖像本身特性來產生虛擬樣本[23]。
(4)基于數學的多樣本產生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關實驗,其結果如圖1所示。假設數據集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數,代表多個樣本的串聯,即將多個樣本聯合起來得到一個類別的新樣本。
2.2 基于深度學習的多樣本生成算法研究現狀
大量有標簽的訓練數據是機器學習成功的關鍵,尤其對于強大的深度學習技術,大數據集能提高CNN的性能,防止過擬合[25]。為了擴充數據集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉[29]和光照變化[27]等傳統方法。
DeepID[30]采取了增大數據集手法來訓練網絡,只有大的數據集才能使得卷積神經網絡訓練得更加充分,該研究采用兩種方法增大數據集:
(1)選擇采集好的數據,即映入CelebFaces數據集。
(2)將原始數據集中的圖片多尺度、多通道、多區域的切分,然后分別進行訓練,再把得到的向量串聯起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術,該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉應按一定的角度進行3D旋轉,而不僅僅是圖像本身的角度旋轉。合成數據能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數據來估計人體姿勢,Jaderberg等使用合成數據來訓練CNN模型識別自然場景下的文字[31]。這些研究的結果均優于使用剪裁,旋轉等傳統方法。但使用3D合成圖像比較復雜,需要較多的前期工作。
近年來,借助生成對抗網絡(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學者。2014年6月,Goodfellow 等發表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優點及其在圖像生成方面的應用,標志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網絡不穩定,甚至有時該網絡永遠不會開始學習,生成的結果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經網絡連續生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉換成對的圖像。文獻[35]將GAN應用于超分辨率中,該文獻提出了全新的損失函數,使得 GANs 能對大幅降采樣后的圖像恢復其生動紋理和小顆粒細節。另外,Radford 等提出了名為DCGANs的網絡[36],該文獻指出,用大數據集訓練出的 GANs 能學習一整套層級的特征,并具有比其他無監督學習模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網絡GAN的生成器網絡G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區分真假;而判別器D應不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓練樣本的標簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數據真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現實應用意義。雖然研究人員已經對相關問題進行了一些研究,取得了一系列成果,但是多樣本的產生方法缺乏全面、深入的理解,尚未出現具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設計合理有效的構造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網絡,研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
關鍵詞:智能控制;方法;形式
中圖分類號:TP31 文獻標識碼:A
1智能控制的發展
科學技術和生產的迅速發展是智能控制學科發展的動力。以往以單純數學解析結構為基礎的控制理論,其局限性日益明顯。它的局限性主要體現在以下幾方面:其一,在航空、航天、航海及各種工業部門,受控對象日益復雜。受控對象不僅規模大,運動學結構復雜,而且各運動變量之間嚴重耦合,同時還帶有嚴重的不確定性(包括結構和參數兩個方面的不確定性)和非線性。這樣復雜的受控對象使得以確定模型和數學解析方法為基礎的傳統控制理論遇到了困難和挑戰。其二,控制任務和目標的復雜化,也使傳統的控制理論難于勝任。例如,一架性能優良的攻擊機必須具備對空、地多目標自動攻擊的能力,必須具備自動地形跟蹤、回避的能力,必須具備自動導航和高品質自動飛行的能力。這樣復雜的控制任務和控制指標要求,對于傳統的控制理論來說是很困難的。其三,系統工作環境的復雜化,也使傳統的控制理論產生麻煩。例如,在空戰條件下,戰場敵我態勢的突變,氣象條件的突變,敵方對我方系統的破壞和干擾,駕駛員的疲勞和意外失誤,或者系統處于不利的化學物質環境中工作等。上述復雜受控對象,復雜的控制任務和控制目的,復雜的系統運行環境都促使人們研究新的控制方式去實現對它們的有效控制。這就是智能控制產生和發展的背景和動力。
另一方面,近代迅速發展的人工智能技術和計算機技術又為智能控制的發展提供了條件。諸如符號、語言的知識表達,狀態特征的辨識,定性與定量,精確與模糊信號的處理,分析推理,邏輯運算,判斷決策,自然語言理解和視覺系統等一系列擬人思維和功能均可通過計算機來實現。可以說,人工智能和計算機技術為智能控制的發展提供了物質條件。因此,智能控制不僅是科學技術和生產發展的推動和需要,也是科學技術發展的必然趨勢;不僅是控制科學的繼承、發展和提高,也是多學科相結合、共同迸發出的新的科學技術的火花。
2智能控制的主要形式
智能控制這一學科正在蓬勃發展,智能控制的形式也日新月異。目前正在興起和研究的形式很多,其中主要的有如下幾種。
2.1分級遞階智能控制
分級遞階智能控制是從系統工程出發,總結了人工智能與自適應控制、自學習控制和自組織控制的關系之后逐漸形成的,是智能控制最早的理論之一。
分級遞階智能控制有兩種比較重要的理論:知識基/解析混合多層智能控制理論,該理論是由意大利學者A.Villa提出的,可用于解決復雜離散事件系統的控制設計問題。薩里迪斯三級智能控制理論,按照這種理論設計的智能控制系統是由組織級(最高級)、協調級(中間級)和執行級(最下級)三級組成的,并用熵函數來衡量每一一級的執行代價和效果,用熵進行最優決策。這一方法為現代工業、空間探測、核處理和醫學領域應用自主控制系統提供了一個有效的方法。總之,分級遞階智能控制是為求解大系統,復雜系統的尋優、決策和有效控制而提出來的,是研究多級自尋優控制、多級模糊控制、多級專家控制、遞階智能多目標預測控制以及大型空間運動結構系統的三級遞階智能控制的有效方法。
2.2專家系統控制
專家系統控制(包括仿人智能控制和智能PID控制),是工程控制論和專家系統相結合的產物。這類智能控制的特點是專家的知識和經驗與傳統的PID控制器的結合,它所設計產生的控制規則簡單易于實現,如飛行控制過程、化工PH過程的智能控制。在這一類智能控制中,還應指出的一種形式是實時監督控制專家系統,由故障檢測、故障診斷和故障處理三部分組成,這種形式在航天、航空和化工等領域都有大量應用。
2.3模糊控制
該控制方法最早提出者之一是美國著名控制論專家LA.Zadeh,1965他發表了模糊集合論。模糊控制理論主要以模糊數學和規則表組成控制決策。它適用于難以建模的受控對象,但很難做到高精度。
2.4人工神經元網絡控制
20世紀50年代末就已問世的神經元網絡模仿生物神經系統,主要模仿人的大腦的神經網絡模型和信息處理機能,如信息處理、判斷、決策、聯想、記憶、學習等功能,以實現仿人行為的智能控制。
2.5各種智能控制方法的交叉和結合
為了發揮各種不同智能控制方法的優點,克服它們各自的缺點和不足,各種組合、結合、互相交叉滲透的智能控制方法不斷被提出和研究。例如,專家模糊控制、模糊神經網絡控制、專家神經網絡控制、模糊PID控制、專家PID控制和模糊學習控制等。
2.6各種智能控制方法與傳統控制理論方法的交叉和結合
它們既能發揮智能控制的優點,也能發揮傳統控制方法的優點,在工程實際中可獲得完美的控制效果。它不僅是方法研究的交叉,而且也是多學科研究的交叉和發展。這些交叉和結合有模糊變結構控制、自適應模糊控制、自適應神經網絡控制、神經網絡變結構控制和專家模糊PID控制等。上述交叉和結合還可以舉出一些,這些控制有的學者又稱為綜合控制理論和方法。
3智能自主控制
隨著科學技術發展和生產的需要,自主控制,特別是用智能化的方法實現自主控制成為當今的熱門研究課題。智能自主控制也是智能控制的一種形式。什么是智能自主控制,至今沒有統一的定義,根據普遍的理解,給出如下說明。
3.1智能自主控制的含義
智能自主控制系統應該具有如下功能:系統能自動接受控制任務、控制要求和目標,并能對任務、目標和要求自主進行分析、判斷、規劃和決策。系統能自主感知、檢測自身所處的狀態信息、環境信息和干擾信息,并能自主進行融合、分析、識別、判斷和決策;同時能作出能否執行任務的決策。
系統能根據控制任務、目標要求,結合系統所處的當前自身狀態信息、環境信息、干擾信息,自主地進行分析、綜合,并作出執行任務和如何完成任務的控制決策。系統能根據上述決策自主形成控制指令,自主操控系統狀態的行為,并朝著完成控制任務和目標的方向運動。
在上述運動過程中,如果出現任務改變,出現事先未預見的環境變化和自身狀態變化,或出現系統自身損傷,系統能根據任務改變、新的環境(干擾屬環境變化)信息和自身狀態信息的改變,自主地作出分析、判斷,并作出改變系統狀態行為的指令,使系統改變自身的狀態。或自主進行系統重組,以適應外界環境的變化;或自主進行系統的故障診斷、自修復,以適應完成控制任務和目標的要求,最終自主完成控制任務,達到控制的目標。具有上述功能的系統可以認為是智能自主控制系統,或稱為智能自主控制。
3.2智能自主控制系統的應用
智能自主控制的關鍵是用智能化的方法實現完全無人參與的控制過程,并使系統運行達到預期的目的。
現以智能自主控制的行駛車輛為例說明其智能自主控制的過程。假定要使車輛完成由A城去B城送貨的任務。智能自主控制行車系統接受這一任務后,首先要做的工作是,接受任務,分析任務,同時檢測系統自身所處狀態(是否處于運行準備狀態)和車輛重心目前所處的地理坐標位置。第二步,開啟環境狀態檢測識別系統,確定車輛自身的環境坐標位置,即確定車身是否處于地理坐標的道路中間,車頭和道路規定的行車方向是否相同。第三步,將以上檢測結果與任務要求相結合,進行決策分析。根據智能自主控制行車系統存儲的數字地圖,決策、規劃出行車路線,選擇好行車道路,同時根據規劃出的行車路線和道路向行車智能自動駕駛系統發出行車指令,給出行車控制信號。該系統能協調地啟動發動機,能控制油門,方向盤和剎車,駕車按規劃的行車路線和所選擇的道路行駛。第四步,在行車過程中,智能自主控制行車系統中的智能自主導航系統,能不斷記錄行車方向、路線、行車速度和里程,確定車身重心的地理位置坐標;智能環境狀態檢測識別系統能確定車身相對周圍環境的坐標。如果行車中的地理位置坐標偏離了規劃出的行車路線,智能自主控制行車系統應能根據車身目前所處的位置,結合系統攜帶的數字地圖重新規劃出新的行車路線,并能選好行車道路。如果行車中車身偏離了行車道路中間線,或行車前方出現障礙,則智能自主控制行車系統能通過環境視覺識別系統,給出行車方向修正指令和停車指令,避免行車事故,保持行車任務的正常執行。第五步,當行車到達終點B城時,智能自主控制行車系統的智能導航系統能根據行車規劃的終點位置的地理坐標和行車當前的地理位置坐標,判斷行車的終點任務是否完成。
如果行車終點位置到達,則將停車任務轉交給環境狀態檢測識別系統,由該系統搜索選擇停車位置,并將此停車位置與出發前記錄在系統數據庫中的停車位置環境圖像相匹配,匹配無差,則命令行車智能自動駕駛系統關閉油門、發動機,并停車。如果行車過程中,智能自主控制行車系統發生損壞,系統自身應能實現故障自診斷、自修復或系統自重組。這種自修復和系統自重組往往要求能在車輛行進中完成。
結語
智能控制系統的設計是一項復雜的系統工程,隨著科技的發展與進步,有關技術還在不斷的發展之中,但發展迅速,各種不同智能控制水平的系統正在不斷的研究,其實際應用也不斷涌現為人們的生活帶來可極大的便利。
參考文獻
[1]游明坤.智能控制理論的發展及應用[J].軟件導刊,2006.
[2]胡氫,司紀凱.智能控制技術現狀分析及發展[J].煤礦機械,2006.