前言:本站為你精心整理了關于融合主成分及聚類的糧食主產區范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:為探索我國糧食主產區農業經濟發展水平的區域差異性,采用主成分和聚類相結合的綜合分析方法,對我國13個糧食主產區2015年的農業經濟發展水平指標數據進行分析。根據發展指標評價因子之間存在明顯的相關性特征,用主成分分析方法獲得各個地區的主成分得分,由分析所得的評價模型計算出13個糧食主產區農業經濟發展水平的綜合排名,并經系統聚類將其劃分為4個類別,發現各類別的農業經濟發展水平存在很大的差異。這可為我國糧食主產區農業經濟發展結構的進一步調整提供理論支撐。
關鍵詞:主成分;聚類分析;糧食主產區;農業經濟
0引言
我國屬于農業大國,“三農”是我國社會主義現代化建設初期的一項重要工程[1]。從改革開放以來,伴隨著社會生產力水平的顯著提升,我國的農村經濟得到了顯著的發展,但是仍然存在一定的問題,例如我國農業發展整體不協調,農村區域經濟發展不平衡等。很多學者認為我國農業區域發展差異化主要由地區間自然資源等自然地理因素和區域間經濟發展過程不同的經濟因素引起的,具體表現為:區域GDP非均衡發展、區域城鎮化程度和工業化進程不一以及區域資本市場發育存在差距[2]。上個世紀90年代以來,我國13個糧食主產區糧食生產對我國糧食安全做出了重大貢獻。2014年13個糧食主產區的糧食產量占全國的75%以上,庫存量占全國的71%,13個糧食主產區的農業經濟具有同質性,但也存在很大的差異性。隨著我國農業經濟發展水平的提高,區域差距成為一個不可回避的現實問題,如何處理好地區之間的協同發展,如何解決農業現代化發展存在的問題,是當下研究的熱點[3-5]。因此,為了分析我國糧食主產區農業經濟發展水平的區域差異,本文擬基于2016年中國統計年鑒公布的13個糧食主產區2015年的數據,選取17個具有代表性的指標構成現代農業發展水平評價指標體系,采用主成分和聚類相結合的綜合方法,開展糧食主產區現代農業發展水平的主成分和聚類分析,進而獲得各地區農業經濟發展水平的綜合得分排名,從而得到農業經濟相似的地區,以相互借鑒先進發展經驗,取長補短,相互促進,加快發展步伐。
1分析原理與方法
主成分-聚類分析方法的核心思想是將主成分分析和系統聚類分析融合在一起。在實際應用中,算法首先進行主成分分析,確定分類閾值;然后,根據主成分得分對樣本再進行聚類分析,給出各類別的綜合得分排名。
1.1主成分分析主成分分析是一種基于相關系數或協方差矩陣、對高維變量進行空間降維的分析方法,即研究具有一定相關性的多個指標之間的若干個線性組合,且這幾個線性組合所構成的新指標互不相關、且盡可能多地保留了原有指標的信息。本質上,主成分分析借助于一個正交變換,將指標數據進行標準化處理,然后再根據指標之間的相關性判定分類,確定主成分的個數,最后解釋主成分所包含的意義[6-8]。設有n個樣本,每個樣本觀測有p個指標,(1,2,...,;1,2...,)ijxi=nj=p為觀測值,所構成的矩陣為()ijnpXx×=。主成分分析的流程如下:(1)原始數據集的標準化:*(),(1,2,...,;1,2,...,)ijijjjxx=?xsi=nj=p(1)其中:jx是第j個變量的樣本均值,js是樣本的標準差。經過標準化處理后的數據矩陣為***12,*nX=[x,x,...x]。(2)根據標準化數據矩陣計算協方差矩陣?Σ:11()(),(,1,2,...,)1nilijljlppxxxxijpn∧=×??=??=?????∑∑(2)(3)計算協方差矩陣?Σ的m個特征值,及每個特征值對應的特征向量,記為12(,,w)jjjmjw=ww???,從而獲得主成分jY的線性表達式:*1,(1,2,)pjkjkkYwxjm==∑?=???(3)(4)計算累積貢獻率,獲得滿足要求的r個主成分。通常,要求選取的主成分的方差累積貢獻率達到85%以上。(5)計算所選擇的r個主成分的得分。將原始數據的中心化值代入前r個主成分的表達式中,分別計算出各樣本在r個主成分上得分。
1.2聚類分析即根據樣本的觀測指標,選擇特定的相似性度量,把相似的樣本聚為一類[9-10]。對于類與類之間的距離,在樣品固有特征的基礎上選用組間聯接法,能夠較好地刻畫樣品(糧食主產區)之間的區域差異。系統聚類分析是在樣品距離的基礎上選用組間聯接法,開始將n個樣品聚成一類,然后每次將具有最小距離的兩個類合并,合并后用組間聯接法重新計算類與類之間的距離,再并類,這個過程一直持續到將所有的樣品都并為一類為止。1.3主成分-聚類分析主成分-聚類分析是主成分分析和系統聚類分析融合在一起的一種方法,具體算法[11]如下:(1)確定聚類數。先用主成分分析,得到r個主成分,在此基礎上,用系統聚類法進行聚類分析。最后設置閾值,根據方差分析的思想確定聚類的個數s。(2)計算各個類別的綜合得分;先計算每個樣本的綜合得分1rF?:11rrkkkFwY?==∑?(4)其中:kY是第k個主成分得分,kw是第k個主成分的系數。再計算各個類別的綜合得分()()()()12...,sF=F,F,F,其中(i)F是第i(i=1,2,...,s)類的所有樣本的綜合得分平均值。
2實驗結果與分析
以我國13個糧食主產區2015年的數據為對象,選取17個具有代表性的指標構成現代農業發展水平評價指標體系,具體包括:第一產業地區生產總值比重(%)、人均糧食產量(公頃/人)、城市化率(%)、農村居民人均可支配收入(元)、單位面積農業機械總動力(萬千瓦/千公頃)、有效灌溉面積(千公頃)、單位面積投入化肥(噸/公傾)、谷物單位面積產量(公斤/公頃)、農用化肥施用量(萬噸)、糧食作物播種面積(千公頃)、糧食產量(萬噸)、農林牧漁業總產值(億元)、水庫數(座)、公共財政支出農林水事務(億元)、木材產品產量(萬立方米)、大牲畜年底頭數(萬頭)、水產品產量(萬噸),對這17個指標進行主成分-聚類分析,通過聚類結果產生的糧食主產區區域劃分與我國實際情況的對比分析,一方面驗證算法聚類的有效性,另一方面,為有關業務部門制定合理的農業經濟發展決策提供科學的依據。
2.1主成分分析結果鑒于選取的17個指標之間具有明顯的相關性,首先對我國13個糧食主產區的數據進行主成分分析,如果用主成分分析方法對原有17個變量提取所有特征值(17個),原有變量的所有方差都可被解釋,變量的共同度均為1。若提取6個主成分,得到公因子方差分析表如表1所示,可以看到這17個指標的絕大部分信息都能被這些提取的因子解釋,信息丟失極少,因此可以說因子提取的總體效果較佳。成份得分系數矩陣及其貢獻率的結果,如表2所示。從表2中可以看出,前6個主成分的累計貢獻率達到91.1%,說明前6個主成分包含了全部指標91.1%的數據信息(未被解釋的只有8.9%),且前6個主成分的方差貢獻率分別為:28.3%、26.0%、15.4%、9.9%、5.4%。因此,可以提取前6個主成分來評價13個糧食主產區農業經濟的發展水平。通過公式17*1(1,2,3,4,5,6)jkjkkYwxj==∑=?可得第一、第二、第三、第四、第五和第六主成分表達式,將經過標準化處理后的原始數據代入主成分表達式,可得各個地區在這6個主成分上的得分,如表3所示。結合6個主成分各自的方差貢獻率,以各個主成分的方差貢獻率作為權重進行加權匯總,得到各個地區農業經濟發展水平指標的綜合評價模型,即:1123456F=0.283Y+0.260Y+0.154Y+0.099Y+0.061Y+0.054Y(5)各個地區的綜合得分如表4所示。從表4可以看到,江西和遼寧的綜合得分僅為-1.19、-1.23,它們的綜合得分在13個糧食主產區中綜合得分較低,說明江西和遼寧的農業經濟發展相對于其它地區來說整體情況較差,而河南的綜合得分為1.50,高于其它地區的綜合得分,說明河南的農業經濟發展相對于其它地區來說整體情況較好。
2.2聚類結果在完成主成分分析的基礎上,利用系統聚類分析方法對主成分得分表3進行系統聚類,得到如圖1所示的聚類譜系圖。由聚類譜系圖可以很直觀地看出各個地區的親疏和歸類情況,如果選用某固定距離作為閾值,則由譜系圖可將13個地區劃分成若干個相似群類。本文在充分考慮各個地區農業經濟狀況和綜合得分的情況下,確定分類閾值為4,相應的分類結果為:第一類包括:河南和黑龍江;第二類包括:山東、江蘇;第三類包括:江西、湖南、湖北、安徽、四川、河北;第四類包括:遼寧、內蒙古、吉林。最后計算各個類別的綜合得分,得分越高,表示農業經濟的水平越高,并按照得分的多少對分類結果從大到小排序,具體結果如表5所示。從表5可知,Ⅰ類地區(河南、黑龍江)、Ⅱ類地區(山東、江蘇)的綜合得分系數為正,Ⅲ類(江西、湖南、湖北、安徽、四川、河北)和Ⅳ類(遼寧、內蒙古、吉林)地區的綜合得分系數為負,說明Ⅰ類、Ⅱ類地區的農業經濟的發展水平明顯高于其它兩類。從分析可知,13個糧食主產區之間的農業經濟發展水平是存在差異的,為了縮小地區之間的差距,應該加大對Ⅲ、Ⅳ類地區的農業投入,增加農業機械的使用量,引進最新農業科技,調整農業生產結構,提高農民生活水平。
3討論
本文針對農業經濟發展指標評價因子之間的相關性,運用主成分-聚類分析方法,對我國13個糧食主產區的17個農業經濟發展指標進行綜合分析。根據標準化后的數據計算出各指標的評價權重,然后根據特征值選出主成分,最后對各個地區在主成分上的得分進行系統聚類,根據各個地區和類別之間的得分對地區進行綜合排名,將13個糧食主產區分為4類,各類包含的地區數量不盡相同,可以清晰地對比分析哪幾個地區的農業經濟發展的相似性以及各個地區的農業經濟發展的差異狀況。第一類包括河南和黑龍江。河南是我國的糧食生產大省,具備豐富的資源和農業發展經驗,是糧食農作物的優勢產區,經濟發展水平相對較高;黑龍江擁有連續廣袤的平原,利于大型機械作業,第一產業地區生產總值比重比其它地區的第一產業地區生產總值比重大。這兩個地區的糧食作物面積大,產量高,化肥施用量高,人均糧食產量高,農產品商業化程度高。第二類包括山東和江蘇。這兩個地區的農業經濟水平相對較高,農林牧漁業總產值和農民人均可支配收入相對較高,當地政府也注重農業發展,為農業科技研發水平的不斷提高創造了良好的外部環境。不過仍要兼顧發展資源節約型技術,提高農業信息化和標準化水平,從而進一步提高農業經濟發展水平。第三類包括江西、湖南、湖北、安徽、四川、河北。這幾個地區的農業科技化水平較高,生產效率較高。但是農業經濟發展水平相對于以上兩類地區較低,糧食產量較低,這幾個地區的農林牧漁業總產值有待進一步提升,需加強農業經濟建設,增加投入,提高農業機械化水平。第四類包括遼寧、內蒙古、吉林,這三個地區的現代機械水平有較大的提升空間,提高技術減少要素投入和農業科技水平,降低農產品生產成本,增加農業總產值和農民收入,進而推動農業經濟發展。我國糧食主產區的農業經濟發展水平存在很大差異,主產區的地理區域分布與我國的實際情況基本一致,因此,增加農業機械的使用量,引進最新農業科技,調整農業生產結構,減少要素投入,增加農業總產值和農民收入,許是農業經濟發展水平欠發達地區追趕高水平發展地區的有效途徑。
參考文獻:
[1]崔玉蕾.農業現代化建設中的經濟管理問題與對策思考[J].農業經濟,2016(6):6-8.
[2]董俊迪,夏更壽.農村區域經濟發展不均衡的文化成因及消解策略[J].商業經濟研究,2016(7):151-152.
[3]劉影,肖池偉,李鵬,等.1978-2013年中國糧食主產區“糧-經”關系分析[J].資源科學,2015,37(10):1891-1901.
[4]楊鑫,穆月英.我國農業區域發展差異分析及政策選擇[J].經濟問題探索,2017(2):168-176.
[5]潘世磊.糧食主產區農業現代化發展研究[D].重慶工商大學,2016.
[6]趙薔.主成分分析方法綜述[J].軟件工程,2016,19(6):1-3.
[7]SharpeaJ,FiellerbN.Uncertaintyinfunctionalprincipalcomponentanalysis[J].JournalofAppliedStatistics,2016,43(12):1-15.
[8]LiL,LiuS,PengY,etal.Overviewofprincipalcomponentanalysisalgorithm[J].Optik-InternationalJournalforLightandElectronOptics,2016,127(9):3935-3944.
[9]XuR,WunschD.Surveyofclusteringalgorithms[J].IEEETransactionsonNeuralNetworks,2005,16(3):645-678.
[10]金建國.聚類方法綜述[J].計算機科學,2014,41(S2):288-293.
[11]辛華輝,盛祿,鄧曦,等.主成分—聚類分析方法在城市交通發展指標評價中的應用[J].價值工程,2016(24):76-79.
作者:吳麗萍,林甲祥 單位:福建農林大學計算機與信息學院