前言:本站為你精心整理了多元統計分析方法下實證探究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:聚類分析和因子分析是股票市場多元化統計分析的重要手段,本文將結合兩者對股票市場進行更深入的研究。聚類分析法可以幫助總結一些重要的財務指標,反映一個上市企業的實際盈利能力及其發展前景,為根據一個上市企業的資質優劣等級進行歸類打下良好的基礎;使用因子分析法,從眾多的財務指標中可以得出一個決定股份業績的公因子。本文以鄭州市20多家大型上市企業公司為主要研究對象,運用R軟件,考察股價波動的相關規律并實證分析各種類型企業的特征,最后為廣大投資者提供了相關投資建議。
關鍵詞:聚類分析;因子分析;股票市場;R語言
一、引言
隨著中國股市的快速發展,股票投資已經成為投資者最重要的投資渠道。因此投資者為了自身利益,應高度重視上市公司的經營業績和股票本身的質量。股價是受到各種因素影響的,如當前經濟發展水平、市場是否穩定、政治局面是否和諧等,也會受到投資技術和水平的影響;投資活動又會被股價的經常變動所影響。這樣一來,投資者在股市的投資將會面臨非常大的風險。總而言之,對股票進行聚類分析和因子分析可以幫助廣大投資者分析當前股市基本情況,拓寬投資途徑,也可以為投資其他金融產品提供思路。本文主要運用的分析技術是聚類分析和因子分析。在對一些上市公司進行集中綜合評估時,需要將一些關鍵性的指標進行規范化,然后使用R軟件對其進行系統聚類分析,得到聚類譜系圖,據此針對股份進行劃分。接著運用因子分析方法來對多維變量進行了降維。目的是盡可能減少信息的損失,增強對原始變量的整體綜合解釋能力。
二、變量選擇及數據來源
本文在2019年20多家鄭州上市公司中,去除數據缺失的股票,共選取22家上市公司作為本次研究對象。選取上述公司2019年的每股收益(X1)、每股凈資產(X2)、每股現金流(X3)、凈資產收益率(X4)、流動比率(X5)、總資產周轉率(X6)、營業總收入增長率(X7)和資產負債率(X8)8項財務指標進行分析,數據從東方財富網獲得。
三、統計方法的數學原理及思想
(一)聚類分析的主要原理及方法聚類分析又稱群分析,是研究樣本或指標分類的多元統計方法。我們所謂的“類”實際上就是一組類似的數學元素,嚴格對這些元素進行數學界限定義很麻煩。在不同的問題中,對于類的界定也是不一樣的。聚類分析的研究內容十分豐富,按其聚類的途徑和方法大致可分為:系統聚類法、動態聚類法、有序樣本聚類法、模糊聚類法。本文采用了系統聚類方式進行了分析。系統聚類法的基本思想如下:設有n個樣品,每個樣品測得m項指標。為了便于比較和計算或者改變數據結構,需要對數據進行變換(標準化轉換、集中化轉換、范圍標準差轉換等)。首先確定了兩種樣品間的距離(或者是相似度系數)和同一種類之間的距離。然后將每一個樣品都看作是一種分類(即n類),這時兩種分類之間的距離和樣本之間的距離要求等價,再把距離最近的兩種分類綜合起來組成新的分類。在重新計算出一個新類和其它一個類之間的距離后,將兩者中距離較小的一個進行了合并。這樣,合并一次就會減少一個樣本類,直到所有的樣本都被合并為一個類。融合的過程通常可以使用譜系聚類圖來描述。
(二)因子分析的主要原理及方法因子分析法是多元化統計分析的一種減維分析方法,是對主成分分析的延伸及發展。因子分析把多個變量組合成若干個因子,在深入地研究了相關陣或者協方差矩形形式下的內部相關性基礎上,揭示了最初的變量和因子之間的相關性。目前,因子分析技術在已經成功地應用到了社會學、心理學、經濟科學等各門專業。因子分析法的矩陣表示為:,即:模型中,是可觀測的隨機向量,(m<p)是不可觀測的隨機向量,與F互不相關。稱為X的公共因子,一般對X的每一個分量都有作用;稱為X的特殊因子,只對起作用。各特殊因子之間以及特殊因子與所有公共因子之間都是互不相關的。其中,因子載荷矩陣是需要計算的,稱為因子載荷。記,則有:上式中,反映了公共貢獻因素對的影響。當時,表示公共因子相對的影響要大于其他特殊因子相對的影響,也可以從的影響力大小看出分量對公共因子的依賴程度。另一方面,對一個指定的公共因子,記,稱為公共因子對X的貢獻。的值越大,反映了公共因子對X的影響也越大。如果我們把載荷矩陣A的各列平方和都計算出來,使相應的貢獻有順序:,我們就能夠以此為依據,找出最有影響的公共因子。
四、數據分析
(一)聚類分析1.引入數據以下為R語言代碼:>data<-read.csv(“C:/Users/ASUS/Desktop/1.csv”)#讀取數據#>n<-as.matrix(data)#將數據變成矩陣形式#>is.matrix(n)#判斷是否變成矩陣形式#2.標準化處理數據標準化是數據分析的基礎工作。筆者選取的8項財務指標性質不同,維度和數量接也不同,如果不加以處理,就會影響數據分析結果。歸一化是數據標準化中最簡單的方法,其目的是將數字轉換為(0,1)之間的小數,將有量綱的數據轉換成無量綱的純量,便于后續的綜合分析。R語言的scale()函數可以進行上述工作。>scale_1=scale(n,center=TRUE,scale=TRUE)#標準化變換#3.系統聚類分析首先用dist()函數計算樣品間距離,再用hclust()函數進行聚類。這里選用最短距離法(single)、最長距離法(complete)、中間距離法(median)和類平均法(average)四種方法求樣品間的距離,然后通過譜系聚類圖進行比較,選出最優的聚類。經過比較,發現用最長距離法求得樣品距離得出來的聚類結果清晰。根據譜系聚類圖,可以看出樣品大致分為七類,利用rect.hclust()函數將聚類圖的分類用框線畫出來。>plot(hc2);re=rect.hclust(hc2,k=7)#畫出聚類圖的七個框線#譜系聚類圖可以非常直觀地顯示聚類過程,也可以非常清晰地顯示其數值分類結果,從中可以更好地了解各種股票的親和力和疏離度。根據圖1聚類的結果將這些股票分成三類:第7個值為一類,第6、16個值為一類;第2、5、8、12、20個值為一類;第3、13、14、15、19、22個值為一類;第9、10、18個值為一類;第1、21個值為一類;第4、11、17個值為一類。然而,僅僅通過聚類分析無法將這些股票與藍籌股、績優股、普通股或劣質股區分開來,因此需要進行因子分析。
(二)因子分析1.判斷提取的公共因子數探索性因子分析最關鍵的就是確定提取的因子個數,這里R語言中“nFactors”包就提供了一套函數用于輔助確定因子個數:>ev<-eigen(cor(scale_1))#獲取特征值#>ap<-parallel(subject=nrow(scale_1),var=ncol(scale_1),rep=100,cent=.05)#subject指樣本個數,var是指變量個數#>nS<-nScree(x=ev$values,aparallel=ap$eigen$qevpea)#確定探索性因子分析中應保留的因子#>plotnScree(nS)#繪制碎石圖#圖2中的橫坐標反映的是各個因子,縱坐標對應各個因子的特征值,可以看出從第4個因子開始,它們的特征值幾乎就沒有變化了。所以從上圖不難看出,選擇三個因子是最佳的。2.提取公共因子可以使用R語言中fa()函數來提取因子,利用極大似然估計法提取未旋轉的公共因子。>fa<-fa(res,nfactors=3,rotate=”none”,fm=”ml”)#極大似然估計法提取因子#圖3中,ProportionVar是方差貢獻率、CumulativeVar是累計方差貢獻率;其中方差貢獻率的值越大,說明相應因子變量越重要,是衡量因子變量重要性的重要指標。累積方差貢獻率是因子方差貢獻和的累加,因子個數越多,累積方差貢獻率越大。根據結果所示,3個因子累計解釋了整個數據集的79%的方差。以不低于80%為累計方差貢獻率的最佳值,79%的累計貢獻率的解釋效果說明較好,聚成3個因子用來解釋變量的效果還是較好的,因此進一步對因子進行分析。3.因子旋轉筆者選用正交旋轉來旋轉上面的結果。正交旋轉將人為地強制3個因子不相關。>fa.varimax<-fa(res,nfactors=3,rotate=”varimax”,fm=”ml”)#正交旋轉#結果顯示因子變得更好解釋了,X1、X2、X3、X7、在第一個因子上載荷較大,X5、X8在第二個因子上載荷較大,X4、X6在第三個因子上載荷較大。繪制正交旋轉后的圖形如圖4所示。>fa.diagram(fa.varimax,digits=3)4.因子得分因子得分計算方式與主成分分析得分一致,用于解釋潛在變量。當包含原始數據時,直接使用score()獲得,據此計算的得分是標準化后的得分,而不是原始結果。>pc<-principal(scale_1,nfactors=3,rotate=”varimax”,scores=T)#因子得分#根據各因子綜合評價得分的計算結果,把各因子之間的方差和貢獻率當做是一個權重,把各因子之間的關系進行線性化的組合就能夠得到一個綜合評估的指標函數:其中,、、為正交旋轉后因子的方差貢獻率。根據上述公式,經過計算可以獲得鄭州市22家上市公司綜合實力得分,如表1所示。
(三)綜合分析根據聚類分析我們僅僅只能得出來鄭州市上市公司的分類,但是并不知道它們經營的優劣。結合因子分析,可以分析這些上市公司的綜合實力,通過比較表1中計算出的各公司綜合實力得分,可以得出以下結論:第一類:思維列控是中國企業綜合經濟能力得分最高的,屬于中國藍籌股,其所獲得的投資價值要遠遠超過其他企業,建議進行投資。第二類:智度股份、天邁科技、設研院、新天科技以及安圖生物,這些公司的綜合實力得分低于第一類,但高于其他公司,而且都是正的,屬于績優股,其投資價值也相對較高,投資者也可以選擇對其進行投資。第三類:城發環境、四方達、宇通客車、中原高速、中原環保、太龍藥業、豫能控股、新開普、三暉電氣、漢威科技、光力科技、鄭煤機、三全食品、輝煌科技,這些公司的綜合實力得分非常接近于零甚至為負數,屬于普通股,其投資價值一般,一般不建議投資。第四類:棕櫚股份以及鄭州煤電,它們是綜合經濟能力非常差的公司,它們的綜合評分均為負且較小,是一種劣質股,沒有什么可以投資的價值。綜上所述,聚類分析與因子分析相結合,基本符合公司的實際情況,可以更準確地分析公司,為投資者投資股票提供更好的依據。
五、結束語
從鄭州市二十多家上市公司的實例中可以看出,將聚類分析和因子分析結合使用來分析公司財務狀況不失為一個好辦法。此外,從多個重要的指標中提取少數因子,根據各家公司的得分來反映其盈利狀況和發展前景,還可以將它們進行分類并給出中肯的評價。最后,多元統計分析有很多方法,共同使用聚類分析和因子分析可以得到更貼合實際的結果,這樣不僅可以為投資者提供清晰的投資思路和建議,也可以為以后的投資活動奠定基礎,減少投資風險。
參考文獻
[1]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005:216-321.
[2]陳章旺,鄧慧麗.對中國各地區固定資產投資價格指數分析[J].經濟研究導刊,2020(12):57-64.
[3]張瑩,齊琴,毛璐,王建軍.居民收入分配影響因素分析——基于省際數據的實證分析[J].新疆財經大學學報,2012(04):70-77.
[4]李國軍.基于R語言多元分析的教育統計應用研究[J].鞍山師范學院學報,2015,17(02):69-74.
作者:陳嬿兮 單位:河南大學歐亞國際學院