前言:本站為你精心整理了時(shí)間序列挖掘技術(shù)范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
[摘要]數(shù)據(jù)挖掘技術(shù)近年來被廣泛用于時(shí)間序列分析,時(shí)間序列挖掘技術(shù)主要包括關(guān)聯(lián)分析、序列分析、分類分析、聚類分析和異常檢測等五類。由于金融領(lǐng)域的時(shí)間序列具有一些重要的特征,因此將各種挖掘方法與金融時(shí)間序列的特征,以及各種傳統(tǒng)的時(shí)間序列分析模型相結(jié)合,是目前金融時(shí)間序列挖掘領(lǐng)域的研究熱點(diǎn)。
[關(guān)鍵詞]時(shí)間序列;金融;數(shù)據(jù)挖掘
一、引言
在金融領(lǐng)域,時(shí)間序列是一種重要的數(shù)據(jù)類型,對時(shí)間序列的分析是金融數(shù)據(jù)分析的一個(gè)重要內(nèi)容。作為數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)分支,時(shí)間序列分析自1960年代起就已經(jīng)得到了廣泛的研究。傳統(tǒng)的金融時(shí)間序列分析方法主要包括基本分析、技術(shù)分析以及各種數(shù)理統(tǒng)計(jì)學(xué)方法等。隨著近年來數(shù)據(jù)規(guī)模的不斷增長以及分析任務(wù)的日益復(fù)雜,數(shù)據(jù)挖掘技術(shù)開始被運(yùn)用到金融時(shí)間序列的分析中。
所謂數(shù)據(jù)挖掘是指從大規(guī)模的數(shù)據(jù)中抽取隱含、未知、有潛在使用價(jià)值的規(guī)則的過程。作為一門交叉學(xué)科,數(shù)據(jù)挖掘集成了許多學(xué)科中成熟的工具和技術(shù),包括數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)以及人工智能等。廣義地說,所有從海量數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律的方法都可以統(tǒng)稱為數(shù)據(jù)挖掘技術(shù)。
本文在對傳統(tǒng)的金融時(shí)間序列分析方法進(jìn)行簡單回顧的基礎(chǔ)上,對當(dāng)前主要的金融時(shí)間序列挖掘技術(shù)進(jìn)行綜述,并指出相關(guān)方法的優(yōu)缺點(diǎn)和需要進(jìn)一步研究的問題,為該領(lǐng)域的進(jìn)一步研究提供基礎(chǔ)。
二、金融時(shí)間序列傳統(tǒng)分析方法
基本分析與技術(shù)分析是最常見的分析方法,主要用于證券與期貨市場中的時(shí)間序列分析。基本分析主要通過對影響證券市場供求關(guān)系的基本因素進(jìn)行分析,從而判斷股票價(jià)格的走勢。技術(shù)分析則通過對歷史數(shù)據(jù)進(jìn)行一些簡單的計(jì)算,得到相關(guān)的技術(shù)指標(biāo)和圖表,從而判斷序列未來的變化趨勢。
另一類主要的金融時(shí)間序列分析方法是數(shù)理統(tǒng)計(jì)方法,這類方法主要包括各種統(tǒng)計(jì)特征的檢驗(yàn)分析、相關(guān)分析、線性/非線性回歸分析、自回歸移動平均(ARMA)分析以及分形分析等,此外,各種多元分析方法也被廣泛用于金融時(shí)間序列分析,如判別分析、主成分分析以及因子分析等。限于篇幅,本文不再詳細(xì)討論這些方法。
三、時(shí)間序列挖掘方法
近年來數(shù)據(jù)挖掘技術(shù)在時(shí)間序列分析領(lǐng)域開始得到廣泛的研究與應(yīng)用,已有大量的文獻(xiàn)提出了各種時(shí)間序列挖掘算法。需要指出的是,雖然這些文獻(xiàn)本質(zhì)上屬于對通用的基礎(chǔ)算法進(jìn)行研究,并不是專門針對金融領(lǐng)域的時(shí)間序列,然而其中許多方法都是以金融時(shí)間序列為例,來說明算法的有效性、準(zhǔn)確度或性能,因此這些算法也在金融領(lǐng)域得到了應(yīng)用。時(shí)間序列挖掘方法主要包括以下幾個(gè)方面。
1.關(guān)聯(lián)分析與序列分析
關(guān)聯(lián)分析與序列分析的目的都是發(fā)現(xiàn)數(shù)據(jù)間的各種相關(guān)聯(lián)系,不同的是,關(guān)聯(lián)分析用于發(fā)現(xiàn)同一時(shí)間段內(nèi)的各種聯(lián)系,而序列分析用于發(fā)現(xiàn)在時(shí)間上具有先后關(guān)系的聯(lián)系。
使用關(guān)聯(lián)與序列分析方法,能夠發(fā)現(xiàn)同一序列的前后變化或不同序列變化間的復(fù)雜關(guān)系。由于傳統(tǒng)的關(guān)聯(lián)與序列挖掘算法主要適用于符號型數(shù)據(jù),因此在對數(shù)值型金融時(shí)間序列進(jìn)行關(guān)聯(lián)與序列分析時(shí)一般需要先對序列進(jìn)行符號化。將序列劃分為多個(gè)子序列,根據(jù)子序列的形狀進(jìn)行聚類并符號化,在此基礎(chǔ)上采用序列挖掘算法發(fā)現(xiàn)符號間的規(guī)則。多個(gè)股票在不同時(shí)段的漲跌關(guān)系轉(zhuǎn)換為具有雙時(shí)間維約束的關(guān)聯(lián)規(guī)則模型,并提出相關(guān)的挖掘算法,用于挖掘“當(dāng)某幾種資產(chǎn)的收益率變動超過一定幅度時(shí),哪些資產(chǎn)會在同時(shí)(或間隔一段時(shí)間后)有同樣(或相反)的表現(xiàn)”這類復(fù)雜的規(guī)則。一種基于“重要點(diǎn)”的方法將時(shí)間序列逐段符號化,并提出了一種基于互關(guān)聯(lián)后繼樹模型的時(shí)間序列關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法。
2.相似性查找
相似性查找是時(shí)間序列挖掘領(lǐng)域的一個(gè)重要研究方向。所謂相似性查找是指對于給定的目標(biāo)序列Q,根據(jù)某種相似性度量函數(shù),尋找與Q最相似的序列Qk。時(shí)間序列的相似性查找分為全序列匹配和子序列匹配兩大類,全序列匹配是指所查找的序列與目標(biāo)序列Q具有相同的長度;子序列匹配則是指在一個(gè)更長的序列中,尋找與目標(biāo)序列Q相似的所有子序列。相似性查找在金融領(lǐng)域典型的應(yīng)用是,根據(jù)圖形上的相似性,尋找與某種資產(chǎn)的價(jià)格(或收益率)變動情況比較接近的其他資產(chǎn)。
由于金融時(shí)間序列一般都跨越較長的時(shí)間段,理論上甚至具有無限長度,因此這類數(shù)據(jù)都表現(xiàn)出高維甚至是超高維的特征。由于大多數(shù)相似性度量函數(shù)(如歐氏距離函數(shù))在處理高維數(shù)據(jù)時(shí)性能都急劇下降,因此對于這類數(shù)據(jù),一般先采用某種方法對序列進(jìn)行維約簡,即將原始序列變換到低維空間,在此基礎(chǔ)上再比較序列間的相似性。常見的時(shí)間序列維約簡方法包括離散傅立葉變換、離散小波變換、逐段線性描述等。除了維約簡方法,相似性度量函數(shù)也是這一問題的研究熱點(diǎn)。
3.聚類分析
聚類分析的目的是把整個(gè)目標(biāo)數(shù)據(jù)分成多個(gè)不同的簇,使得每個(gè)簇中的數(shù)據(jù)盡可能相似,而不同簇中的數(shù)據(jù)具有明顯的差別。在金融領(lǐng)域,聚類分析對于板塊研究、投資組合模型的構(gòu)建以及客戶交易模式研究等都有著重要的意義。
由于時(shí)間序列的聚類分析同樣需要進(jìn)行序列間的相似性度量,因此與相似性查找類似,在聚類分析之前一般先對序列進(jìn)行維約簡。使用離散傅立葉變換對序列進(jìn)行維約簡,在此基礎(chǔ)上使用歐氏距離進(jìn)行聚類,與此類似,研究了基于離散小波變換和主成分分析的時(shí)間序列維約簡以及聚類,對基于線性模型的聚類方法進(jìn)行了研究。
研究了基于隱馬爾可夫模型(HMM)的時(shí)間序列聚類,將HMM和期望最大方法相結(jié)合,從而提高了聚類結(jié)果的準(zhǔn)確性。針對由于時(shí)間序列中經(jīng)常存在異常數(shù)據(jù),提出將原始序列根據(jù)中位數(shù)轉(zhuǎn)化為二元時(shí)間序列,在此基礎(chǔ)上進(jìn)行聚類,從而減少異常數(shù)據(jù)的影響。試驗(yàn)結(jié)果表明,當(dāng)序列中存在異常數(shù)據(jù)時(shí),該方法能夠有效地提高聚類結(jié)果的準(zhǔn)確性。
4.分割與逐段描述
時(shí)間序列的分割與逐段描述是指對長度為n的序列Q,將其分為k段(k<<n),對各段分別使用某種模型進(jìn)行描述并記為Q′,使得Q′與Q非常接近。對時(shí)間序列進(jìn)行分割與逐段描述的主要原因有兩個(gè)方面:第一,時(shí)間序列往往跨越較長的時(shí)間段,某些序列在理論上甚至具有無限長度,在此期間數(shù)據(jù)的許多特征都可能發(fā)生變化,對這樣的數(shù)據(jù)用一個(gè)單一的模型來描述是不合適的;第二,時(shí)間序列在演化的過程中,由于受到各種因素的影響,往往具有復(fù)雜的局部特征,使用一些簡單的模型(如線性模型)對序列進(jìn)行逐段描述,丟棄一些細(xì)節(jié)變化信息,對于某些挖掘任務(wù)來說更合適。
由于金融時(shí)間序列經(jīng)常受到眾多非線性因素的影響,并且隨著時(shí)間的推移,各種因素的影響效果也不斷變化,因此金融時(shí)間序列往往呈現(xiàn)出復(fù)雜多變的形態(tài)特征。對金融時(shí)間序列進(jìn)行分割并逐段描述,對許多挖掘任務(wù)而言更有意義。最常用的時(shí)間序列分割方法是使用線性模型對序列進(jìn)行分割與逐段描述,稱為逐段線性描述,對這類分割方法進(jìn)行了詳細(xì)的介紹。一種基于隱馬爾可夫模型的聯(lián)機(jī)時(shí)間序列分割算法,根據(jù)概率密度函數(shù)的變化對序列進(jìn)行分割。
5.異常檢測
異常檢測是時(shí)間序列挖掘中的一個(gè)重要方面。所謂異常是指數(shù)據(jù)集中明顯與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)是由不同的機(jī)制產(chǎn)生的,而非隨機(jī)偏差。異常檢測最先在統(tǒng)計(jì)學(xué)領(lǐng)域得到研究,這些方法通常將數(shù)據(jù)用某個(gè)假定的統(tǒng)計(jì)分布進(jìn)行建模,然后根據(jù)假定的模型和數(shù)據(jù)的實(shí)際分布來確定異常。由于通常無法準(zhǔn)確地確定實(shí)際數(shù)據(jù)的分布形式,并且現(xiàn)實(shí)數(shù)據(jù)往往并不符合任何一種理想的數(shù)學(xué)分布,因此統(tǒng)計(jì)異常檢測方法具有相當(dāng)大的局限性。在時(shí)間序列挖掘領(lǐng)域,序列異常的概念,即當(dāng)掃描序列時(shí),如果某個(gè)數(shù)據(jù)點(diǎn)明顯不同于其前面的序列,這樣的點(diǎn)就被認(rèn)為是異常數(shù)據(jù)。由于序列異常在概念上存在一定的缺陷,因此該方法容易遺漏真正的異常數(shù)據(jù)。使用柱狀圖方法來發(fā)現(xiàn)異常數(shù)據(jù),如果將某個(gè)數(shù)據(jù)從序列中移去,單獨(dú)用一個(gè)桶存放,能夠減少整體柱狀圖的誤差,則該數(shù)據(jù)被認(rèn)為是異常。一種兩階段支持向量回歸的算法,用于檢測金融時(shí)間序列中的異常數(shù)據(jù),以避免異常數(shù)據(jù)對預(yù)測精度產(chǎn)生影響。
四、混合挖掘方法
近年來金融時(shí)間序列分析領(lǐng)域出現(xiàn)一種新的趨勢,即將各種時(shí)間序列挖掘技術(shù)與傳統(tǒng)分析方法和模型相結(jié)合,我們將這些方法稱為混合挖掘方法。與第三節(jié)中的時(shí)間序列挖掘方法不同,這類方法大多針對于金融領(lǐng)域某個(gè)特定的分析任務(wù),或者基于金融時(shí)間序列的某些特征,因此更具有針對性,
當(dāng)前的時(shí)間序列聚類方法分為基于原始數(shù)據(jù)、基于特征量以及基于模型的聚類三類。其中后兩類均屬于混合挖掘方法。一種基于ARMA模型的時(shí)間序列相似性度量和聚類算法,該方法使用ARMA模型對序列進(jìn)行建模,并且將模型的系數(shù)轉(zhuǎn)換為線性預(yù)測編碼倒譜系數(shù)(LPCC)。在此基礎(chǔ)上,對LPCC使用歐氏距離判斷兩個(gè)序列的相似程度并進(jìn)行聚類。對同一個(gè)序列使用多個(gè)ARMA模型建模,以便更準(zhǔn)確地捕獲數(shù)據(jù)的各項(xiàng)特征。結(jié)合期望最大方法,鑒于ARMA模型在金融時(shí)間序列分析中已經(jīng)得到廣泛應(yīng)用,上述方法在金融領(lǐng)域有著重要的意義。
一種新的時(shí)間序列趨勢變動分析方法,該方法將傳統(tǒng)的時(shí)間序列趨勢分析與文本挖掘技術(shù)相結(jié)合,分析證券市場中的各種新聞信息與股票數(shù)據(jù)趨勢變動之間的關(guān)系,從而通過分析相關(guān)的新聞來預(yù)測股票數(shù)據(jù)的變動方向。與此類似,研究了外匯市場中的相關(guān)新聞對匯率波動的影響,從而根據(jù)這些新聞進(jìn)行匯率的短期預(yù)測。
此外,大多數(shù)基于逐段線性描述的時(shí)間序列分割方法都使用了線性回歸模型的相關(guān)特性。一個(gè)常用于描述金融資產(chǎn)波動性的技術(shù)分析指標(biāo)——布?xì)v加信道與逐段線性描述方法相結(jié)合,用于對金融時(shí)間序列進(jìn)行聯(lián)機(jī)分割,在此基礎(chǔ)上進(jìn)行相似性查找以及資產(chǎn)價(jià)格變動的趨勢預(yù)測。
五、對上述方法的評述
基本分析與技術(shù)分析方法主要用于證券與期貨市場中的時(shí)間序列分析,這兩種分析方法雖然計(jì)算簡單并且易于使用,但是無法用于進(jìn)一步分析數(shù)據(jù)中隱藏的其他規(guī)律和各種復(fù)雜的統(tǒng)計(jì)特征。
數(shù)理統(tǒng)計(jì)方法是目前金融時(shí)間序列分析中最重要的方法。但是隨著數(shù)據(jù)量的不斷增加(如金融領(lǐng)域中的高頻和超高頻數(shù)據(jù)),這些方法在分析能力方面存在一定的缺陷。各種統(tǒng)計(jì)分析方法的一個(gè)主要問題在于,其無法有效地處理具有較大規(guī)模的數(shù)據(jù)集。此外數(shù)理統(tǒng)計(jì)分析方法也不適合用于從大量的數(shù)據(jù)中主動地發(fā)現(xiàn)各種潛在的規(guī)則。
雖然近年來出現(xiàn)了大量的時(shí)間序列挖掘方法,然而將這些方法直接用于分析金融時(shí)間序列仍然存在一些不足。其中一個(gè)主要的原因在于不同領(lǐng)域的時(shí)間序列往往具有不同的特征。例如金融領(lǐng)域的時(shí)間序列一般不具有典型的周期性,而這一特征在商業(yè)或氣象領(lǐng)域的時(shí)間序列中則非常明顯。近年來時(shí)間序列挖掘領(lǐng)域的主要研究成果做了一個(gè)詳細(xì)的介紹,并對這些挖掘方法使用大量新的數(shù)據(jù)集進(jìn)行了重新檢驗(yàn)。作者發(fā)現(xiàn)隨著測試數(shù)據(jù)集的不同,這些方法的有效性、性能以及準(zhǔn)確度等都會得到迥異的實(shí)驗(yàn)結(jié)果,有些方法針對某些數(shù)據(jù)集甚至根本無法使用。實(shí)驗(yàn)結(jié)果說明,對于來自不同領(lǐng)域、具有完全不同特征的時(shí)間序列,提出一種普適的挖掘方法是困難的。
我們認(rèn)為金融時(shí)間序列挖掘技術(shù)未來的主要發(fā)展方向是混合挖掘技術(shù),這里的“混合”主要包括以下兩個(gè)方面的內(nèi)容:一方面,各種新的數(shù)據(jù)挖掘算法必須考慮到金融時(shí)間序列所具有的主要特征,即根據(jù)序列的特征研究相關(guān)挖掘算法,基于特征分析的金融時(shí)間序列挖掘進(jìn)行了詳細(xì)研究;另一方面,新的數(shù)據(jù)挖掘算法應(yīng)與傳統(tǒng)分析方法和統(tǒng)計(jì)模型進(jìn)一步結(jié)合,并針對金融領(lǐng)域的特定分析任務(wù),從而保證分析與挖掘工作的有效性。事實(shí)上,傳統(tǒng)的數(shù)理統(tǒng)計(jì)分析方法與模型大多基于嚴(yán)格的統(tǒng)計(jì)數(shù)學(xué)和相關(guān)的金融分析理論,在金融時(shí)間序列分析中發(fā)揮著不可替代的作用。數(shù)據(jù)挖掘技術(shù)則為在海量的金融數(shù)據(jù)中快速、自動、智能化地發(fā)現(xiàn)各種潛在的、有價(jià)值的規(guī)律提供了新的支持。這些方法的結(jié)合,將使得金融時(shí)間序列分析領(lǐng)域具有更廣闊的應(yīng)用前景。
六、進(jìn)一步研究的問題
雖然金融時(shí)間序列挖掘技術(shù)得到了廣泛的研究,但是仍然存在一些有待于進(jìn)一步研究的問題。一方面,金融領(lǐng)域的某些分析任務(wù)或數(shù)據(jù)特征具有一定的特殊性,需要開發(fā)新的數(shù)據(jù)挖掘算法進(jìn)行支持。另一方面,各種時(shí)間序列挖掘技術(shù)在金融領(lǐng)域的應(yīng)用層次也有待于進(jìn)一步深入,例如現(xiàn)有的關(guān)聯(lián)分析與序列分析技術(shù),大多側(cè)重于發(fā)現(xiàn)序列中大量IP-THEN形式的規(guī)則以及這些規(guī)則的可信度。然而如何利用這些規(guī)則,并根據(jù)投資者的風(fēng)險(xiǎn)偏好以及資本金規(guī)模等相關(guān)特征,為其提供個(gè)性化的投資與理財(cái)方案,則需要將數(shù)據(jù)挖掘與相關(guān)的決策優(yōu)化技術(shù)相結(jié)合。
此外,目前金融時(shí)間序列挖掘領(lǐng)域主要關(guān)注的是單變量時(shí)間序列,對多變量時(shí)間序列挖掘的研究則非常少,在金融領(lǐng)域經(jīng)常使用多個(gè)變量描述一種現(xiàn)象或狀態(tài),例如描述股票交易情況的變量一般包括交易價(jià)格、成交量以及換手率等,并且與單變量時(shí)間序列相比,多變量金融時(shí)間序列將會具有一些新的特征(比如協(xié)整性等)。如何根據(jù)這些新的特征,將各種數(shù)據(jù)挖掘技術(shù)與相關(guān)的多變量統(tǒng)計(jì)模型(如向量自回歸模型等)相結(jié)合,從而實(shí)現(xiàn)對多變量金融時(shí)間序列的有效挖掘,這是一個(gè)重要的研究方向。