前言:本站為你精心整理了聚類分析在遠(yuǎn)程教育的作用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
聚類分析在遠(yuǎn)程教學(xué)中的應(yīng)用
基于聚類的數(shù)據(jù)挖掘技術(shù)則可以根據(jù)學(xué)生的平時及期末考試成績,挖掘出內(nèi)在的影響因素,如學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)習(xí)慣、薄弱章節(jié)、課后練習(xí)等環(huán)節(jié)。得到的總結(jié)分析應(yīng)用于指導(dǎo)學(xué)生學(xué)習(xí)及日常教學(xué),既節(jié)省了大量的練習(xí)時間又能夠獲得良好的學(xué)習(xí)效果。圖2描述了一個基于聚類分析算法的遠(yuǎn)程教育系統(tǒng)的基本結(jié)構(gòu)。其中在成績分析模塊中,加入了基于聚類的智能輔導(dǎo)功能模塊,用于對學(xué)生的測試成績進(jìn)行分析。分析結(jié)果包括選課建議,推薦書目,組卷參數(shù),所在類別特性及成績特性等。系統(tǒng)根據(jù)上述結(jié)果給出學(xué)習(xí)建議和指導(dǎo),同時修改組卷參數(shù)以給出符合學(xué)生學(xué)習(xí)水平和特性的試題;學(xué)生也可以根據(jù)分析結(jié)果進(jìn)行有針對性的學(xué)習(xí),從而提高了整個系統(tǒng)的智能性。
K-均值聚類分析算法改進(jìn)研究
為加快聚類算法的計(jì)算速度,在K均值聚類算法中加入了基于密度閾值的網(wǎng)格聚類方法,利用網(wǎng)格聚類的速度優(yōu)勢,先對樣本空間進(jìn)行網(wǎng)格劃分,通過平滑過濾噪聲,完成第一次聚類。密度閾值較小的離散數(shù)據(jù)應(yīng)用K均值聚類法實(shí)施二次聚類直至條件滿足。
基于網(wǎng)格聚類的K均值算法改進(jìn)令有界定義域集合P={X1,X2,…,Xn},n維空間S=X1×X2×…×Xn,算法的輸入則是一個n維空間的點(diǎn)集Q{q1,q2,…qn},q1={qi1,qi2,…,qin},qij表示第i個點(diǎn)的第j維分量。每個網(wǎng)格單元的密度值D(Ci)設(shè)定為單元中所有點(diǎn)的數(shù)量;在密度閾值的設(shè)定上,文獻(xiàn)[4]中對傳統(tǒng)DB-SCAN算法的改進(jìn),選取網(wǎng)格單元中密度最高的N個點(diǎn)的密度值D(Ci)。通常情況下聚類按照D(Ci)降序排列,如果D(Ci+1)與D(Ci)之間的差值較大則認(rèn)為發(fā)生了跳變,此時設(shè)N=i。算法具體步驟為:(1)將n維空間的每個維劃分成r個不相交且大小相等的區(qū)間,形成Rn個網(wǎng)格單元。每個網(wǎng)格單元在第i維的長度計(jì)算δi=(hi-li)/p,則有第j個區(qū)間段Iij=[li+(j-1)δi,li+jδi]。(2)將數(shù)據(jù)集中的點(diǎn)映射到單元集中,計(jì)算每個網(wǎng)格單元的密度D(Ci)。(3)根據(jù)設(shè)定的密度閾值對網(wǎng)格單元進(jìn)行分類:密度大于Minpts的高密度單元被直接標(biāo)記,密度小于Minpts的低密度單元中的點(diǎn)作為孤立的離散數(shù)據(jù)等待下一步處理。(4)重復(fù)選取聚類未結(jié)束網(wǎng)格單元與其相鄰單元進(jìn)行合并直至所有高密度單元聚類完畢,按照公式(2)計(jì)算出K個聚類中心的值Gi(0)作為初始聚類中心。(5)對于低密度單元中的離散數(shù)據(jù),分別計(jì)算其與初始聚類中心的距離dis(a,Ci),當(dāng)其獲得最小值時有a∈Ci,重復(fù)這一操作至所有離散數(shù)據(jù)聚類完成。(6)重新計(jì)算二次聚類重心Gi(1),如滿足|Gi(1)-Gi(0)|<ε則聚類完畢,否則再次循環(huán)K均值聚類方法直到滿足條件|Gi(m)-Gi(m+1)|<ε。
實(shí)驗(yàn)分析及結(jié)論實(shí)驗(yàn)采用UCIMachineLearningRepository中的經(jīng)典數(shù)據(jù)集Iris,每個樣本有4個屬性,分為3個類別共150個樣本。本文算法GKC(Grid-basedandK-meansClusteringMethod)與DBSCAN和傳統(tǒng)K均值聚類法分別進(jìn)行測試。GKC算法的時間主要為定位數(shù)據(jù)密集區(qū)域以及初始聚類中心的計(jì)算。其時間復(fù)雜度分別為O(2d×r)和O(K×I×M),I和M代表迭代次數(shù)和離散數(shù)據(jù)數(shù)量。表1顯示了3種算法在聚類運(yùn)行時間上的比較,可以看出本文方案在收斂速度上優(yōu)于另外兩種算法。聚類性能采用純度值進(jìn)行衡量,某一簇的純度值Eij等于簇i與類j的交集。從圖3中可以看出,GKC在純度上優(yōu)于K-means及DBSCAN算法,且純度值曲線波動較小,具更好的穩(wěn)定性。
結(jié)束語
為使遠(yuǎn)程教育的教學(xué)資源得到更好利用,達(dá)到按需教學(xué)的目的,深入研究了聚類分析算法以及該技術(shù)在學(xué)習(xí)評價中的作用,給出了一個聚類算法在遠(yuǎn)程教育教學(xué)中具體應(yīng)用實(shí)例。利用網(wǎng)格聚類的思想對K均值聚類算法進(jìn)行改進(jìn),克服了K值隨機(jī)性帶來的不確定性以及傳統(tǒng)網(wǎng)格聚類方法造成的簇丟失缺陷。該技術(shù)的應(yīng)用有利于提高遠(yuǎn)程教學(xué)系統(tǒng)的智能性,取得良好的教學(xué)效果。
作者:張曉芳單位:武漢民政職業(yè)學(xué)院