大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)改革探索

          前言:本站為你精心整理了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)改革探索范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

          大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)改革探索

          從狹義上來(lái)講,大數(shù)據(jù)的構(gòu)成包括兩方面,一方面是大樣本,在統(tǒng)計(jì)學(xué)上要達(dá)到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量,對(duì)于這一問(wèn)題則需要采取壓縮、分解以及降維等方法。

          一、大數(shù)據(jù)及其意義

          大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個(gè)計(jì)算機(jī)存儲(chǔ)的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。1.流數(shù)據(jù):數(shù)據(jù)快速地不斷涌來(lái),現(xiàn)有存儲(chǔ)設(shè)備和計(jì)算能力難以應(yīng)付這種數(shù)據(jù)流(比如歐洲高能粒子對(duì)撞機(jī)所產(chǎn)生的數(shù)據(jù),每秒鐘可以達(dá)到500TB)。2.磁盤存儲(chǔ)限制:數(shù)據(jù)已不能完全存儲(chǔ)在內(nèi)存中,需要硬盤存儲(chǔ)。3.分布存儲(chǔ)狀態(tài):數(shù)據(jù)分布存儲(chǔ)在多個(gè)計(jì)算機(jī)中。4.多線條狀態(tài):數(shù)據(jù)存儲(chǔ)在一個(gè)計(jì)算機(jī)中,多個(gè)處理器共享內(nèi)存。大數(shù)據(jù)的發(fā)展就是對(duì)數(shù)據(jù)產(chǎn)生的機(jī)制進(jìn)行探索,將所產(chǎn)生的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兯枰闹R(shí),進(jìn)而對(duì)相關(guān)政策的制定產(chǎn)生影響。這個(gè)過(guò)程是一個(gè)漫長(zhǎng)的過(guò)程。一個(gè)小孩子隨著年齡的增長(zhǎng)可能會(huì)掌握更多的單詞,但是根據(jù)一個(gè)孩子的年齡確定他掌握的單詞多少則并不科學(xué)。進(jìn)一步來(lái)說(shuō),大數(shù)據(jù)有記錄保存自然與社會(huì)現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù),盡管他們還不清楚如何分析大量的數(shù)據(jù),但是他們相信需要保存現(xiàn)今社會(huì)經(jīng)濟(jì)高速發(fā)展的過(guò)程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標(biāo)本等存放在冰箱里,他們認(rèn)為當(dāng)今的技術(shù)還不足以測(cè)試和分析這些資源,期待今后更先進(jìn)的測(cè)試技術(shù)能夠做到。大數(shù)據(jù)就如同自然和社會(huì)的血液那樣記錄著社會(huì)的現(xiàn)狀和發(fā)展過(guò)程。17世紀(jì)望遠(yuǎn)鏡以及顯微鏡的發(fā)明使人類看到了以前從來(lái)沒(méi)有看到過(guò)的宇宙空間和微生物,擴(kuò)大了人類對(duì)自然的基本認(rèn)識(shí)。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過(guò)數(shù)據(jù)來(lái)觀察和分析自然、經(jīng)濟(jì)、社會(huì)的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù),可以及時(shí)了解疾病的疫情、科學(xué)的動(dòng)態(tài)、社會(huì)的動(dòng)態(tài)。谷歌借助頻繁檢索的詞條能及時(shí)判斷流感從哪傳播,哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會(huì)的歷史長(zhǎng)河,不但能用于探索當(dāng)代的科學(xué)問(wèn)題,將來(lái)也可以用于研究人們食用轉(zhuǎn)基因食品對(duì)子孫后代的影響等追蹤研究問(wèn)題,為未來(lái)留下當(dāng)前的歷史資料。

          二、大數(shù)據(jù)帶來(lái)的變革

          時(shí)代的進(jìn)步有賴于大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展給時(shí)代變革增加了更多的不確定性。就當(dāng)前研究來(lái)看,數(shù)據(jù)的搜集很大程度上依靠所研究問(wèn)題的出現(xiàn)來(lái)推動(dòng)其向前發(fā)展。不過(guò)在不久的將來(lái),隨著大數(shù)據(jù)時(shí)代的到來(lái),人們對(duì)于問(wèn)題的研究將會(huì)由“數(shù)據(jù)”來(lái)驅(qū)動(dòng)。例如,如果我們想去某地旅行或出差,會(huì)首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來(lái)我們可以根據(jù)所查詢的數(shù)據(jù)信息來(lái)決定所要去的目的地。在古希臘時(shí)代,當(dāng)時(shí)的哲學(xué)家無(wú)所不知,號(hào)稱百科全書,到了文藝復(fù)興時(shí)代,隨著學(xué)科的不斷細(xì)化,不同學(xué)科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時(shí)代的到來(lái),大百科全書式的人物將有可能再次出現(xiàn),而不同領(lǐng)域的專家的權(quán)威性將被逐步消弱,隨著大數(shù)據(jù)的不斷發(fā)展,很有可能會(huì)逐漸將學(xué)科專家消亡掉。例如,隨著計(jì)算機(jī)專家和統(tǒng)計(jì)學(xué)家對(duì)數(shù)據(jù)的搜集越來(lái)越多并且處理能力不斷增強(qiáng),他們將逐步成為生命科學(xué)方面的專家。再比如,如果我們掌握了足夠數(shù)量的相關(guān)專業(yè)書籍和日文譯本,就算我們對(duì)日文一無(wú)所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因?yàn)槲覀冇泻芏喾浅?煽康姆g軟件,如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個(gè)領(lǐng)域和學(xué)科得到了應(yīng)用,例如醫(yī)療領(lǐng)域,大數(shù)據(jù)可以指導(dǎo)人們健康飲食,適時(shí)進(jìn)行身體檢查,并且確定檢查項(xiàng)目,幫助醫(yī)生對(duì)患者進(jìn)行疾病診斷等。

          三、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)現(xiàn)狀

          隨著科技的不斷發(fā)展和進(jìn)步,人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化,電子商務(wù)的發(fā)展和各種多媒體信息技術(shù)的飛速發(fā)展和應(yīng)用,給傳統(tǒng)的統(tǒng)計(jì)學(xué)應(yīng)用和教學(xué)帶來(lái)了機(jī)遇的同時(shí)也帶來(lái)了非常大的挑戰(zhàn)。一方面,由于各種信息和數(shù)據(jù)的不斷涌入,人們?cè)诒粍?dòng)搜集著各種數(shù)據(jù)。統(tǒng)計(jì)學(xué)的教學(xué)也需要不斷探索新的模式。另一方面,人們?cè)诒粍?dòng)接受數(shù)據(jù)的同時(shí)也在主動(dòng)搜集數(shù)據(jù)信息,不同學(xué)科有不同的數(shù)據(jù)需要。例如經(jīng)濟(jì)學(xué)領(lǐng)域的專家每天都在搜集各自的調(diào)查數(shù)據(jù)和觀察數(shù)據(jù),而自然科學(xué)領(lǐng)域的專家學(xué)者則不僅搜集宏觀天文數(shù)據(jù),還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同,有的在實(shí)驗(yàn)室通過(guò)試驗(yàn)進(jìn)行數(shù)據(jù)搜集,有的人則通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)搜集和研究。對(duì)于當(dāng)前大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn),美國(guó)科學(xué)院“大數(shù)據(jù)分析委員會(huì)”給出了分析,他們認(rèn)為這些挑戰(zhàn)在于對(duì)不同格式和結(jié)構(gòu)的數(shù)據(jù)的處理方面、對(duì)于數(shù)據(jù)來(lái)源的追蹤方面、對(duì)于共享數(shù)據(jù)的安全性問(wèn)題和完整性問(wèn)題方面、對(duì)于樣本異質(zhì)性和偏倚性處理方面、在對(duì)問(wèn)題進(jìn)行處理時(shí)的決策和分析方面以及對(duì)分布式和并行式在開(kāi)發(fā)時(shí)的算法方面的問(wèn)題等。國(guó)內(nèi)相關(guān)部門也對(duì)這一問(wèn)題進(jìn)行了研討,最早一次是2012年5月在香山召開(kāi)的“大數(shù)據(jù)科學(xué)與工程”會(huì)議,第二次是在2013年5月召開(kāi)的對(duì)于大數(shù)據(jù)原理以及發(fā)展前景的探討會(huì),并同時(shí)制定了相關(guān)的科研計(jì)劃。但關(guān)于大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的探索還非常稀缺。

          四、統(tǒng)計(jì)學(xué)專業(yè)課程改革

          針對(duì)以上所述大數(shù)據(jù)時(shí)代的特點(diǎn)和變革意義以及目前統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的現(xiàn)狀,本文進(jìn)行了相應(yīng)的初步探索。

          (一)改革的總體思路

          將現(xiàn)有的統(tǒng)計(jì)學(xué)頂級(jí)雜志或著名文獻(xiàn)中的成熟的大數(shù)據(jù)分析方法逐步凝練,形成教學(xué)內(nèi)容;將使用R軟件中的函數(shù)包實(shí)現(xiàn)這些大數(shù)據(jù)分析方法。

          (二)改革的具體內(nèi)容

          1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語(yǔ)言的代碼實(shí)現(xiàn)。2.在《非參數(shù)統(tǒng)計(jì)》課程中引入多元非參數(shù)統(tǒng)計(jì)方法(諸如多元符號(hào)、多元秩、多元符號(hào)秩等)、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語(yǔ)言的代碼實(shí)現(xiàn)。3.在《回歸分析》課程中引入回歸樹(shù)、boosting回歸、bagging回歸、隨機(jī)森林回歸等用來(lái)處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動(dòng)態(tài)LASSO回歸等)及其R語(yǔ)言的代碼實(shí)現(xiàn)。4.在《多元統(tǒng)計(jì)分析》課程中引入高維統(tǒng)計(jì)分析方法及其R語(yǔ)言的代碼實(shí)現(xiàn)。5.在工科《概率論與數(shù)理統(tǒng)計(jì)》課程中引入R語(yǔ)言的代碼實(shí)現(xiàn)。

          (三)改革的主要?jiǎng)?chuàng)新點(diǎn)

          在傳統(tǒng)的統(tǒng)計(jì)學(xué)專業(yè)課程教學(xué)中引入最新的大數(shù)據(jù)分析方法及其R語(yǔ)言實(shí)現(xiàn)。其中R語(yǔ)言是區(qū)別SAS、SPSS等傻瓜軟件的結(jié)構(gòu)化程序設(shè)計(jì)語(yǔ)言,可以靈活實(shí)現(xiàn)傻瓜軟件所不能實(shí)現(xiàn)的各種高級(jí)數(shù)據(jù)分析功能。其非常適應(yīng)于大數(shù)據(jù)統(tǒng)計(jì)分析方法的教學(xué)。所以大部分國(guó)內(nèi)外著名大學(xué)已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析方法的教學(xué)。R語(yǔ)言已經(jīng)逐步成為統(tǒng)計(jì)學(xué)系的標(biāo)準(zhǔn)的教學(xué)軟件。

          作者:周茂袁 單位:中國(guó)民航大學(xué)理學(xué)院

          文檔上傳者

          相關(guān)期刊

          數(shù)據(jù)

          省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

          北京市統(tǒng)計(jì)局

          大數(shù)據(jù)

          統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

          工業(yè)和信息化部

          中國(guó)數(shù)據(jù)通信

          部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

          中國(guó)科學(xué)技術(shù)協(xié)會(huì)