前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇網(wǎng)絡輿情分析系統(tǒng)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:網(wǎng)絡英語學習生態(tài)系統(tǒng);計算機網(wǎng)絡;情感交互
當計算機播放某多媒體程序的時候,編程人員可以他的思想及情感發(fā)出指令控制該程序的運行,而不是程序單方面執(zhí)行下去,程序在接受到編程人員相應的指令后而相應的做出反應,這一過程及行為,我們稱之為情感交互
人與人之間的直接溝通一般是在雙向交互的情況下實現(xiàn)的,比方說學校的一些具體的管理行為、教學行為及其它種種交往行為。而借助傳統(tǒng)媒體實現(xiàn)的師生溝通大多數(shù)是章向交互的,是教師到學生的,學生的反饋行為一般并不通過傳統(tǒng)媒體來實現(xiàn)。在這個主面,網(wǎng)絡媒體的不同之處在于,借助它可以實現(xiàn)師生間的雙向交互,甚至可以方便地實現(xiàn)學生與校園圍墻以外世界的雙向交流。
在當前的網(wǎng)絡教學嘗試中,師生之間的情感溝通被忽視。學生與教師遠遠相離,客觀上使師生之間的感情溝通比較困難,可是并不見有主動的工作去彌補這些缺陷。在這種情況下,學生很難與教師產(chǎn)生情感上的共鳴,很難產(chǎn)生對教師的喜歡、喜愛乃至不很過分的“崇拜”,無法指望得到這種感情對學習產(chǎn)生積極的影響,更不用說在學生的人格成長方面,沒有教師的行為作風的潛移默化的影響。筆者認為,這就是教師對學生可以產(chǎn)生意義的第三個方面。這種對教師的行為“導航”和情感溝通對于促進學生學習的必要性的認識缺陷,在近期的網(wǎng)絡教學試點工作中一直部分地存在著,直到2000年的長沙會議也沒有看到任何轉機。
在新的媒體群落條件下,教師除借助傳統(tǒng)媒體向學生遞送知識信息外,還增加了借助網(wǎng)絡媒體與學生進一步溝通的機會。理論上,這些溝通作為通常面對面溝通的補充,也可以產(chǎn)生多方面的意義,比方說,可以指導學生的學習,也可以進一步溝通感情,增進師生之間的了解,使教師對學生產(chǎn)生更多人格等方面的影響,促進學生全面發(fā)展。夫子云:“師者,傳道、授業(yè)、解惑也”。這個道,即有為人之道與為學之道的雙重含義。在此作一個小結,在教學活動中,教師與學生的溝通可以認為在三個層面上實現(xiàn)意義:其一,情感溝通;其二、管理溝通;其三、知識導航與傳授溝通。
網(wǎng)絡教學發(fā)展的最終制約瓶頸是教師的注意力資源。當前,一個不負責任的流行觀念就是簡單地將渠道的豐富與溝通的增進對等起來,甚至混淆為一個概念。產(chǎn)生的觀點就是網(wǎng)絡媒體可以幾乎是無限制地擴大招生人數(shù),提高教學效率。估我國,教育事業(yè)的相對落后使得我們急于尋找效率更高,受益面更大的教學模式。這種心情是可以理解。但是經(jīng)驗告訴我們,指望借助某種先進媒體的作用使教育的質(zhì)量和數(shù)量在一夜之間“趕超英美”是不現(xiàn)實的,無疑是式的天真幻想。決定教學規(guī)模及教育水平的最終制約瓶頸是教師的注意力資源,是教師的質(zhì)量與數(shù)量,與之相對應的是社會的教育投入。
教師已經(jīng)不能無視網(wǎng)絡媒體的沖擊,網(wǎng)絡上源源不斷的信息和源源不斷的新理念迫使教師必須有所改變,在這個改變過程中,教育思想的改變也自然而然地發(fā)生了。這正是技術進步推動思想進步的一個生動例子。所幸的是,網(wǎng)絡媒體并不僅僅是使教師陷入被動狀態(tài),它同樣為教師準備了足夠的自我發(fā)展空間,為教師的繼續(xù)學習和提高業(yè)務水平提供了更充分的條件。網(wǎng)絡媒體呼喚教師在新的教育思想指導下進行新的教學方法的嘗試,比方說,教師不僅僅作為知識的傳授者,更多地作為學習的導航者,也作為網(wǎng)絡海洋中知識的導航者。
教師作為知識的傳授者,并不僅僅是刻板地把知識灌輸給學生,而是在了解學生的基礎上將知識恰當有序地傳授給學生。在新的教育理念下,教師更多地扮演引導者的角色,即以引導為軸線,以知識傳授為內(nèi)容。就是說,教師的作用在教學活動方面也可以分為兩個部分,一是作為知識的提供者和傳授者,二是作為知識的導航者。這第二個部分的作用正是當前流行的教育思想所要強調(diào)的。
教師的另外一層管理意義是他在教學活動中同時在承擔著具體學習過程中的“管理”任務。在課堂上:教師對學生就是一個客觀的近在咫尺的行為約束,這個約束在規(guī)定著學生在課堂上可以干什么,不可以干什么;教師隨時對良好的主動積極的學習態(tài)度予以鼓勵,隨時對出現(xiàn)的異常現(xiàn)象進行分析判斷,然后按照自己對教育思想及管理思想的理解予以處理。教師深入課堂的管理是整個學校管理活動的重要末梢,忽視這個末梢,管理活動將是不完善的和低效的,不能保證學習活動高效正常地進行。這種觀念 在一般的教學理論中已經(jīng)是老生常談,但筆者注意到,在過去的有關網(wǎng)絡教學的討論中,這個問題談得太少且經(jīng)常被忽視。
總之,如上所述,教師資源所產(chǎn)生的意義中應該包括有管理意義上的部分,還必然有教學意義上的部分。教師在教學方面的作用也因網(wǎng)絡的出現(xiàn)而受到?jīng)_擊。新的媒介帶來的新觀念首先對一些教師的陳舊教育思想和教學習慣形成沖擊,使教師對教學信息的壟斷地位受到威脅,近使教師不得不重新思考,重新為自己定位,調(diào)整自己的教育思想使之與新的條件相適應;另一方面,新的媒體群落也為教師提供了一個更為廣闊的學習和提高的空間,提供了更為豐富的教學信息的表達手段,使他的教學活動更能豐富多彩、引人入勝,更易于培養(yǎng)和激發(fā)學生的創(chuàng)造力。
參考文獻:
關鍵詞:大數(shù)據(jù) 網(wǎng)絡輿情 數(shù)據(jù)抓取 數(shù)據(jù)存儲 輿情分析
中圖分類號:G206 文獻標識碼:A 文章編號:1674-098X(2017)01(c)-0108-02
S著新興媒體的發(fā)展,互聯(lián)網(wǎng)輿情已經(jīng)在社會發(fā)展中扮演著重要的角色,它已不僅僅局限于個別范圍的使用和拓展,而是演變?yōu)槿窕有偷膮⑴c和討論,所以如何在眾多信息中獲取最全面的輿情數(shù)據(jù),并將輿情數(shù)據(jù)以最快的速度和最靈活的方式展現(xiàn)出來,使輿情在可控的范圍內(nèi)實現(xiàn)最大的社會和商業(yè)價值,顯得尤為重要。
1 網(wǎng)絡輿情
網(wǎng)絡輿情不同于傳統(tǒng)輿情,傳統(tǒng)輿情是民意理論中的一個概念,是民意的一種綜合反映。該文所提到的網(wǎng)絡輿情,是未經(jīng)任何中介包裝和驗證,直接于網(wǎng)上的社會輿情,并以互聯(lián)網(wǎng)為載體,以輿論事件為核心,集民眾情感、態(tài)度、意見、建議、傳播互動和影響力于一身的集合。
因為網(wǎng)絡輿情的傳播介質(zhì)是網(wǎng)絡,網(wǎng)絡既具有公開性又具有隱蔽性,同時需要事件、網(wǎng)民、網(wǎng)民情感,以及通過網(wǎng)絡介質(zhì)的傳播和互動,所以在既公開又隱蔽的環(huán)境中,從眾多的信息中捕獲并抽取出復雜的網(wǎng)民情緒和態(tài)度非常重要。
2 輿情捕獲
由于輿情具有自由性、交互性、多元性、偏差性和突發(fā)性,所以如何從眾多輿情中獲取實時數(shù)據(jù)并服務于大眾,是新興媒體所面臨的嚴峻挑戰(zhàn)和考驗。
2.1 關鍵詞確定
在互聯(lián)網(wǎng)上傳播的信息可以用海量來形容,如果針對輿情盲目進行檢索,猶如大海撈針,不僅得不到我們想要的數(shù)據(jù),還會浪費大量的人力、物力和財力來投入到數(shù)據(jù)的分析中。所以如何在海量的信息中獲取用戶想要的數(shù)據(jù),“關鍵詞”就顯得非常重要,它不僅可以讓我們精確地捕獲到想要的數(shù)據(jù),而且還可以減少臟數(shù)據(jù)的捕獲,大大縮短了輿情分析的時間,提升了輿情分析的反應速率,下面就介紹幾種關鍵詞確定的方法。
(1)定制關鍵詞。關鍵詞的確定可以從輿情分析的發(fā)出者來反向提出,輿情分析的發(fā)出者一定是希望從網(wǎng)絡輿情中得到某種相關信息,那么我們可以從需求提出者和需求分析者的角度來確定關鍵詞,即關鍵詞由用戶提出,并通過需求分析將用戶的表述發(fā)展為定制詞語,并將其定義為用戶定制關鍵詞。根據(jù)用戶定制的關鍵詞來捕獲數(shù)據(jù),是最直接明了的數(shù)據(jù)捕獲方式。
(2)熱門輿情關鍵詞。很多網(wǎng)站如百度、搜狐、Facebook、新浪等幾乎所有的交互網(wǎng)站都會有熱門指數(shù),我們可以借助這些網(wǎng)站自身攜帶的熱門指數(shù),來確定關鍵詞。因為通過熱門輿情關鍵詞來捕獲數(shù)據(jù),一定是網(wǎng)站熱門數(shù)據(jù),這樣不僅可以節(jié)省我們分析確定關鍵詞的時間,而且還可以用最短的時間獲取最多的分析數(shù)據(jù),提高大數(shù)據(jù)在輿情分析中的反應速率。
(3)熱搜輿情關鍵詞。熱搜輿情關鍵詞不同于熱門關鍵詞,由于輿情具有廣泛傳播性,很多人參與到輿情探討中,都是通過網(wǎng)絡搜索并定位的,所以熱搜關鍵詞就是根據(jù)搜索引擎的熱搜排行榜,來確定輿情關鍵詞,通過熱搜排行榜,我們可以第一時間知道并了解網(wǎng)民想要了解的輿論事件。
(4)參考輿情網(wǎng)站。想要找到網(wǎng)絡事件的發(fā)展狀況和原由,最簡單也是最直接的方式,就是找到輿情的網(wǎng)站,很多網(wǎng)站就是網(wǎng)絡輿情事件的源泉。
2.2 數(shù)據(jù)抓取
當我們通過各種方式獲取并確定了關鍵詞之后,如何把關鍵詞變成我們想要的精確數(shù)據(jù),就顯得非常重要。我們可以通過網(wǎng)絡爬蟲技術來獲取輿情數(shù)據(jù)。
當前主流的數(shù)據(jù)抓取模式主要包含4個主要部分:網(wǎng)絡爬蟲技術(Spider)、數(shù)據(jù)處理技術(Data Process)、爬取URL隊列(URL Queue)和數(shù)據(jù)。爬蟲主要是從互聯(lián)網(wǎng)上捕捉網(wǎng)頁內(nèi)容,并從中抽取出需要的內(nèi)容。數(shù)據(jù)處理:對爬蟲抓取的內(nèi)容進行處理。URL隊列:為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL。數(shù)據(jù)包含3個方面:(1)Site URL:需要抓取數(shù)據(jù)網(wǎng)站的URL信息;(2)Spider Data:爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);(3)Dp Data:經(jīng)過dp處理之后的數(shù)據(jù)。
2.3 數(shù)據(jù)存儲
因為網(wǎng)絡輿情具有及時更新和海量的特性,所以我們?nèi)绾螌⒆ト〉降臄?shù)據(jù)實時保存起來,是非常關鍵的,它決定了最后輿情分析的全面性和精確性。一般通過IT技術可以將數(shù)據(jù)存儲到數(shù)據(jù)庫中,下面介紹一下當前主流的3種數(shù)據(jù)庫及其區(qū)別。
Oracle數(shù)據(jù)文件都是采用二進制編碼的文件,而且它可以對SQL在執(zhí)行過程中的解析和優(yōu)化指定統(tǒng)一標準,其中包括RBO、CBO以及HTNT規(guī)則,這些都會使在Oracle數(shù)據(jù)庫中執(zhí)行的SQL擁有極大的優(yōu)化自由,同時也對CPU、內(nèi)存、IO資源方面進行優(yōu)化。
MySQL最大的特點應該屬自由選擇存儲引擎。它的每一個表都是一個文件,都可以選擇合適的存儲引擎。但由于它的存儲引擎是開放式的插件引擎,所以文件的一致性大大降低,并且在SQL優(yōu)化方面,也會有一些不可避免的瓶頸,例如多表關聯(lián)、子查詢優(yōu)化、統(tǒng)計函數(shù)等都是它的弱項,并且MySQL只支持極簡單的HINT。
SQL Server的數(shù)據(jù)架構基本是縱向劃分,分為:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL執(zhí)行都是逐層,其中Relational Engine中的優(yōu)化器,是基于成本的,其工作過程跟Oracle是非常相似的。同時它也支持豐富的HINT,包括:連接提示、查詢提示、表提示。
雖然,這3個數(shù)據(jù)庫各具特色,但是,如果對數(shù)據(jù)安全、存儲等特性沒有特殊要求,通常我們會選取MySQL數(shù)據(jù)庫,因為開源而且操作相對簡單。
3 輿情分析
如果說輿情數(shù)據(jù)的抓取和存儲目的是在數(shù)據(jù)獲取方面下工夫,那么輿情分析就是通過比較、論證等方法把數(shù)據(jù)通過圖形報表等更加簡潔的方式呈獻給用戶。
每一個輿情事件的本身都有自己的特點,分析設計人員可以根據(jù)不同的特點選擇輿情分析的方法或報表。通常輿情分析方法有連續(xù)接近法、舉例說明法、比較分析法和流程圖法等。通常圖形報表也有很多種,如趨勢圖、比例餅圖、百分比柱圖、流程圖、表格等,分析設計人員根據(jù)輿情的特點選擇合適的圖形呈獻給用戶。
4 結語
通過大數(shù)據(jù)相關技術對輿情進行全方位收集、存儲和分析的過程中,我們既不修飾、篡改輿情事件的真實性,也不隱藏輿情事件的丑陋性,大數(shù)據(jù)的智能捕獲分析,只是將網(wǎng)絡輿情更加清晰形象地呈現(xiàn)給用戶,使用戶在第一時間獲取民眾態(tài)度,掌握民眾意見或建議,并根據(jù)輿情報告的精準分析反饋,及時對輿情事件做出相應的政策,調(diào)整相關的策略,實現(xiàn)商業(yè)和政治利益最大化,創(chuàng)造更多的社會價值,并使網(wǎng)絡輿情健康良性發(fā)展。
參考文獻
[1] 王博.大數(shù)據(jù)時代網(wǎng)絡輿情與社會治理研究[D].云南財經(jīng)大學,2016.
[2] 楊旭東.網(wǎng)絡輿情監(jiān)控系統(tǒng)關鍵技術研究[J].信息網(wǎng)絡安全,2016(9):251-256.
摘要:本文以基于數(shù)據(jù)挖掘的決策支持系統(tǒng)方法整合網(wǎng)絡輿情信息,建立網(wǎng)絡輿情信息倉庫,對非結構化的模糊復雜的信息,運用數(shù)據(jù)挖掘中文本挖掘技術有效分析網(wǎng)絡熱點事件的輿情,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和監(jiān)控輿情危機的能力。
關鍵詞:網(wǎng)絡輿情 數(shù)據(jù)挖掘 決策支持系統(tǒng)
1、引 言
近幾年,隨著Web2. 0的興起與普及,互聯(lián)網(wǎng)已成為一個開放的、個性化的社會環(huán)境形態(tài),對社會穩(wěn)定和國家安全的維護帶來了嚴峻挑戰(zhàn)。但是現(xiàn)在我們政府情報機構網(wǎng)絡安全管理和監(jiān)控能力比較薄弱,難以適應復雜的環(huán)境。因此,建立基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng),對非結構化的模糊復雜的信息,運用文本挖掘技術有效分析網(wǎng)絡輿情事件,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和監(jiān)控能力勢在必行。
2、基于數(shù)據(jù)挖掘的決策支持系統(tǒng)
決策支持系統(tǒng)(DSS) [1]是利用大量信息,數(shù)據(jù)結合眾多模型,通過人機交互,輔助各級決策者實現(xiàn)科學決策的系統(tǒng)。它是融計算機技術、信息、技術、人工智能、管理科學、決策科學等學科和技術于一體的技術繼承系統(tǒng),包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘分析系統(tǒng),由以下三個主體[2]組成:
(1)模型庫系統(tǒng)和數(shù)據(jù)庫系統(tǒng)結合,作為該系統(tǒng)的基礎,為決策問題進行模型計算和定量分析,提供輔助決策信息。
(2)知識庫系統(tǒng)和數(shù)據(jù)挖掘的結合,從數(shù)據(jù)庫和數(shù)據(jù)倉庫中挖掘知識放入專家系統(tǒng)的知識庫中,通過知識推理定性分析,輔助決策。
(3)數(shù)據(jù)倉庫和OLAP,從數(shù)據(jù)倉庫中提取綜合數(shù)據(jù)和信息來反映了其內(nèi)在本質(zhì)。
3、基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)的定位
從網(wǎng)絡輿情預警決策支持系統(tǒng)的功能和實現(xiàn)方式對其定義:基于決策支持系統(tǒng)技術,將聯(lián)機分析處理、數(shù)據(jù)挖掘模型(文本挖掘模型)、數(shù)據(jù)倉庫、知識庫、方法庫等相結合,應用于情報機構的網(wǎng)絡輿情預警中的人機結合系統(tǒng)。
3.1數(shù)據(jù)倉庫
數(shù)據(jù)倉庫[3]的設計要滿足決策支持系統(tǒng)的要求,即數(shù)據(jù)要具備概括性、抽象性、統(tǒng)一性三個特點。所以圖1中數(shù)據(jù)倉庫和部門數(shù)據(jù)庫加上一個虛擬層,實現(xiàn)數(shù)據(jù)挖掘的數(shù)據(jù)清洗,為數(shù)據(jù)倉庫提取有用數(shù)據(jù)。
3.2數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘[4],簡單點說,就是從大量數(shù)據(jù)中尋找規(guī)律的技術,通過處理海量的、不完全的、隨機的、結構復雜的數(shù)據(jù)選擇有用數(shù)據(jù),建立知識模型。網(wǎng)絡輿情預警決策支持系統(tǒng)運用數(shù)據(jù)挖掘中文本挖掘技術,包括自動分類技術、自動關聯(lián)技術、觀點挖掘技術、自動分詞技術、結構化抽取技術以及自動摘要、關鍵詞技術等。
圖1 決策支持結構系統(tǒng)
4、基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)的構建
基于數(shù)據(jù)挖掘的決策支持系統(tǒng)采集網(wǎng)絡中的新聞網(wǎng)頁、論壇、博客、新聞評論,貼吧等網(wǎng)絡資源,發(fā)現(xiàn)突發(fā)性熱點事件,進行熱點跟蹤定位和實時輿情預警,幫助政府及時掌握輿情動向,準確捕捉預警信息,對有較大影響的重要事件快速發(fā)現(xiàn)、快速處理,為政府決策提供信息依據(jù)[5]。
4.1數(shù)據(jù)準備
網(wǎng)絡輿情預警需要多樣化的信息,在整理信息的時候,需要做到全面、準確、及時。本系統(tǒng)涉及的信息有:
文本信息:新聞、博客、產(chǎn)品評論、論壇帖子等文本信息,包括主題、關鍵詞、時間、URL等。
詞匯信息:包括現(xiàn)在詞典中的字或詞和現(xiàn)在網(wǎng)絡用語的語義、適用的語境和是否帶有情感等。
圖像信息:主要是新聞、博客、產(chǎn)品評論、論壇帖子等上的圖片,包括主題、內(nèi)容、時間、URL、瀏覽數(shù)量等。
視頻音頻信息:主要是新聞、博客、產(chǎn)品評論、論壇帖子等上的視頻音頻,包括主題、內(nèi)容、時間、、URL、瀏覽數(shù)量等。
這些來自互聯(lián)網(wǎng)的大量信息,通過收集、整理、存儲、預處理在數(shù)據(jù)庫中作為原始數(shù)據(jù),這些數(shù)據(jù)是離散的、模糊的。
4.2系統(tǒng)功能模塊
根據(jù)網(wǎng)絡輿情預警的規(guī)劃,如輿情分類、情感分類與趨勢預測、輿情檢索以及統(tǒng)計分析等,本系統(tǒng)建立了輿情信息采集管理系統(tǒng)、輿情分類管理系統(tǒng)[6]、輿情來源管理系統(tǒng)、輿情情感分類管理系統(tǒng)和用戶管理系統(tǒng)。
①輿情分類管理系統(tǒng):輿情分類即對海量信息的自動(文本語義分析)分類。通過關鍵字樣本、文件樣本、自定義等把原始信息分類,形成分類別(危害國家安全、危害社會治安、擾亂社會秩序等)的分類庫,分類管理可以對分類的類別數(shù)據(jù)進行增加、刪除、修改等操作。
②輿情信息采集管理系統(tǒng):輿情信息采集管理系統(tǒng)對文本信息、圖像信息、視頻音頻信息的來源,如新聞、博客、產(chǎn)品評論、論壇帖子、網(wǎng)站及其網(wǎng)站的權威性進行分析統(tǒng)計。
③輿情來源管理系統(tǒng):輿情來源管理部門對文本信息、圖像信息、視頻音頻信息的來源,如新聞、博客、產(chǎn)品評論、論壇帖子、網(wǎng)站及其網(wǎng)站的權威性進行分析統(tǒng)計。
④輿情情感分類管理系統(tǒng):輿情分類管理部門從根據(jù)新聞、博客、產(chǎn)品評論、論壇帖子等收集的文本信息、圖像信息、視頻音頻信息,經(jīng)過預處理之后,通過觀點挖掘方法對輿情信息的情感傾向進行分析,及時發(fā)現(xiàn)消極情感的信息,以便迅速做出反應。
⑤輿情統(tǒng)計系統(tǒng):統(tǒng)計輿情分類管理系統(tǒng)和輿情情感分類管理系統(tǒng)的信息,為政府提供報表或報文,供政府決策使用。
5、結 論
基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)可以有效解決現(xiàn)在網(wǎng)絡輿情預警系統(tǒng)中存在的問題,通過文本挖掘技術對非結構化的模糊復雜的信息分析處理,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和控制輿情的能力。
參考文獻:
以近年來在中國興起并急劇發(fā)展的輿情監(jiān)測和分析行業(yè)為例,即通過海量信息采集、智能語義分析、自然語言處理、數(shù)據(jù)挖掘,以及機器學習等技術,不間斷地監(jiān)控網(wǎng)站、論壇、微博、平面媒體等信息,及時、全面、準確地掌握各種信息和網(wǎng)絡動向,從浩瀚的數(shù)據(jù)宇宙中發(fā)掘事件苗頭、歸納輿論觀點傾向、掌握公眾態(tài)度情緒、并結合歷史相似和類似事件進行趨勢預測和應對建議。
互聯(lián)網(wǎng)如今已經(jīng)成為收集民意、了解政府和企業(yè)工作成效的一個非常有效的途徑。然而由于缺乏對互聯(lián)網(wǎng)發(fā)貼等行為的必要監(jiān)管措施,在輿情危機事件發(fā)生后,難以及時有效獲取深層次、高質(zhì)量的網(wǎng)絡輿情信息,經(jīng)常造成輿情危機事件處置工作的被動,因此,北信源輿情分析專家建議應該重視對互聯(lián)網(wǎng)輿情的應對,建立起“監(jiān)測、響應、總結、歸檔”的輿情應對體系。
輿情服務應對大數(shù)據(jù)挑戰(zhàn)
在國內(nèi)市場中,輿情分析類產(chǎn)品很多,產(chǎn)品水平也參差不齊。要選擇優(yōu)秀的產(chǎn)品首先需要選擇技術背景雄厚的生產(chǎn)廠商。北信源經(jīng)過十幾年的發(fā)展,擁有專門的數(shù)據(jù)管理部門和專業(yè)分析團隊,專業(yè)的技術人員對信息的鑒別力、萃取力、掌控力處于全國的領先水平。
對大數(shù)據(jù)的采集加工是整個輿情分析服務的基礎。掌握數(shù)據(jù)抓取能力與輿情解讀能力,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”,是輿情分析的必備技能。北信源網(wǎng)情監(jiān)測平臺采用多線路、加密隧道方式作為互聯(lián)網(wǎng)上公開信息的采集通道,通過自主研發(fā)的爬蟲系統(tǒng),從網(wǎng)上自動獲取頁面信息。北信源輿情搜索引擎使用信息采集技術對全球范圍內(nèi)的網(wǎng)頁進行檢索,通過中文語義特性并結合輿情結構特點而構成的元數(shù)據(jù)搜索技術,能夠提高信息采集的針對性,同時擴大采集范圍的廣度,提升輿情搜索的精準度。另外在采集的速率上,北信源網(wǎng)情監(jiān)測平臺通過“云計算”技術在互聯(lián)網(wǎng)不同位置可任意部署監(jiān)測工作站PC機,實現(xiàn)非重點網(wǎng)站的定時監(jiān)測、重要網(wǎng)站及鏈接全天候監(jiān)測。并根據(jù)網(wǎng)頁及鏈接的重要度,做到對最重要的網(wǎng)站數(shù)據(jù)分鐘級的采集更新。
如何對復雜大數(shù)據(jù)進行解釋是輿情服務的關鍵。數(shù)據(jù)分析的模式是否科學將直接影響數(shù)據(jù)分析的質(zhì)量,決定了輿情產(chǎn)品的可用性。基于數(shù)據(jù)分析,能否提煉出獨到、高質(zhì)量的觀點,在凌亂紛繁的數(shù)據(jù)背后找到更符合客戶要求的輿情產(chǎn)品和服務,并進行針對性的調(diào)整和優(yōu)化,這是大數(shù)據(jù)時代輿情最大的變量。北信源輿情分析引擎,涉及的最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤等計算機文本信息內(nèi)容識別技術。以數(shù)據(jù)挖掘為核心技術, 應用不同的建模基礎,包括關聯(lián)規(guī)則、序列模式、頻繁序列、決策樹分類、神經(jīng)元網(wǎng)絡、線性回歸、Logistic回歸、K-Means聚類、模糊聚類、異常檢測等多種數(shù)據(jù)挖掘算法,結合相應的數(shù)據(jù)挖掘模型可視化方法,用預測模型對輿情數(shù)據(jù)進行預測評分。
對趨勢的研判是大數(shù)據(jù)時代輿情分析的目標。如今人們能夠從浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益,但這遠遠不夠,信息爆炸的時代要求人們不斷增強關聯(lián)輿情信息的分析和預測能力,把服務的重點從單純的收集有效數(shù)據(jù)向對輿情的深入研判拓展。北信源輿情監(jiān)測與分析平臺從情報檢索與分析技術基礎上發(fā)展起來,除了能夠跟蹤、協(xié)助解決關聯(lián)輿情,還能夠輔以經(jīng)過分析后的決策參考。
輿情面臨變革
大數(shù)據(jù)時代的大輿情充分反映數(shù)據(jù)爆炸背景下的數(shù)據(jù)處理與應用需求,這是大數(shù)據(jù)時代最大的輿情變革。北信源網(wǎng)情監(jiān)測與分析管理平臺成功地實現(xiàn)了針對互聯(lián)網(wǎng)海量輿情自動實時的監(jiān)測、自動內(nèi)容分析和自動報警的功能,有效地解決了傳統(tǒng)的以人工方式對輿情監(jiān)測的實施難題,加快了網(wǎng)絡輿論的監(jiān)管效率,有利于組織力量展開信息整理、分析、引導和應對工作,提高用戶對網(wǎng)絡突發(fā)輿情的公共事件應對能力,加強互聯(lián)網(wǎng)“大數(shù)據(jù)”分析研判。并能夠協(xié)助用戶建立起輿情監(jiān)測應對體系:
快速發(fā)現(xiàn):實踐表明,在互聯(lián)網(wǎng)輿情出現(xiàn)后4小時內(nèi)是控制輿情的黃金時間,被稱為“黃金4小時”。
Research of public opinion monitoring system in campus network based on
Nutch and meta search engine technology
Nie Yan
(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)
Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.
Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval
0 引言
高校師生是網(wǎng)絡利用率極高的一個群體,也是網(wǎng)絡輿情的主要生成力量和影響對象。高校網(wǎng)絡輿情的形成原因主要有三方面:一是由于國內(nèi)外相關熱點問題的觸發(fā),二是校內(nèi)外突發(fā)事件的網(wǎng)上討論,三是與高校師生利益密切相關事情的網(wǎng)上訴求。近年來,由于社會上網(wǎng)絡輿情導致政府信任危機的事件不斷發(fā)生,高校也逐漸重視了網(wǎng)絡輿情突發(fā)事件的應對機制研究。同時,隨著公安部對網(wǎng)絡信息安全工作的逐步加強,高校利用自身技術優(yōu)勢,自主構建輿情監(jiān)測系統(tǒng)并建立一套完善的應對機制正逐漸成為高校網(wǎng)絡信息安全工作的重點。因此,在新形勢下,遭遇突發(fā)事件,高校如何能以最快的速度收集網(wǎng)絡上相關信息,跟蹤事態(tài)發(fā)展, 及時向有關部門通報,防范網(wǎng)絡不良輿情的快速擴散和演化,并建立相應的響應機制,實現(xiàn)對網(wǎng)絡輿情的有效管理與控制,使健康的網(wǎng)絡輿情成為維護高校穩(wěn)定,推動社會文明發(fā)展的動力,已經(jīng)成為當前亟需解決的重要課題。
高校的網(wǎng)絡輿情信息主要來自兩部分,一是內(nèi)部獨立的校園網(wǎng)絡,二是外部開放的互聯(lián)網(wǎng)絡。隨著高校校園信息化建設的深入發(fā)展,校園網(wǎng)中網(wǎng)站、論壇、博客等平臺上信息資源數(shù)量呈指數(shù)級增長,僅依靠人工檢索和信息審核的方式無法有效實現(xiàn)對網(wǎng)絡輿情信息的監(jiān)測,急需利用技術手段實現(xiàn)對海量網(wǎng)絡信息的挖掘與分析,快速匯總成輿情信息;互聯(lián)網(wǎng)上信息量十分巨大,通過垂直搜索引擎方式所獲取的與高校相關的信息往往存在查全率不高的缺陷。高校網(wǎng)絡輿情的監(jiān)測,既要考慮信息采集的深度和廣度,又要提高系統(tǒng)的精度與準度;同時對于發(fā)現(xiàn)的輿情信息,要能夠做到快速定位,有效控制。本系統(tǒng)針對上述高校網(wǎng)絡輿情監(jiān)測工作的不足,并結合網(wǎng)絡輿情傳播特點,提出了構建高校網(wǎng)絡輿情監(jiān)測系統(tǒng)的整體方案,并探討高校面對網(wǎng)絡輿情在監(jiān)測、分析、引導和反饋等環(huán)節(jié)的處理方法,從而形成完善的應對機制。
1 系統(tǒng)體系結構
高校網(wǎng)絡輿情監(jiān)測系統(tǒng)主要包括三個功能模塊,分別是:校園網(wǎng)輿情信息采集模塊、互聯(lián)網(wǎng)輿情信息采集模塊、網(wǎng)絡輿情分析與預警模塊,體系結構如圖1所示。
圖1 高校網(wǎng)絡輿情檢測系統(tǒng)體系結構
由于高校對校園網(wǎng)絡具有較大的控制權限,一部分信息數(shù)據(jù)可利用各種信息系統(tǒng)的管理平臺與數(shù)據(jù)庫的訪問權限來獲取;另一部分可利用網(wǎng)絡爬蟲從網(wǎng)頁數(shù)據(jù)中獲取,系統(tǒng)基于Nutch搜索引擎技術對校園網(wǎng)內(nèi)數(shù)據(jù)進行信息采集,采集的深度與廣度都達到了較好的效果。對于互聯(lián)網(wǎng)上的海量網(wǎng)絡信息,如果采用垂直搜索引擎進行數(shù)據(jù)采集,所獲取的數(shù)據(jù)質(zhì)量不高,為此系統(tǒng)采用元搜索引擎技術來獲取互聯(lián)網(wǎng)信息,既提高了信息采集的針對性又擴大了采集范圍。此外,對于某些特定的互聯(lián)網(wǎng)網(wǎng)站,可以采取以上兩種方式相結合的監(jiān)測方式,同時采用網(wǎng)絡爬蟲與元搜索引擎技術,來提高系統(tǒng)的監(jiān)測精度。
網(wǎng)絡輿情分析與預警模塊采用關鍵詞特征庫匹配方式和機器學習算法自動進行網(wǎng)絡輿情監(jiān)測,實現(xiàn)對輿情信息及時準確的發(fā)現(xiàn),并與短信預警等系統(tǒng)接口實現(xiàn)對接,實現(xiàn)輿情信息的實時發(fā)送。
2 系統(tǒng)主要功能模塊
2.1 Nutch搜索引擎與校園網(wǎng)信息檢索
Nutch是一個開源的Java實現(xiàn)的Web搜索引擎,其在Lucene基礎上添加了網(wǎng)頁數(shù)據(jù)抓取功能,提供了構建搜索引擎所需的基本工具模塊,包括網(wǎng)絡爬蟲、文本分析、分詞工具、建立索引、搜索功能和結果過濾等。Lucene是一個高性能、可伸縮的信息搜索庫,可為Nutch提供了文本索引和搜索的API,也可為應用程序添加索引和搜索功能,通過Lucene的數(shù)據(jù)庫接口直接從數(shù)據(jù)庫中取出數(shù)據(jù),用API 建立索引并提供搜索接口。利用Nutch搜索引擎作為校園網(wǎng)輿情信息采集工具,不但可以縮短開發(fā)周期,提高開發(fā)效率,而且通過其內(nèi)部的接口和插件機制可以實現(xiàn)對校園網(wǎng)數(shù)據(jù)的高質(zhì)量采集。網(wǎng)絡爬蟲模塊用來實現(xiàn)對校園網(wǎng)內(nèi)網(wǎng)頁文件的信息采集;Lucene接口實現(xiàn)與各種異構數(shù)據(jù)庫的連接;利用Nutch的插件機制,采用POI插件和PDFBox插件來實現(xiàn)對Word、Excel、PDF等文檔的讀取。通過上述三種方式可以實現(xiàn)對校園網(wǎng)內(nèi)多種異構數(shù)據(jù)源的信息采集。
2.2 元搜索引擎與互聯(lián)網(wǎng)信息采集
元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。元搜索引擎沒有自己的爬蟲系統(tǒng)和索引系統(tǒng),數(shù)據(jù)全部來自于不同的成員搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎將用戶的搜索請求轉發(fā)給多個成員搜索引擎,對成員搜索引擎的查詢結果進行篩選與去重操作后返回給用戶。將元搜索引擎應用于系統(tǒng)可有效提高互聯(lián)網(wǎng)范圍內(nèi)輿情信息采集的廣度、精度和速度。各獨立搜索引擎查詢接口的格式和編碼并不相同,首先要將元搜索引擎中的檢索條件轉換為各獨立成員搜索引擎能夠接受的格式,并通過各自的查詢接口提交,然后對獲得的HTML源文件格式的檢索結果進行分析、處理,如百度搜索引擎返回結果中所包含的em、href標簽,通過對上述標簽信息的解析與提取,可以獲得與之相對應的鏈接地址、網(wǎng)頁標題以及部分說明文字,將上述信息處理為結構化數(shù)據(jù)后存放到相應的數(shù)據(jù)庫中。再通過對不同獨立成員搜索引擎所獲取的輿情信息的鏈接地址和網(wǎng)頁標題等信息的對比和有效性檢測來實現(xiàn)結果的篩選和去重,然后將最終結果提交給Nutch的文檔分析與分詞模塊,建立索引。
2.3 文檔分析與中文分詞
信息檢索的基礎是文檔分析,而文檔分析在很大程度上依賴于分詞模塊對語言的處理。文檔分析是信息采集完成后的首要任務,Nutch中的文本分析模塊能夠完成對各異構文件中結構化標記語言的處理,得到純文本文件。Nutch自帶的CJK分詞模塊在中文分詞的效率和準確度上不能滿足實際需要。為此,在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過Nutch的插件機制集成到系統(tǒng)當中。其原理是Nutch中的抽象類Analyzer類實現(xiàn)了配置和插入中文分詞模塊的接口,該抽象類中定義了一個公有的抽象方法tokenStream(String fieldname,Reader reader)返回的類型是TokenStream。Paoding分詞的分詞類返回類型也是TokenStream,故只需將參數(shù)fieldName和reader作為Paoding分詞的輸入?yún)?shù)并將其結果返回給Analyzer類即可。
2.4 信息索引與檢索
系統(tǒng)為校園網(wǎng)和互聯(lián)網(wǎng)內(nèi)的多個異構數(shù)據(jù)源分別建立了各自的索引文件,為有效整合索引文件,并將其作為統(tǒng)一的索引庫提供給輿情分析與預警模塊,需要對索引文件進行優(yōu)化。索引優(yōu)化其實是將多個索引文件合并成單個文件的過程,目的是減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。Nutch中的IndexWrite類提供了optimize方法實現(xiàn)該優(yōu)化操作。索引優(yōu)化完成后,利用Nutch中的MultiSearcher類可實現(xiàn)對優(yōu)化后索引的統(tǒng)一檢索功能,檢索結果會以一種指定的順序合并起來。針對高校網(wǎng)絡輿情信息的特點,綜合考慮信息相關度,時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機制,Lucene的文本相關度公式作為信息檢索的主要排序依據(jù),輔助以信息時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。
2.5 信息預警
系統(tǒng)采用關鍵詞特征庫匹配與機器學習算法相結合的方式對輿情信息進行預警。在對特征庫內(nèi)的關鍵詞進行組合后,對輿情信息索引庫進行檢索,獲取與之相關的信息,再通過與數(shù)據(jù)庫中歷史記錄的比對得到最新發(fā)現(xiàn)的輿情信息。對新發(fā)現(xiàn)的輿情信息通過聚類算法對信息進行分類,從而獲得輿情信息的分析結果;系統(tǒng)提供了良好的人機交互接口與信息展示界面,預警信息通過短信接口發(fā)送給網(wǎng)絡輿情監(jiān)測人員,做到輿情信息的及時發(fā)現(xiàn)、快速預警。
3 應對機制研究
高校網(wǎng)絡輿情除了要依靠技術手段進行防范與監(jiān)測外,還要構建合理的網(wǎng)絡輿情應急響應組織的架構。網(wǎng)絡輿情突發(fā)性強、傳播速度快,因此高校必須整合各部門資源,成立專門的網(wǎng)絡輿情應急響應小組,其組織結構圖如圖2所示,由校領導直接擔任組長,以黨委宣傳部為核心,校辦、學工部和網(wǎng)絡中心為重要組成成員,其他部門密切配合,建立起一支高效的網(wǎng)絡輿情應急響應隊伍。網(wǎng)絡輿情事件一旦發(fā)生,應立即啟動應急預案,預案應包括信息收集、分析應對、部門聯(lián)動和引導反饋四個環(huán)節(jié)。各部門由網(wǎng)絡輿情應急響應小組統(tǒng)一領導,預案中的各環(huán)節(jié)可同時啟動,要實現(xiàn)技術手段與思想教育工作并重,防止事態(tài)擴大,力爭快速及時的化解輿情危機。
圖2 網(wǎng)絡輿情應急響應小組組織結構圖
網(wǎng)絡營銷 網(wǎng)絡教育研究 網(wǎng)絡廣告 網(wǎng)絡通信 網(wǎng)絡安全 網(wǎng)絡環(huán)境 網(wǎng)絡實訓報告 網(wǎng)絡輿論論文 網(wǎng)絡暴力相關案例 網(wǎng)絡優(yōu)化論文 紀律教育問題 新時代教育價值觀