首頁 > 文章中心 > 自然語言處理

          自然語言處理

          前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇自然語言處理范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

          自然語言處理范文第1篇

          Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.

          關鍵詞: 自然語言理解;詞法分析;自動分詞算法

          Key words: natural language understanding;morphological analysis;automatic segmentation algorithm

          中圖分類號:TP27 文獻標識碼:A文章編號:1006-4311(2010)10-0157-01

          0引言

          自然語言理解是語言信息處理技術的重要研究方向之一,一直以來都是人工智能領域中的核心研究課題。計算機的出現使得自然語言研究成為可能。語言是以詞為基本單位的,詞匯在語法的支配下構成有意義的和可理解的句子則進一步地按一定的形式再構成篇章。詞法分析是理解單詞的基礎,因而也是自然語言理解和處理的基礎,其主要目的是從句子中切分出單詞,找出詞匯中的詞素,從中獲得單詞的語言學信息并由此確定單詞的詞義。

          1自然語言理解的難點及處理層次

          自然語言也就是人類本身所使用的語言。廣義上講,自然語言理解是指機器能夠執行人類所期望的某些語言功能,如回答問題、文摘生成、釋義、翻譯等。由于自然語言的多義性、上下文有關性、模糊性、非系統性和環境密切相關性、涉及的知識面廣等眾多因素,使得對自然語言的理解成為非常困難的研究課題[1]。語言雖然被表示成一連串的文字符號或者是一串聲音流,但實質上,語言的內部是一個層次化的結構。因此,自然語言的分析理解和處理過程也應當是一個層次化的過程。許多現代語言學家將自然語言理解的過程劃分為語音分析、詞法分析、句法分析、語義分析和語用分析五個層次。

          2詞法分析的在自然語言理解中的地位和作用

          2.1 詞法分析的特點和任務詞法分析是理解自然語言中最小的語法單位――單詞的基礎。語言是以詞為基本單位的,而詞又是由詞素構成的,即詞素是構成詞的最小的有意義的單位。詞法分析包括兩方面的任務[2]:第一:要能正確地把一串連續的字符切分成一個一個的詞;第二:要能正確地判斷每個詞的詞性,以便于后續的句法分析的實現。以上兩個方面的處理的正確性和準確度將對后續的句法分析產生決定性的影響,并最終決定語言理解的正確與否。

          2.2 不同自然語言中詞法分析的特點和難點不同的語言對詞法分析有不同的要求。例如,英語和漢語在詞法分析處理方面就存在著很大的差異。英語語言中,由于單詞之間是以空格自然分開的,而漢語則不具備英語以空格劃分單詞的特點,其單詞的切分是非常困難的,不僅需要構詞的知識,還需要解決可能遇到的切分歧義。對于詞性分析和判斷,由于英語單詞有詞性、數、時態、派生、變形等繁雜的變化,再加上英語的單詞往往有多種解釋,詞義的判斷非常困難,僅僅依靠查詞典常常是無法實現的。而漢語中的每個字就是一個詞素,所以找出詞素是相當容易的。可見,在自然語言理解的詞法分析處理中,漢語、日語、韓語等語言的詞法分析的難點在于分詞切詞,而英語、法語等語言的難點則是詞素區分。漢語自動分詞是漢語語言處理和理解中的關鍵技術,也是中文信息處理發展的瓶頸,其困難主要在“詞”的概念缺乏清晰的界定、未登錄詞的識別、歧義切分字段的處理三個方面。

          2.3 典型的中文自動分詞算法漢語連續書寫導致了漢語自動分詞中的歧義問題將始終存在。在漢語自動分詞算法的研究中,歧義字段的處理是各種算法研究的重點。至今專家學者們研究出了一系列的自動分詞算法,如:最大匹配法(Maximum Matching Method:簡稱MM)[3]、基于標記法[4]、約束矩陣法[5]、句模切分法[6]、基于統計語言模型(Statistical Language Models:簡稱SLM)的中文自動分詞算法[7]、神經網絡分詞算法、專家系統分詞算法、基于詞典的中文分詞算法等。MM法是最早出現的自動分詞算法,是一種機械分詞方法。該算法首先建立詞庫,將所有可能出現的詞都事先存放在詞庫中,對于給定的待分詞漢字串,采用某種策略進行匹配分詞。策略有兩種:一是最大匹配法,每次匹配時優先考慮長詞;另一種則是最小匹配法,每次匹配時優先考慮短詞。在機械分詞的基礎上,利用各種語言信息(如規則、語法、語義、標點、數字等)進行歧義校正,從而提高其分詞的正確性。上文中提到的基于標記法、約束矩陣法、句模切分法等就屬于機械匹配與切分歧義處理方法相結合的算法。基于SLM的中文自動分詞方法又稱為無詞表分詞算法。所謂無詞表是指分詞匹配的詞表并不是事先建立的,而是利用機器學習手段從生語料庫中直接獲取分詞所需要的某些適用知識作為分詞依據的重要補充手段。該算法的核心思想是:詞是穩定的漢字的組合,上下文中漢字與漢字相鄰出現的概率能夠較好地反映成詞的可信度,因此,將相鄰共現的漢字組合的頻率進行統計并將其統計信息作為分詞的依據。神經網絡分詞算法和專家系統分詞算法都屬于基于人工智能技術的自動分詞方法。該類方法應用人工智能中的神經網絡和專家系統來進行中文自動分詞。周程遠等人提出的基于詞典的中文分詞算法是在機械分詞算法基礎上的改進。他們綜合TRIE樹和逐字二分分詞的特點提出分層逐字二分算法,以較小的開銷來實現較快的匹配速度,從而提高自動分詞的綜合性能,其本質還是機械分詞。

          3總結

          詞法分析是自然語言理解的基礎。本文在介紹自然語言理解處理層次的基礎上,討論了詞法分析的重要性和難點,特別是漢語的詞法分析中切詞的難度,并列舉了一些著名的自動分詞算法。

          參考文獻:

          [1]王文杰,史忠植.人工智能原理輔導與練習[M].北京:清華大學出版社,2007,12:250.

          [2]田霓光.自然語言的詞法分析[J].咸寧學院學報,2008,(06):70-73.

          [3]劉遷,賈惠波.中文信息處理中自動分詞技術的研究與展望[J].計算機工程與應用,2006,(03):175-177+182.

          [4]亢臨生,張永奎.基于標記的分詞算法[J].山西大學學報(自然科學版),1995,17(3).

          [5]雷西川,余靖維,盧曉鈴.基于相鄰知識的漢語自動分詞系統研究[J].情報科學,1994,(2).

          自然語言處理范文第2篇

           

          關鍵詞:自然語言處理 語言翻譯 人工智能  

          一、引言  

          近年來隨著計算機技術和人工智能的快速發展,自然語言信息處理技術已取得了長足的發展。于此同時人們在快速信息檢索、語言翻譯、語音控制等方面的需求越來越迫切。如何將自然語言處理中取得的研究成果應用于文本、語音等方面已成為目前應用研究的一個關鍵。論文將從自然語言信息處理的基礎出發,系統的論述它在語音和文本方面的廣泛應用。  

          二、自然語言信息處理技術簡介  

          自然語言信息處理技術產生于上個世紀40年代末期,它是通過采用計算機技術來對自然語言進行加工處理的一項技術。該技術主要是為了方便人與計算機之間的交流而產生的。由于計算機嚴密規范的邏輯特性與自然語言的靈活多變使得自然語言處理技術較復雜。通過多年的發展,該項技術已取得了巨大的進步。其處理過程可歸納為:語言形式化描述、處理算法設計、處理算法實現和評估。其中,語言形式化描述就是通過對自然語言自身規律進行研究,進而采用數學的方法將其描述出來,以便于計算機處理,也可認為是對自然語言進行數學建模。處理的算法設計就是將數學形式化描述的語言變換為計算機可操作、控制的對象。處理算法實現和評估就是通過程序設計語言(如C語言)將算法實現出來,并對其性能和功能進行評估。它主要涉及到計算機技術、數學(主要是建模)、統計學、語言學等多個方面。  

          三、智能應用  

          通過多年的研究,自然語言信息處理技術已經取得了巨大的進步,特別是在應用方面。它主要被應用于文本和語音兩個方面。  

          (一)自然語言信息處理在文本方面的智能應用  

          在文本方面,自然語言處理技術主要應用在語言翻譯、字符識別、文本信息過濾、信息檢索與重組等方面。其中,語言自動翻譯是一個十分重要并具有極大現實意義的項目。它涉及到計算機技術、數學建模技術、心理學以及語言學等多個方面的學科。通過近些年的努力已得到了一定的發展。自然語言處理技術已在多個方面提升了翻譯的效率和準確性。如自然語言處理中的語言形態分析與歧義分析對翻譯技術來說十分重要,可以很好的處理翻譯中的多意現象和歧義問題,從而提高翻譯的準確性。字符識別具有廣泛的商業應用前景,它是模式識別的一個分支。字符識別的主要過程可分為預處理、識別以及后期處理。目前,字符識別已得到了廣泛的應用,并且效果良好,但還存在識別不準確的問題,其主要問題就出在合理性上,其中后期處理就涉及到采用詞義或語料庫等對識別結果進行合理性驗證,通過該技術就能很好的解決識別不準確的問題,當出現識別不準確、出現多個識別結果時可以通過合理性驗證技術高效的過濾掉異常選項,從而實現快速、準確的識別。目前自然語言信息處理技術在文本方面應用最廣的就是文本檢索。通過采用自然語言信息處理技術,一方面能快速分析用戶輸入信息并進行準確理解為檢索提供更加準確的關鍵詞,并且可以擴展檢索輸入的范圍,讓其不僅僅局限在文本輸入方面,如采用語音輸入或基于圖像的輸入;另一方面,通過采用自然語言信息處理技術可以對搜索到的信息進行處理讓用戶獲取的是更加有效、準確的信息而不是海量的信息源(如許多網頁)。因為將自然語言處理技術與文本重組技術相結合就可以極大的提高檢索的效果,縮小答案的范圍,提高準確性。當然,還可以提高檢索的效率。目前,在中文全文檢索中已得到了廣泛的應用,并且效果良好。  

          如果能進一步的研究自然語言信息處理技術,將能實現信息的自動獲取與重組,這樣將能實現自動摘要生成、智能文本生成、文件自動分類與自動整理。若能進一步結合人工智能技術,將能實現文學規律探索、自動程序設計、智能決策等諸多方面的應用。這樣可以減輕人類的工作強度,讓我們從繁瑣的基礎工作中走出來,擁有更多思考的時間,從而能更加有效的推動技術的進步。

          自然語言處理范文第3篇

          關鍵詞:3S技術 水污染 自動監測 應急處理

          1引言

          近年來,隨著各種傳感器的上天,許多國家十分重視水體的衛星遙感監測技術研究。采用計算機技術、通信網絡技術、微電子技術、計算機輔助設計技術和3S(GIS、GPS、RS)等一系列高新技術對水環境綜合管理的技術手段,建立水環境和部分重點污染源的在線監測系統,結合環境保護管理信息系統,并運用污染源解析的科學成果,對水環境和污染源實施有效監控。荷蘭采用TM衛星數據、SPOT衛星數據以及多種水體監測數據、機載多光譜掃描數據,對水質進行了綜合遙感研究;以色列通過分析100多個水體污染的SPOT衛星數據,實現了對水體污染的識別。

          本項目采用3S信息技術手段,建立以遠程控制及自動化技術為依托對水流域內的重點污染源進行自動監控系統,對水污染事故問題進行模擬預測分析;可以定性和定量分析在水源區域內工業開發對區域環境,尤其是對區域內的飲用水源地敏感目標的環境影響和潛在風險,并識別出區域環境風險的主導因子。同時采用環境監測、環境預測、計算機軟件集成和遠程通訊等技術研究開發環境風險監控預警體系,建立可視化管理信息系統。通過3S技術可以實現對水污染的全方位監測。

          2污染水體遙感監測研究

          2.1采用的研究方法

          2.1.1對比分析法

          收集長江、遼河、鴨綠江、大連沿海諸河四個流域典型示范區域,已有各類衛星遙感及相關資料,進行綜合分析研究,確立環境與水污染遙感解譯標志,與已有遙感資料進行對比、分析,推斷國產衛星的解譯力、可行程度及精度,與其它衛星數據圖像進行對比,分析國產衛星的優勢及差距。

          2.1.2同步或準同步監測

          為實現天地一體化動態模擬試驗,必須開展星地同步或準同步監測。在統一監測規范和分析方法基礎上,對各模擬試驗進行星、地高光譜特性測量和分析實驗同步或準同步監測,并求得規律特性,找出相關關系,確定適用范圍。

          2.1.3天地一體化模擬試驗

          衛星有效載荷天地一體化模擬試驗是本項目的重要步驟。要確定CCD相機的不同監測對像輻射能量范圍、動態范圍;提出紅外多光譜不同分辨率對地面的響應系數、最佳響應波段或組合波段,確定監測方法。

          2.2采用的技術路線

          3.構建基于GIS/GPS/RS技術的江河流域水污染事故應急處理決策支持系統

          3.1系統構成與運行流程

          依照運行的過程,系統主要包括數據層、模型層、評價層和用戶層四個層面,各層次構成及系統運行流程見圖。

          3.2水污染事故模型庫設計

          模型庫設計與開發分為三個層次,即指標管理模型、評價對象模型和評價方法模型。

          3.2.1指標管理模型

          系統針對一系列評價對象給出默認的、經過優化的評價指標體系,包括指標的組成、結構與權重向量等,但由于評價指標對于評價對象的影響程度在不同地區和不同時間均會有所差異。因此,評價指標體系是動態的,指標管理模型就是針對指標的這一特性進行動態管理。

          3.2.2評價對象模型

          評價對象模型是針對具體評價內容涉及的評價模型。按照評價內容分為江河污染現狀評價、水體污染嚴重性評價、影響區域評價、事故災害損失評價和污染災害預警預報等5個方面。按照評價的深度和層次可以分為但因素評價和多因素評價兩種。單因素評價主要是對單一點源污染擴散速度的現勢和趨勢性的評價等。多因素評價主要針對一些復雜的評價對象,利用多種指標綜合反映其總體特征,挖掘隱藏與諸多數據之后的重要信息。

          3.2.3水污染事故報警系統

          采用航天衛星、低空遙感及地面監測相結合的技術手段,及時發現水污染事故隱患,實時提供事故污染動態變化。當發現事故時,一般通過無線對講機或附近的有線電話向污染防治管理部門匯報,對事故發生位置的描述可采用“手持巡查報警系統”,它集成了GPS技術和GSM無線通訊技術,能夠快速地將發生事故的地點和事故類別發送到指揮中心的監控系統,及時作出反應。事故報警系統采用GPS定位技術,可以精確地定位事故發生的地點(誤差不超過10M),系統持有者只需輕輕一個按鍵,系統就會通過GSM短信息將報警信息和位置信息發送到指揮中心,同時系統還具備通話功能,可以實現現場和指揮中心的自由對話,方便進一步溝通。在事故發生一小時之內,事故應急流動監測站,監測車(船)、微航低空遙感監測均要趕赴現場,及時開展監測攝影。及時掌握水體動態變化狀況,及時事故變化信息。

          4 結論

          該項目利用3S信息技術,實現了江河流域水污染自動預防和應急處理決策系統的研發與應用,其采用自主研發和二次開發的事故應急監視、監測系統,及時掌握水體動態變化狀況,及時事故動態變化信息,及時采取應急處理措施;采用衛星遙感與江河流域水質準同步監測技術,實現天地一體化模擬實驗。科學地求得衛星遙感數據與污染水體的相關關系,快速、準確的確定污染范圍和污染程度,建立水質污染擴散模型,確定衛星遙感數據在水質自動監測中的適用范圍;在國產軟件MAPGIS平臺支持下,采用GPRS無線傳輸技術,創建了基于3S技術的江河流域的水質自動在線實時監控系統,實現跨流域江河水質污染自動監測數據的實時傳輸;實現了對江河流域污染事故的應急預警。對污染事故的及時發現,提供輔助決策依據;提供了水污染事故應急處理決策支持的通用的、跨流域的計算機仿真系統,建立水污染事故、污染物輸移擴散模型,為突發事件預測、預警提供快捷的技術支持,提高事故的應急處理水平,有力的輔助污染事故的監測管理。

          自然語言處理范文第4篇

          Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.

          關鍵詞: 漢語自然語言處理;句法分析

          Key words: Chinese natural language processing;parsing

          中圖分類號:G202文獻標識碼:A文章編號:1006-4311(2010)17-0162-02

          0引言

          自然語言理解是語言信息處理技術的重要研究方向之一,一直以來都是人工智能領域中的核心研究課題。自然語言理解是指機器能夠執行人類所期望的某些語言功能,如回答問題、文摘生成、釋義、翻譯等。由于自然語言的多義性、上下文有關性、模糊性、非系統性和環境密切相關性、涉及的知識面廣等眾多因素,使得對自然語言的理解成為非常困難的研究課題[1]。

          語言雖然被表示成一連串的文字符號或者是一串聲音流,但實質上,語言的內部是一個層次化的結構。自然語言的分析理解和處理過程也應當是一個層次化的過程。許多現代語言學家將自然語言理解的過程劃分為語音分析、詞法分析、句法分析、語義分析和語用分析五個層次,分別完成音素區分、詞素劃分、句子或短語的結構分析、確定語言所表達的真正含義或概念以及語言在特定環境中所產生的影響等分析工作。句法分析師自然語言處理的一個基本問題,是在句法分析的基礎之上的語言層次結構分析。其目的是確定句子所包含的譜系結構和句子各組成成分之間的關系。關于漢語語言處理中的句法分析方法的研究,從20世紀80年代初以來,一直都沒有停止過,先后出現了大量的分析方法。

          1漢語句法分析方法及演變過程

          1.1 漢語句法分析的基本理論自然語言處理中,按照處理深度的不同,大致可以將自然語言處理中的語言分析技術劃分為淺層分析和深層分析兩大類[2]。深層分析技術是對語言進行語法、語義和語用的分析,包括句法分析、語義角色標注等。與淺層的詞法分析不同,深層的分析需要對句子進行全局分析才能得到正確的結果。句法分析在深層分析技術中處于十分關鍵的位置。

          所謂句法分析,就是根據給定的語法體系,自動推導出句子的語法結構,分析句子所包含的語法單位和這些語法單位之間的關系,將線型的句子轉化成一種結構化、層次化的結構,是自然語言理解的一個關鍵組成部分。句法分析的主要作用是消除單詞的歧義,為后續的語義分析提供層次結構上的技術支撐,其結果可直接用于及其翻譯、問答系統、信息挖掘、信息抽取等應用。

          1.2 漢語句法分析方法句子是由詞構成的。從結構上來說,漢語句子中的詞是詞根詞,詞內沒有專門表示語法意義的附加成分,而且,漢語還缺少英語語句里面的形態變化,因此,漢語句子中詞與詞的語法關系依靠詞序和虛詞來表示。

          句法分析的研究大體分為兩種途徑:基于規則的方法和基于統計的方法[3]。基于規則的方法是以知識為主體的理性主義方法,以語言學理論為基礎,強調語言學家對語言現象的認識,采用非歧義的規則行事描述或解釋歧義行為或歧義特征。基于統計的句法分析則以某種方式對語言的形成和語法規則進行描述,形成句法分析模型。漢語語言的句法分析方法自研究以來,先后出現了中心詞分析法與層次分析法相結合的方法、配價分析法、語義指向分析法等多種漢語句法分析方法[4]。

          1.2.1 中心詞分析法與層次分析法的結合中心詞分析法也稱為句子成分分析法,是漢語句法分析中傳統的分析方法。該方法將句子分成主、謂、賓、定、狀、補六大成分。該方法能很容易地分析出句子的格局,確定句子的句型,但無法體現出句子的結構層次。層次分析法則是基于句子語法結構的一種句法分析方法,它不注重句子成分,而是在層次的控制下切分句法結構的直接成分。該方法很容易顯示和分析句子的結構層次,但卻不能很好地顯示句法結構的格局。將中心詞分析法與層次分析法結合起來,就形成了一種優勢互補的分析方法。

          1.2.2 短語結構句法分析與西方語言中長句非常常見的情況不同,漢語句子以短句為主。從漢語的句法上來說,短語是不會跨越句子的分界的。因此,漢語這種句子短小的特點為提取句子中的短語減輕了難度。

          短語體系的句法分析是在漢語數庫(Chinese Penn Treebank:CTB)上開展的。CTB與英文Penn Treebank屬于同一語法體系。漢語的短語結構句法分析方法在改進后的CTB的基礎上進行,并進一步地通過EM算法獲取樹庫中的規則來進行。由于語言上的差異,在CTB上的漢語句法分析水平與英文Penn Treebank上的分析結果還存在一定的差距。

          1.2.3 基于依存關系的句法分析統計句法分析方法中需要解決的關鍵問題是如何發現和利用具有強消岐能力的語言特征姿勢,同時保證語言知識的應用不會使模型的參數急劇膨脹而導致嚴重的數據稀疏問題。

          在漢語的基本句型中,絕大多數句子的中心語是由動詞或動詞短語來擔當的,而句子的中心語則支配著句子中的其他成分。通過對動詞、名詞和形容詞等各種詞的語義知識進行分析并加以分類,進而從中總結出中心詞與各被支配成分之間的語義依存關系,利用這種依存關系來很好地解決上述問題。

          1.2.4 基于語法功能匹配的句法分析方法一般的詞性標注都是對單詞或短語的詞性進行標注。然后,通常情況下,一個詞類是具有很多種語法功能的,并且,同一詞類的不同詞的語法功能的差異有可能非常大,而有的情況下,不同詞類的詞,其語法功能卻有可能相同。基于語法功能匹配的漢語句法分析方法通過使用詞和短語的語法功能集來代替現有的詞類標記和短語標記,以語法功能匹配(Grammar Function Match:GFM)作為句法分析的基本方法來實現漢語的句法分析[5]。

          1.2.5 基于句法語義特征的句法分析方法所謂語義特征分析法,是一種借用語義學分解語義特征的方法來解釋在漢語語句中,某個格式為什么可以用這一類詞語而不能用另一類詞語的原因,其主要目的是解釋歧義現象產生的原因。基于句法語義特征的句法分析方法通過在句法分析中加入語義信息,將句法分析與語義分析綜合起來進行,從而解決句法分析中的歧義消解問題。

          此外,變換分析法、配價分析法、語義指向分析法等也是比較典型的漢語句法分析方法。

          1.3 漢語句法分析方法的演變過程及原因漢語句法分析的方法主要是通過國外語言學理論引進而來的,20余年來,漢語句法分析方法隨著漢語語法研究的發展而不斷發展。

          漢語語言自然處理研究中最早的句法分析方法是上文所述的中心詞分析法。這種分析法來源于西方的傳統語法。后來,熙先生率先采用了變換分析法來進行漢語的句法分析。語義特征分析則是對變換分析法的改進和彌補。語義指向分析法也是隨著人們開始對語義平面研究的重視而產生的一種句法分析方法,它根據句中某個成分或詞語的語義指向來研究與它相關成分或詞語之間的語義聯系,從而將句法分析和語義分析結合起來。

          相對于英語等分析語型的西方語言來說,漢語是一種孤立型的語言,兩者的內部結構存在著很大的差異。從上述漢語句法分析的發展不難看出,漢語的句法分析方法的發展一直都受著西方語言學的影響。而簡單地套用西方語言學的分析方法是不可取的。最近幾十年來,我國的專家和學者開始將西方語言學與漢語語法研究相結合,走符合漢語自身特點的道路。

          2總結

          漢語自然語言處理中的句法分析是一種層次結構上的深層分析。漢語語言句法分析研究一直是漢語自然語言處理中的一個熱點問題,出現了眾多的分析方法。早期的句法分析器大多是簡單的符號推理,然而,句法分析不是簡單的符號推理,而是一種實體推理,漢語句法分析方法在漢語自身特有的孤立型特點和分析方法本身的局限性的影響下不斷發展演變,使得漢語語言處理及漢語語法的研究正不斷地深化,對漢語語言的分析方法也提出了更高的要求。總的來說,漢語語言的句法分析方法越來越精密、細致和科學。同時,語義分析和語法分析的結合也越來越緊密,這是漢語語法學朝著現代化科學化方向發展的必然趨勢。

          參考文獻:

          [1]王文杰,史忠植.人工智能原理輔導與練習[M].北京:清華大學出版社,2007,(12):250.

          [2]劉挺,馬金山.漢語自動句法分析的理論與方法[J].當代語言學,2009,(02):100-112.

          [3]袁里馳.基于依存關系的句法分析統計模型[J].中南大學學報(自然科學版),2009,(06):1630-1635.

          自然語言處理范文第5篇

          [關鍵詞] 數字出版 外文原著 自然語言處理 云平臺 詞匯提取 難句抽取

          [中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2014) 01-0079-05

          1 引 言

          隨著電子計算機和互聯網技術的發展, 以電子書(electronic book,ebook)為代表的數字出版物已經廣泛興起和發展起來,并由此形成了數字出版產業。數字出版平臺和電子讀物自身的數字化特點,使利用各種現代技術為讀者提供包括娛樂和輔助學習功能在內的各種新型有效服務成為可能。多媒體技術與人工智能研究領域成果如自然語言處理等的應用,將使數字出版不僅帶來信息載體、讀物來源和閱讀方式方面的變化,而且會使閱讀過程中的學習方式、學習效果等都發生很多變化[1]。

          與此同時,人類進入信息時代后,國際間的科學文化交流日益增多,了解學習不同國家的文化習俗、掌握世界新的科學技術發展動態成為個人與國家發展的前提。因此,外語的學習和使用比以往任何時代更顯重要。現代社會很多人都需要閱讀外文原版文學讀物、學術專著和教材。但外文原版讀物閱讀的難點是剛開始時生詞較多,有些句子不容易理解,容易產生閱讀挫折,當所選讀物的閱讀難度和內容不合適時就更明顯。對于專業文獻,除了一般詞匯問題外,由于強調語言的縝密性、準確性,經常會使用長句和大量專業術語,所以較一般文學讀物更不容易理解。能否解決閱讀中的詞匯和難句障礙,是能否克服外文原版讀物閱讀初期的困難,進入熟練閱讀過程的關鍵。雖然我國在外語教學方面投入很大,但效果并不理想,原因之一是許多讀者沒能真正進入外文原版文獻的熟練閱讀狀態,未形成外語學習和使用實踐相互促進、緊密結合的良性循環過程。缺乏應用實踐,過多停留在應試和學習過程本身的外語學習嚴重影響了外語繼續學習和終身學習,以及在實踐中應用外語的動力。外文文獻對擴大科研人員的研究視野、確定研究策略和方向、提高科研水平等發揮著非常重要的作用,但我國花費大量經費購買的外文文獻數據庫利用率較低,主要原因就是語言障礙。

          目前數字出版技術、自然語言處理技術和云技術的發展,為人們改進或解決上述問題帶來了可能。本文首先介紹在數字出版中應用自然語言處理技術,通過詞匯抽取服務輔助外文閱讀的問題,同時進一步提出在數字出版中提供難句抽取服務的建議,并對可行性進行分析及給出可供參考的抽取策略。

          2 數字出版中的詞匯抽取服務

          在數字出版中提供詞匯提取服務是把外文原著中讀者可能不認識的生詞提前抽取出來,給出解釋,生成按詞頻分段,能按照頁碼和章節進行篩選的詞匯表放到出版平臺上供下載;對于專業外文書籍,不僅提供常規詞匯表,還包括專業詞匯表。在數字出版提供詞匯抽取的最初理念由本文作者在2012年美國《出版研究季刊》中第一次提到[2],下面在介紹原理念的基礎上,總結擴展分析如下。

          2.1 提供詞匯抽取服務有助于提高外文閱讀效率

          閱讀外文原著一直被認為是學習外語的有效方法。認知語言學的研究表明,語言是在具體的社會環境中、在真實互動中學會的,因此強調學習者的自身參與,對于常用的表達要設法引起學習者的充分注意,讓他們結合語境多加練習[3]。而文學原著閱讀為學習者提供了語言習得的真實語境,可以與單詞大量、密切接觸,而且讀上手之后不會令人心煩,因此在讀者了解和學習文化知識、開發智力的同時,實現了學習單詞、強化語言學習的目的。通過把詞匯表下載到不同設備上顯示,如電腦顯示器、手機,或打印、抄寫等,可以使讀者在閱讀過程中方便快捷地查找生詞解釋,如果能先以頁碼或章節為單位抄寫生詞,強化記憶,然后再閱讀對應的頁或章節原文,不僅容易理解原著內容,享受閱讀樂趣,而且這個過程本身就是一種有效的外語學習途徑。因為語言學者已經驗證,要想在短時間內大幅度提高詞匯量,有計劃地利用單詞表來學習并記憶新單詞是較好的、也是最直接的辦法[4-5]。外文原著的閱讀有兩種形式——紙質書閱讀和電子書閱讀,而詞匯抽取服務可以使電子書和紙質書讀者獲得同樣的幫助。

          2.2 提供詞匯抽取的技術基礎

          數字出版提供詞匯抽取服務的主要技術基礎是自然語言處理、云計算和數字出版。

          首先,自然語言處理(Natural Language Processing,NLP)技術是用計算機來研究和處理自然語言的技術,始于20世紀40年代末50年代初,已成為當代計算機科學中一門重要的新型學科。詞匯抽取和各種詞典建設是自然語言處理技術的基礎,屬于成熟的技術。英語的自然語言處理水平處于世界先進水平,對英語實現詞匯抽取服務很容易實現。對于漢語這樣的表意文字,計算機自動分詞的準確率還不能令人滿意(大約90%)[6],影響了各種電子詞典的建設速度,目前大規模地實現詞匯抽取服務還有困難;但是,依靠在漢語自然語言處理技術方面幾十年的研究成果和建設的各種資源,在一定范圍內實施詞匯抽取還是可以的。

          其次,云計算是一種運算模式,能實現無處不在、便捷按需的網絡訪問,信息處理和存儲在云數據中心完成。由于數字出版技術更新和管理費用等問題,數字出版采用云技術成為一種必然趨勢[7]。數字出版提供詞匯抽取服務需要云計算技術的原因在于詞典建設是龐大和困難的工作。現代社會發展迅速,新詞不斷出現,詞典的更新維護是一個重要課題,也是單個出版社無法承擔的;由云平成詞典建設、更新維護及詞匯抽取軟件的建設,以資源共享的形式提供給各出版社使用,則能夠保證其有效管理和經濟可行性。

          再次,數字出版決定了著作原稿在各個階段都是以電子文檔形式存在的,對于任何一本原著,只需在編輯完成后把對應電子文檔的格式轉換成純文本,然后利用基于自然語言處理技術設計的詞匯抽取軟件和電子詞典即可完成詞匯抽取工作。

          2.3 詞匯抽取策略

          外文原著中的詞匯量很大,專業著作或原版教材則不僅包括普通詞匯,而且包含很多只能在專業詞典中查到的專業術語。每個讀者的外語水平也不同,遇到的生詞差異很大,所以要有效地抽取符合個人情況的生詞,并以方便學習的形式顯示,需考慮采用合適的抽取策略。

          2.3.1 普通詞匯抽取

          提供詞匯抽取服務主要基于這樣一個統計事實,即一本書包含很多詞匯,但常用單詞占了絕大部分。據弗蘭西斯(Francis)和庫切拉(Kucera)(1982)統計,在一百多萬詞的Brown語料庫中,頻率居前的1000單詞就可以覆蓋72%的語料庫;頻率居前的2000單詞可以覆蓋79.7%;頻率居前的5000單詞可以覆蓋88.7%;頻率居前的6000單詞可以覆蓋89.9%;而頻率居前的15851個單詞才覆蓋97.8%[8]。教育心理學家、心理測量專家、語言學家和其他研究人員多年來一直使用文本樣本中的單詞頻率統計作為估算單詞難度的方法,其基本假設是文本中出現頻率低的單詞是難度大的單詞[9]。一個讀者的外語水平越高,所認識的難詞、或者說低頻詞就越多。如果把一種語言的詞匯按詞頻分段,語言水平高的讀者生詞少且趨于低頻詞段;外語水平較低的讀者生詞較多,詞頻段跨度較大。因此,數字出版平臺可以通過采用不同的抽取策略提供不同頻段的詞匯表來滿足不同外語水平讀者的需要[10]。

          2.3.2 專業術語抽取

          專業外文文獻中有很多專業術語,即某一學科領域所特有或專用的語匯,其詞義常不為專業外讀者所明白。盡管術語只占全文的 5%—10%,但它們卻構成科技英語翻譯與其他文體翻譯的根本區別[11],需要通過專業詞典解決專業術語的抽取問題。對于只涉及某一個專業的外文專著,可通過軟件工具在原稿編輯完成后轉換成純文本格式,進入對應的專業詞典,抽取出其中的專業術語,形成專業詞匯表供讀者下載。由于專業詞匯也可分為常用高頻詞匯、核心專業詞匯和低頻詞匯,所以,專業術語抽取時也可參考常規詞匯按詞頻分段的方法,列出不同頻段的專業詞匯,讀者可考慮先記住高頻詞匯,減少閱讀困難。為了與常規詞匯表相區別,每個專業術語后應添加專業標記[12]。

          如果是涉及多門專業知識的綜合類專著,則需要分別進入不同的專業詞典進行專業術語抽取。由于專業詞典一般存在一詞多域多義和一詞多域同義的現象,即同一詞匯可能會出現在不同的專業詞典中,在不同專業領域有不同的意義,也可能具有相同的意義[13]。所以,必要時需對從不同的專業詞典中抽取出來的詞匯進行合并,減少數據冗余,方便讀者學習。

          目前,對于數字出版中提供詞匯抽取的探討,還只限于文學原著或專業文獻。實際上,通過考慮不同類型讀物的特點,通過采取合適的抽取策略,各種類型的外文讀物,包括報紙、雜志等都可以實現詞匯提取,為提高外語學習效率發揮積極作用。

          3 數字出版中的難句抽取服務

          前面介紹了數字出版中提供詞匯抽取服務的問題,實際上,還可以進一步深化這種服務,在提供詞匯抽取服務的同時,提供難句抽取服務。

          3.1 提供難句抽取服務的意義

          外文閱讀中最主要的困難是詞匯問題,而句式結構復雜、成分關系多樣、具有高度邏輯性的長難句是另一障礙,能否解決長難句的理解是提高閱讀能力的另一個關鍵。對語篇整體結構、深層含義、作者態度等信息的理解非常重要,提高學生對于閱讀材料的宏觀把握能力已成為語言學家及語言教師們研究的重要課題之一,但是詞匯和句子理解仍然是外語學習的基礎。特別在學習一門外語的早期,如初、高中及至大學階段,長難句理解都是學習中常見的困難[14-15]。如果長難句的理解能力提高,則外文閱讀速度和質量將會得到極大提高。如果在讀者閱讀外文原著時,不僅限于生詞,同時也能提前把讀者不容易理解的難句抽取出來,給出解釋和分析,生成能按頁碼、章節和字母順序自由排序和篩選的難句表放到出版平臺上供下載,則能幫助讀者更好地理解這些難句。按頁碼、章節自由篩選,能迅速恢復其上下文語境,不僅對語言學習本身有利,同時有助于更好地理解原著。讀者可以選擇喜愛的章節里的生詞和難句,經過有意識分析和學習,然后對那部分更好地閱讀理解。

          此外,在各種類別的外語日常閱讀訓練中,如果能集中選擇一些學習者熟悉內容且感興趣的、具有代表性的長難句,如選擇一些影響較大的文學名著中的長難句進行分析和強化翻譯訓練,掌握規律就可以事半功倍。所以外文數字出版中提供難句抽取服務具有積極的意義。

          3.2 提供難句抽取服務的可行性分析

          雖然外文出版中的難句抽取服務對外語學習有積極的意義,但目前技術條件下還存在一些具體困難,需要通過某些特殊方法,采取合適策略來解決。

          3.2.1 自動化難句抽取中的困難

          在數字出版中實現外文難句抽取的完全自動化,從理論上說,需要涉及語篇的預處理、難句識別及抽取算法和機器翻譯。這些在目前都還存在一些困難。

          首先,要在外文數字出版中把難句抽取出來并通過機器翻譯自動給出翻譯結果,不僅涉及詞長、詞頻和句長的計算,還需要對句子結構等進行多方面的識別和判定,因此,需要對生語料(完成編輯后的書籍原稿文檔)進行預處理,即進行詞匯、句法、語義等的分析,添加相應標注,把生語料變成熟語料。雖然語料庫的自動標注技術已經研究多年,有一些效果較好的語料庫自動標注工具軟件,但該過程一般仍然需要人工干預校正。語料庫標注是一項代價昂貴的工作[16],需要大量人力、物力和資金,所以在目前的技術條件下,對出版的外文讀物生語料庫進行標注還是不現實的。

          其次, 除了語料的標注,難句抽取還需要根據高效準確的難句識別和抽取算法,開發相應的難句抽取軟件工具。目前為止,對語篇難度(文本難度)進行的研究很多,但多數都是基于文本難度的宏觀度量,對微觀的諸如語篇的基本組成部分——句子難度度量研究的較少[17],缺乏精確高效的難句抽取算法[18]。

          第三,對于抽取出來的難句,需要用機器翻譯方法給出翻譯,而目前的機器翻譯水平無法保證難句翻譯的準確性。

          3.2.2 參考傳統文本難度算法及通過人工干預實現難句提取

          首先,為了解決語篇預處理和缺乏準確高效的難句識別和抽取算法等問題,可以考慮在參考傳統的確定文本難度算法的基礎上,在純文本格式文件中實現自動難句提取,這樣就可以避開語篇預處理問題。文本難度(也稱為易讀性),是指文本易于閱讀和理解的程度和性質。易讀性依賴于多種因素, 主要包括文章的句子平均長度、生詞數和語法復雜度。英文易讀性的研究始于1920年代,研究者通過不懈的努力開發出了上百個易讀性公式[19]。通常易讀性公式使用文本的詞匯難度和句法難度來判定文本難度,詞匯難度以詞頻和詞長來衡量,句子難度以句子的長度來衡量。此外,近年來統計語言模型被引入易讀性研究中[20],但是在對語料庫進行預處理的基礎上進行的,這里無法采用。而傳統的文本難度計算中的詞匯難度、詞頻和詞長計算都可以在純文本格式文件中完成。由云平臺提供基于傳統文本難度算法的難句抽取軟件工具比較容易,雖然不能達到完全的抽取率,但大部分難句可提取出來。

          其次,在基于傳統文本難度算法進行難句提取時,應該注意成語和俗語問題。難句一般比較長,但長句不一定是難句;而含有成語和俗語的句子,有時雖然短,卻難以理解。因此,可從兩個方面考慮:首先是句長和句子中的詞頻因素。句子越長、其中詞匯難度越大(詞長、詞頻低),則句子是難句的可能性越大。其次是句中是否包含成語和俗語因素。在文學類讀物中,成語和俗語較多;在專業讀物中,也可能用到成語和俗語,但非常少。隨著自然語言處理技術和語料庫技術的發展,成語或俗語電子詞典的建立日趨完善,鑒于成語和俗語對讀者帶來的不便,在對文學讀物原著進行難句抽取時,可增加對成語和俗語因素的考慮。目前,英語是國際通用語言,對文本難度研究最成熟的也是英語,因而可嘗試首先在英文讀物中實現難句的自動提取。

          第三,對于通過文本難度算法提取出來的難句,由于不能通過機器翻譯方法給出準確的翻譯結果和句子分析,可根據讀物特點,從減少人力、物力需求的角度選擇不同的人工翻譯策略。對于文學作品中抽取出來的難句,可通過讀者論壇等方法討論解決;原版教材中的難句可由授課教師或教材引進部門組織專家翻譯放到服務器上提供給學生,同時可參考通過雙語平行語料庫的信息服務平臺等輔助完成翻譯[21]。

          第四,從語言水平級別劃分,外文讀物有很多種類,難句抽取應注意從讀物本身的文本難度出發來設計難句抽取算法,以滿足不同語言水平讀者群的需求。

          4 結 語

          人類已經進入數字出版時代,自然語言處理技術在云平臺的支持下將能為人們的語言學習提供多種服務。本文僅介紹和探討了最基礎的詞匯和難句抽取服務,且主要是從理念上加以討論,具體實施還需要出版社、語言學家和軟件技術人員的共同努力,并在實踐中持續改善。需要注意的是,雖然詞匯和難句提取能對讀者的閱讀提供幫助,但內容和文本難度仍然是外文原著閱讀能否成功的重要因素,出版社平臺應提供外文書籍的內容和閱讀難度分級信息。實踐證明,外文原著閱讀可以全方位地提高閱讀者的外語水平,教師許連贊 2001年通過讓學生閱讀原著的方法使學生的口語能力受到了外交官的好評[22],所以,我國數字出版如能提供外文原著的詞匯和難句抽取服務,將會對我國外語水平的整體提高產生積極影響。

          注 釋

          [1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6

          [3]蔡金亭,朱立霞. 認知語言學角度的二語習得研究:觀點、現狀與展望[J]. 外語研究,2010(1):1-7

          [4]李慶燊. 論英語詞匯教學中的誤區[J]. 教育與職業,2010(2): 176-177

          [5]王淼. 中初水平學習者在外語學習環境下的偶遇詞匯學習[D]. 上海:上海外國語大學,2004

          [6]李興珊,劉萍萍,馬國杰. 中文閱讀中詞切分的認知機理述評[J]. 心理學進展,2011,19(4):459-470

          [7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9

          [8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982

          [9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99

          [11]蔡子亮. 術語標準化與信息技術[J]. 英語科技術語的翻譯,2005(2):31-32

          [12]孫繼蘭. 外文原版教材出版提供詞匯抽取服務可行性分析[J]. 科技與出版,2013(4):54-57

          [13]黃河燕,張克亮,張孝飛. 基于本體的專業機器翻譯術語詞典研究[J].中文信息學報,2007,21(1): 17-22

          [14]劉婷婷. 云南省高職高專非英語專業學生英語閱讀理解長難句的障礙研究及解決方法[J].赤峰學院學報(自然科學版),2013,29(1,上):251-253

          [15]何正胤. 高中英語閱讀教學策略探析[J]. 湘潭師范學院學報(社會科學版),2006,28(2):179-180

          [16]常寶寶,俞士汶. 語料庫技術及其應用[J]. 外語研究,2009(5):43-51

          [17]江少敏. 句子難度度量研究[D]. 廈門:廈門大學,2009

          [18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.

          [19]章辭. 英文易讀性研究: 回顧與反思[J]. 湖南工程學院學報,2010,20(3):47-51

          [20]邢富坤,程東元. 基于統計語言模型的英語易讀性研究[J]. 外國語學院學報,2010,33 (6): 19-24

          [21]王傳英. 基于雙語平行語料庫的信息服務平臺建設[J]. 圖書館工作與研究,2010(12):79-82