首頁 > 文章中心 > 正文

          新句法標注模型

          前言:本站為你精心整理了新句法標注模型范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

          新句法標注模型

          論文關鍵詞:語料庫語言學語義處理句法標注模型

          論文摘要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在。基于大規模標注語料庫的語義處理已經成為發展趨勢,語料標注本質上就是語言知識(包括語義)形式化。現有句法標注模型主要包括基于短語結構語法(PSG)和基于依存語法(DG)的句法標注模型,還存在一些局限性。文章在現有句法標注模型的基礎上結合認知語法(CG)的有關理論提出改進思路,以探索新的句法標注模型。

          人類社會發展的基本軌跡是:原始社會—農業社會—工業社會—信息社會。人工智能的目標是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會的制高點。語言是人思維的物質外殼,人不可能離開語言而具備真正屬于人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分復雜,而基于現有計算機軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標注模型,進行大規模的語義標注,基于語料庫進行語義知識獲取和自然語言處理。

          一、句法標注模型

          語言的復雜性在于語言與認識的關系。語言具有意義,而意義是入對主客觀世界的認識結果。主客觀世界的復雜性決定了意義的復雜性,進一步決定了語言的復雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認識活動,是人對語言的認識。由此可見,語言離不開認識。人對主客觀世界的認識可以如此描述:認識主體借助認識工具按照認識方法處理認識對象獲得認識結果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動,認識結果是這一活動的產物,被多種認識因素共同決定,任何一種認識因素的改變必然導致認識結果出現或大或小的差異。顯然,認識結果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀能動性。從這個意義上講。認識不可能也不應該去被動地還原認識對象,而是從符合主體目的性出發,力求簡單有效地描述和預測認識對象。借用模型的概念,認識結果就是認識對象的模型(model),認識就是建立認識對象的模型,簡稱建模(modeling)。這是一種實用主義認識觀。

          模型一般分為心理模型(psychologicalmodel)、數學模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是認識對象在人認識中的定性關系,是數學模型的基礎;數學模型是認識對象在人認識中的定量關系,是物理模型的基礎;物理模型是人借助特定材料和工具按照認識對象的數學模型實現的物質結構。傳統意義上的建模主要指建立數學模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識能力是有限的,表現在:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數學模型,也不能建立任意數學模型的物理模型。由于具有明確的實用主義特點,建模在理工科領域大行其道,在文科領域也逐漸受到青睞。人類將二進制數學模型成功實現為晶體管物理模型,并開發出越來越復雜和先進的計算機軟件和硬件,從而進入信息時代。20世紀以來一些主要或次要的語言理論都或多或少應用了數學模型,特別是一些面向語言計算的語言理論。隨著計算機技術的飛速發展,人們對計算機自動或輔助處理語言信息的需求越來越大。但計算機的根本缺陷在于,凡是不能建立數學模型的信息都無法處理。傳統語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數學模型研究語言,稱為語言數學模型,簡稱語言模型(1anguagemodel)。統計語言模型(sta-tisticallanguagemodel)就是一個成功的例子。但統計語言模型的性能取決于訓練語料的規模和質量。目前,由于語料的不斷積累和計算機技術的不斷進步,語料規模已不成問題,語料中包含語言知識的數量和質量才是關鍵。

          計算機的語言知識主要來源于人。將語料中包含的語言知識標注出來,有助于計算機獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標注(corpustagging)。一般認為主要包括詞匯標注(1exicaltagging,分詞、詞結構標注、詞性標注、詞義標注等)、句法標注(syntaxtagging,語法樹標注、語義樹標注等)、語篇標注(discoursetagging,語體標注、領域標注等)等內容。經過標注的語料還可以用于語言學研究、語言教學、語言測試、詞典編撰等諸多理論研究和實踐應用領域,越來越受到人們重視,并形成一門新興學科——語料庫語言學(corpuslinguistics)。目前,相對句法標注,詞匯標注有更成熟的規范、準確率更高的技術和更大的標注規模。句法標注的主要困難在于,沒有一個真正成熟的語法或語義標注模型。句法結構尤其是語義結構很難統一描述,現有的句法理論還不完善,難以制定統一規范,標注主觀性很大,自動標注準確率比較低。因此,句法標注成了語料標注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:如果有了大規模、高質量的句法標注語料庫,圍繞語料庫的各種研究和應用有可能在現有基礎上產生質的飛躍。因此,研究句法標注模型應是當務之急。語料庫語言學屬于交叉學科,句法標注模型是語料庫語言學的基礎理論,又與語言學的句法理論密切相關。一方面可以借鑒現有句法理論,另一方面,也可以從語料庫語言學的角度研究句法,提出新的句法標注模型。

          二、現有句法標注模型

          句法標注(SyntaxTagging,ST)以句子的語法知識和語義知識為標注對象,是語料標注的重點、難點所在,要以一定的語法理論為基礎。根據語法理論制定的句法標注規則、過程和結果,稱為句法標注模型(SyntaxTaggingModel,STM)。短語結構語法(PhraseStructureGrammar,PSG)和依存語法(DependencyGrammar,DG)是現有句法標注的兩種基礎語法理論,彼此卻有很大的不同。基于PSG的句法標注模型稱為短語結構句法標注模型(PSG—basedTaggingMod—el,PSGTM),基于DG的句法標注模型稱為依存句法標注模型(DG—basedTaggingModel,DGTM)。根據現有語料標注的實踐結果來看,PSGTM與DGTM都存在一定缺陷。

          美國語言學家喬姆斯基(NoamChomsky)于1957年出版專著《句法結構》,從而奠定了短語結構語法(PSG)的理論基礎。其后發展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅動的短語結構語法(HPSG)、廣義短語結構語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標注基礎理論,為世界上眾多語料庫項目所采用和發展。法國語言學家特思尼耶爾(LucienTesnire)于1959年出版專著《結構句法基礎》,從而奠定了依存語法(DG)的理論基礎。其后發展起來的許多語法理論可以直接或間接歸到這一流派,如詞匯依存語法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重于語義,在CD、KD上表現得十分明顯。另外,DG更簡潔、直觀、經濟,適應性更強,因此反而有后來居上之勢,目前已經成為世界上較為通用的句法標注基礎理論。不過,在具體的句法標注實踐中DGTM還是暴露出一些問題,“對一些沒有明確依存關系的成分,標注起來則有些力不從心”,存在“依存失敗”現象,最突出的是難以標注缺省結構。缺省結構一直是句法標注中經常出現而且很難解決的問題。

          人類的自然語言符合經濟性原則,而缺省結構恰恰體現了這一原則。借助句子的前后上下文省略一些成分,人們仍然能夠理解,但對計算機來說卻是一種挑戰。句法標注的根本目的是讓計算機能夠正確提取句子的語法和語義知識。缺省結構在真實語料中大量出現,常常使得原本正常的句法結構變得異常,難以按已有規則進行標注。這是任何句法標模型都必須面對的問題,目前PSGTM和DGTM都還沒能夠很好地解決。以DGTM為例,在很多情況下,DGTM不但不能正確標注缺省結構,反而在一些語言規則的強制限定下給出違背真實語法或語義結構的標注結果,形成干擾信息。請看以下4個句子:

          句1:我看一下下書

          句2:(真是好書啊?)我看一下

          句3:我看一本書

          句4:(好多書啊!)我看一本

          句2是句1的賓語省略句,句4是句3的賓語省略句。(為簡便起見,把“一下”、“一本”作為一個詞處理)。

          問題出在句4。句1和句3的依存結構是不同的,然而句2和句4卻有了相同的依存結構。因為句4省略了“書”,根據DG理論,“一本”必須依存于獨立謂語成分“看”。于是“看一本”和“看一下”依存結構相同,實際上違反了句3的正確結構。當然,我們可以采取補救措施,為d1標注一個特殊的依存關系屬性Cerror(即依存失敗),但這不是好辦法。

          三、改進DGTM

          美國認知語言學家蘭蓋克(Ronaldw.Langach.er)分別于1987年、1991年出版專著《認知語法基礎》一、二卷,開創了認知語法(CG)理論,關于語法結構有如下觀點:如果一個構件A使另一構件B的一部分抽象變為具體,那么構件A就叫做概念自主(coneep.tuallyautonomos)的構件,構件B就叫做概念依存(conceptuallydependent)的構件。

          舉例來說:獨立地看,“一本”隱含一個抽象的、可數的、可用“本”量化的事物,可表示為“一本(x)”。“書”使“x”變得具體,因此“書”是概念自主的,“一本”是概念依存的。從信息表達的角度來看,“書”表達了相對完整而具體的信息,因此是概念自主的;“一本”表達了不完整不具體的信息,因此是概念依存的。從數學表達式的角度來看,“一本”類似函數,“書”類似參數,函數的地位顯然是第一位的,決定了對參數的處理過程和返回參數。例如,“舊書”與“一本書”的區別不在“書”,而在“舊”和“一本”。再從閱讀認知過程來看,當人們讀到“一本”時,實際上已經在期待“一本”后面那個具體事物跟著出現。為什么我們覺得“我看一本”是缺省句?因為“看”和“一本”相對“書”都是概念依存的,因此人們會判定,“我看一本”的缺省成分可能是“書”。而讀到“我看書”時,人們不會認為這是一個省略句,因為“書”表達的信息已經自足了。

          由此有足夠的理由認為:在句法結構中,“一本”應是“書”的父結點,而不是按傳統的補足中心原則,中心成分總是限定成分的父結點。依存成分是自主成分的父結點,這一原則可以稱為依存中心原則(DependencyHeadPrinciple,DHP)。采取這種原則的DGTM必然會有不同的標注結果。

          深入研究發現,僅僅采用DHP是不夠的,DGTM的其他參數也需要改變。例如,“看(x)”和“一本(x)”這兩個表達式在與其他詞語組合時是有區別的。“看(x)”與“我”組合時由“看”與“我”產生聯系。“看”與“一本(x)”組合時卻是“x”(書)與“看”發生聯系。代表表達式與其他詞語組合的成分稱為返回參數,不同表達式的返回參數是不同的。例如。“一本(x)”返回參數為“x”,“看(x)”返回參數為“看”。正因為如此,表達式“看(一本(書))”成立,“一本(看(書))”不成立。另外,表達式“(x)一下”的返回參數為“x”,即“看”;表達式“(x)看”的返回參數為“看”。根據這些定義,句1、2、3、4的改進DGTM。

          根據函數、輸入參數、返回參數的關系,各句結構的逆構造過程如下:

          句1:我看一下書:(((我)看(x))一下)(書)=((看(x))一下)(書)=看(x)(書)=看(x=書)

          句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)

          句3:我看一本書:((我)看(x))(一本(書))=看(x)(書)=看(x=書)

          句4:我看一本:(我)看(一本(x))=看(x)

          句1和句3的x有明確取值,為完整句。句2和句4則是缺省句。基于看(x)和一本(x)的知識,可以預測并判定缺省結構及其成分。

          直觀看來,改進DGTM與原DGTM的標注結果有了很大的差異由于不采用補足中心原則,因此改進DGTM標注結果并不符合在補足中心原則影響下人們長期以來形成的語感。但更符合人們閱讀認知經驗,而且可以按函數標準給出形式化地解釋,其解釋結果符合句子本身的語法和語義結構,沒有錯誤和干擾信息。因此,改進DGTM更適合計算機處理,更符合句法標注的本來目的。

          四、結語

          PSGTM的語法理論基礎是PSG,DGTM的語法理論基礎是DG,改進DGTM的DHP受CG的啟發,其語法理論基礎應該是CG。但CG只是從理論上提出了“概念自主”和“概念依存”的概念,并沒有嚴格定義和證明依存成分與自主成分之間的主從關系。在CG的實際應用中,存在有時自主成分為短語中心語,有時依存成分為短語中心語的情況。

          根據CG理論,“above”是“abovethetable”的中心語。“lamp”是“lampabovethetable”的中心語。然而,根據CG對概念自主和概念依存的界定,相對“ta-ble”和“lamp”,“above”是概念依存的,具有兩個抽象部分“(x)above(y)”,“lamp”使“x”具體化,“table”使“y”具體化。如果嚴格執行DHP,“abovethetable”和“lampabovethetable”的中心語都應該是“above”。但這樣一來,怎樣解釋“movethelampabovethetable”中“move”直接依存“lamp”的關系?根據改進DGTM,可以定義“(x)above(y)”的返回參數是“x”以解決這一問題,但CG不會這樣處理,而是將“lamp”限定為“lampabovethetable”的中心語,從而與“move”直接聯系,這樣就不符合DHP的要求。

          因此,改進DGTM的語法理論基礎不可能是CG,必須構建一種新的語言模型。目前我們正融合哲學二元論與本體論、心理學、信息科學、網絡通信模型、離散數學、語言學(依存語法、認知語法、范疇語法)、藝術學等理論的相關概念和原理,結合人的一般認知經驗,建立一種新的句法標注模型,并初步用于經典漢語句式的表征,取得了較好效果。

          文檔上傳者