+ All Categories
Home > Documents > From Frame to Subframe: Collocational Asymmetry in...

From Frame to Subframe: Collocational Asymmetry in...

Date post: 12-Mar-2018
Category:
Upload: buidung
View: 223 times
Download: 7 times
Share this document with a friend
336
Forward Chin-Chuan Cheng Academia Sinica We felt it was time in 2000 to take a concerted action to work on Chinese lexical semantics. The study of word senses in traditional discipline of Xungu appeared to be done piecemeal. The truth-theoretic model of proposition looked illusive at times. Colleagues working on natural language processing demanded a better dictionary for word disambiguation. Few theoretical claims about human manipulation of senses were available. We therefore organized a workshop on lexical semantics to discuss these issues and others at the City University of Hong Kong four years ago. The one-day gathering was fairly informal. But we had fun knowing each of the score of colleagues from Taiwan, Hong Kong, Mainland China, and the United States. We did not call it “First Chinese Lexical Semantics Workshop”. We simply called it a lexical semantics workshop without knowing its consequences. Somehow the gathering in Hong Kong made Professor Yu Shiwen of Beijing University happy. He should be because he had worked on semantics for years. In 2001 he invited more people to the meeting with the title of “Second Workshop on Chinese Lexical Semantics”. The Beijing meeting was enthusiastically followed by the “Third Workshop” in Taipei. Professor Huang Chu-ren was energetic enough to set up the mechanism of abstract submission and evaluation. Some submissions had to be left out because of a large number of excellent papers. The fourth workshop returned to the City University of Hong Kong in 2003. We were not daunted by SARS. Although trip restrictions made us stay home, our papers got exchanged and commented on via the internet. We received hundreds of comments, perhaps more than we would in a face to face conference. It is now 2004. I am pleased to see the workshop fully alive in its fifth year of existence. Our hosts, Drs. Ji Donghong and Lua Kim Teng have kindly accepted our imposition and aptly made arrangements for us to see each other face to face here in Singapore. We are grateful to them for the arrangements. We are also grateful to them for gathering papers in this volume for discussion. I am sure during the workshop we will move away from piecemeal studies of words. We will be a step closer to theoretical generalizations about human cognition of words. 1
Transcript
Page 1: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Forward

Chin-Chuan ChengAcademia Sinica

We felt it was time in 2000 to take a concerted action to work on Chinese lexical semantics. The study of word senses in traditional discipline of Xungu appeared to be done piecemeal. The truth-theoretic model of proposition looked illusive at times. Colleagues working on natural language processing demanded a better dictionary for word disambiguation. Few theoretical claims about human manipulation of senses were available. We therefore organized a workshop on lexical semantics to discuss these issues and others at the City University of Hong Kong four years ago. The one-day gathering was fairly informal. But we had fun knowing each of the score of colleagues from Taiwan, Hong Kong, Mainland China, and the United States. We did not call it “First Chinese Lexical Semantics Workshop”. We simply called it a lexical semantics workshop without knowing its consequences.

Somehow the gathering in Hong Kong made Professor Yu Shiwen of Beijing University happy. He should be because he had worked on semantics for years. In 2001 he invited more people to the meeting with the title of “Second Workshop on Chinese Lexical Semantics”. The Beijing meeting was enthusiastically followed by the “Third Workshop” in Taipei. Professor Huang Chu-ren was energetic enough to set up the mechanism of abstract submission and evaluation. Some submissions had to be left out because of a large number of excellent papers. The fourth workshop returned to the City University of Hong Kong in 2003. We were not daunted by SARS. Although trip restrictions made us stay home, our papers got exchanged and commented on via the internet. We received hundreds of comments, perhaps more than we would in a face to face conference.

It is now 2004. I am pleased to see the workshop fully alive in its fifth year of existence. Our hosts, Drs. Ji Donghong and Lua Kim Teng have kindly accepted our imposition and aptly made arrangements for us to see each other face to face here in Singapore. We are grateful to them for the arrangements. We are also grateful to them for gathering papers in this volume for discussion. I am sure during the workshop we will move away from piecemeal studies of words. We will be a step closer to theoretical generalizations about human cognition of words.

1

Page 2: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Content Table詞語管窺與宏圖.........................................................................................................................1现代汉语中的形式动词.............................................................................................................7The Sinica Sense Management System: Design and Implementation......................................15论汉语释义元语言的特征.......................................................................................................23同源角色框架的表达和计算...................................................................................................39From Frame to Subframe: Collocational Asymmetry in Mandarin Verbs of Conversation......47詞彙素描與多義詞詞義辨識...................................................................................................53隐喻性成语的语义映射...........................................................................................................61漢語情態詞「一定」、「必定」的語義發展與互動...........................................................69略论汉语自然语言的型式 (D-Type Theory ).........................................................................76「別」的語義演變...................................................................................................................84Using WordNet and SUMO to Determine Source Domains of Conceptual Metaphors...........91From Lexical Semantics to Conceptual Metaphors: Mapping Principle Verification with WordNet and SUMO.................................................................................................................99基于现代汉语语法信息词典的词语情感评价研究.............................................................107关于名词多层级分类标注的构想.........................................................................................114基于数据库的汉语语义构词法初探.....................................................................................120论词的语义网络中语义成分的动态性.................................................................................128Feature Representations and Logical Compatibility between Temporal Adverbs and Aspects.................................................................................................................................................133信息处理用现代汉语虚词义类词典研究和工作单设计.....................................................143Multiple-layer Semantic Derivations of Two-part Allegorical Expressions in Taiwanese Southern Min (TSM)...............................................................................................................152基于《知网》的中文信息结构抽取.....................................................................................161词义关系推理.........................................................................................................................169双向考察和验证:并列成分中心语的语义关系和 CCD的名词语义分类体系...............174面向中文信息处理的现代汉语无标记并列结构歧义问题研究.........................................181基于WordNet建立中文同义词词林的上下位关系.............................................................189基于 hownet的无导词义消歧...............................................................................................194蘇軾詩典故用語研究.............................................................................................................201Pan-Chinese Variation on Verbal Synonymy: A Study of Common Reportage Verbs in News Texts........................................................................................................................................213The Usage and Perception of Judgement Termsin the Pan-Chinese Context.........................220漢語詞語與詞素之正負面:三地褒貶詞語初探.................................................................228

——词义的关系与词义 上古汉语“玉”组词的初步研究.....................................................237词义性质与“X了”中“了”的词义.........................................................................................244

2

Page 3: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

汉语词义的微观结构及其切分与描写.................................................................................249汉语的韵律成分界定与句法.................................................................................................254Taxonomy of Fine-grain Semantic Roles for Nominal Modifiers..........................................259閩南語語氣詞 hann、hio、honn的語義比較研究..............................................................264海陸客語副詞"才"與"就"之語義研究..................................................................................268Semantics-related Lexical Access Deficit of Mandarin-Chinese Dyslexia.............................272「少許」、「些許」的複合化過程及語義演變.................................................................276「臉」和「面」在現代華語中的語義區別.........................................................................280义项语汇典例(SVDE ——)的总量控制模型 人机协作对采用汉语注释的语义词汇典例进行计量分析.........................................................................................................................284台灣閩南語中手部動作特指「打」的語義探析.................................................................290大學生對於華語「沒面子」和「丟臉」兩詞彙語義區別的研究.....................................294简直”句式的语义逻辑分析及其生成...................................................................................301从篇章角度看名词性词汇成分的语义关系.........................................................................305《人民日报》语料库专有名词分类的研究.........................................................................311Verbs of Urging in Hakka: A Perspective from Force-Dynamics...........................................316

3

Page 4: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

詞語管窺與宏圖鄭錦全

中央研究院語言學研究所

本文報告中央研究院語言學研究所在詞語方面的研究計畫。表面上看來,各個計畫有各自的領域,其實,詞語這個主題貫穿漢語數位學習、詞網與語義、古今文本典藏、以及神經語言學的實證研究。我從語言符號的數量管窺人的語言認知,擴大學習同仁詞語研究的宏圖。一、語言符號的數量

過去我提出“詞涯八千”的看法(鄭錦全 1998),認為一個人能掌握的詞的數目一般不超過八千。這個看法的理據是二十五史所用的漢字統計以及二百本英文偉大著作的詞語數目。因為漢語文本用的是漢字,因此有人認為這個看法應該叫做“字涯八千”。我認為,雖然用的資料是漢字的文本,但是從這裡提昇出來的理論應該包括所有人的語言能力。古往今來,大部分的人都不識字,但是他們跟識字的人兩相比較,說起話來一樣可以天花亂墜,並沒有詞窮的時候。因此用漢字的認知來侷限人對語言的掌握是不全面的。我所說的“詞”在這個看法裡是詞素,詞素是語言裡具有意義的最小單位。我所檢查的英文詞語是經過剪裁的,去掉語尾語形變化,回歸基本字形,因此英文的詞也是詞素。人類能夠從有限的詞素衍生出許多詞語、詞組、句子以及論述的篇章,所靠的就是利用有限的成素產出無限的語言段落的能力。這就是人的語言創造力。

有人問,英文的 bank有“銀行”跟“河岸”兩個意思,那麼,bank是一個詞還是兩個詞?我在做詞涯八千的研究時並沒有把它分開為不同的詞;中文的‘愛’可以是“對人或事物很深的感情”,如‘愛孩子’;‘愛’又有“容易”的意思,例如‘最近愛下雨’。那麼,這兩個‘愛’是一個詞還是兩個詞?這一類的問題我以前都沒有詳細討論,最主要的理由是因為我把詞涯八千的詞看作是人類操控的語言的最小符號,詞涯八千說的是人類能夠掌控的語言符號的數量。一個符號,如綠色,台灣股市報道以綠色代表跌價,在交通號誌上代表通行,所以綠色符號可以代表至少兩個不同的意思。同樣,英語一個 bank有兩個不同的意思,中文的‘愛’也至少有兩個不同的意思,但是,這是一個語言符號。詞涯八千所說的就是一個人所能夠用的語言符號的上限,這也就是說,因為人能夠掌握的符號有一定的數量,而社會生活中的現象以及平時所需要表達的概念很多。例如,我們說人間百態、千奇百怪等等,都表示世界上的事物及概念隨著社會的變化而積累,因此,以有限的符號來代表許多不同的概念,就會形成異義同音同形

1

Page 5: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

的同音詞,這也是詞涯八千對同音詞的形成以及其必然存在的一種解說。如果語言符號的數量沒有上限,那麼,新的概念就可以用新的符號來表示。事實上,一個語言符號通常代表兩個或更多的意思。在這樣的認知制約之下,詞語是如何衍生、運用及習得的?這是我的中心課題,這個主題同時也瀰漫在中央研究院同仁的幾個研究計畫中。二、數位學習的輔導功能

我們詞語研究的一個項目是國家科學委員會資助的數位學習計畫的詞語教學(鄭錦全等 2004)。大量閱讀是學好語言的一個途徑。我們利用中央研究院現成的“平衡語料庫”、“上古漢語語料庫”、“近代漢語語料庫”及元智大學的“唐詩三百首語料”的龐大資源,編出詞頻,建立中文詞彙知識架構,設計語文教學介面,落實“一詞泛讀”的語文教學理念。

一個人從小到大,讀過、聽過很多詞語在語言段落中出現的情形,從而瞭解該詞的用法。但是以漢語作為外語學習的成年人,或是一個對某詞語的用法有疑問的說漢語的人,沒有時間閱讀許多本書來理解某一個詞語。數位學習計畫的一詞泛讀是針對正在學習的一個詞語,由電腦檢索語料庫,得出該詞出現的大量語段,提供上下文,讓學習者廣泛閱讀,瞭解詞義和用法。例如‘溺愛’,在資料庫裡可以查到許多出現的語段,底下是其中的幾個例子。

…父母當然很欣喜。這不像一些被父母溺愛得讓人傷透腦筋的孩子,性情一直趨向……在父母方面,他們對於子女應該做到不溺愛及不放縱;在教育方面,有關單位需要……容忍力的不適當發展。比如說過度地溺愛小孩子,溺愛跟容忍是不是一樣的。……比如說過度地溺愛小孩子,溺愛跟容忍是不是一樣的。……容忍力,反而沒有幫助。我們過度地溺愛小孩子,讓小孩子培養一個以自我為……這媽媽很…等於說,很尊重她,很溺愛她,她並不了解,學校也有學校的規範……應該怎麼樣來拿捏才不會變成溺愛呢?讚美的太過分,會不會把孩子寵壞…

2

Page 6: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

…這樣雖然好,但過度的溺愛與保護,卻也使孩子養成了依賴的心理…從每一個語段都有‘父母’或‘孩子’看來,‘溺愛’是父母和子女的關

係的表徵,所列舉的語言段落沒有子女溺愛父母的,只有父母溺愛子女。‘溺愛’和‘敬愛’比較,更能看出‘溺愛’適用的語言環境。‘敬愛’的意思也是對人很深的感情,共同出現的詞語卻沒有像‘溺愛’那樣的限制,列舉如下:

…一個人希望別人敬愛你,必須自己先付出,從自己做起。……父母一般孝敬,甚至於當作是活佛一般敬愛,秉持這分心來扶持他們。……在培育年輕的學生;而愛護大樹,就像敬愛老人般。…要愛護栽培;對待老人更要以尊重、敬愛之心,來保護老人。……得到他們對你的疼愛,同時你也很孝順敬愛來回饋他們,那麼在親子之間……在五月五日投江自殺。人們都很敬愛這位愛國詩人,……重要的是在內心對父母存著一片深切的敬愛而且經常用和顏悅色來表達這種心意…‘敬愛’適用的範圍比較廣,可以是別人敬愛你,也可以是你孝敬父母,也

可以是敬愛老人,也可以是孝順父母,也可以是敬愛愛國詩人。讀者針對一個詞語,廣泛閱讀該詞出現的語言段落,從語境中提煉出‘敬愛’的用法。但是,不是所有的學生都能做總結,有人可能不會偵查或感覺到關鍵所在,因此我們還要加上自動化的輔導來幫助學生提煉出規則來。這樣的輔導需要有詞語的知識,有“詞彙描述”(Kilgarriff and Tugwell 2001) 的功能來幫助學習者,以語境中搭配出現的詞語的統計來告訴讀者‘溺愛’是用於父母對子女的愛護,‘敬愛’的對象可以是同輩、父母、老人等等。初學的人可能不一定能夠在閱讀中了解詞語細微的語義內涵,我們所提出的輔導就是要在最短的時間內幫助學習者得出語言的規則來,加快學習步伐,豐富學習內容。一詞泛讀就是針對一詞來檢查許多出現的語言段落,讓讀者瞭解語意的細緻的意思跟用法,所以我們提出以大量的語言材料來幫助學習者對詞語的學習。

那麼,如何建構詞語知識使閱讀輔導能夠在顯示每個文本段落時指出共同出現的詞語以及這類詞語的語義特性?我們需要從一個詞匯語料庫開始,現有的平衡語料庫,有詞類的標記。例如,上面列舉的段落的標記內容稍微縮短如下:

3

Page 7: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

…像(VG)一些(Neqa)被(P)父母(Na)溺愛(VC)得(DE)讓(VL)人(Na)傷(VHC)[spv]…

…子女(Na)應該(D)做到(VE)不(D)溺愛(VC)及(Caa)不(D)放縱(VJ);在(P)…

…發展(Na)。比如說(P)過度(A)地(DE)溺愛(VC)小孩子(Na),溺愛(VC)跟(Caa)…

…地(DE)溺愛(VC)小孩子(Na),溺愛(VC)跟(Caa)容忍(VK)是(SHI)不(D)……我們(Nh)過度(Dfa)地(DE)溺愛(VC)小孩子(Na),讓(VL)小孩子(Na)…

我們可以看出現在的標記是詞類的內容多於語義的內容,不過從‘溺愛’的詞類“VC”知道是及物動詞,及物動詞需要動作的主人“施事”及“受事”,“施事”和“受事”是名詞性詞語,從標記中找 N類的詞語就會找到‘父母’、‘子女’等等。當然,這樣的詞語知識的建構需要人工處理,不能完全讓電腦自動完成。這是我們數位教學計畫的重要環節。建構詞語知識的過程需要檢查語料庫的語料,對每個詞語的共同出現的詞語的檢查一般要看 50個漢字的段落。我們以前在研究話題延續時,發現語法上相互關聯的段落大約是 50個字,這些字組成“鄰里”構成短暫記憶所操弄的模塊,模塊的大小我稱為“字鄰半百”(鄭錦全 1998)。

閱讀輔導的知識就是詞語語義及語法信息的知識。詞彙語義學的研究是輔導的基礎。三、詞語主題貫穿古今數位語言典藏

中央研究院的語言典藏是國家型科技計畫的一部份(鄭錦全等 2002),包括幾個子計畫。子計畫“近代漢語詞彙庫”所典藏的《紅樓夢》、《平妖傳》、《金瓶梅》、《水滸傳》、《儒林外史》、《老乞大》、關漢卿戲曲、元雜劇等文本,有詞語的標記。子計畫“先秦金文簡牘詞彙資料庫”以殷周春秋青銅器銘文和戰國出土簡牘為主的資料對人名、官名、地名、機構、官職等做精確的標誌與分析,讓我們瞭解早期詞彙的出現情形。子計畫“二十世紀漢語語料庫與句法結構資料庫”以四十幾個詞類對現代漢語的五百萬詞進行標記,使語料能夠運用於資訊檢索、自動答問、文章摘要等典藏處理。子計畫“新世紀語料庫-多媒體的語言呈現與典藏”以當今的多元化的內容來表現現在台灣的漢語應用的實際面貌。子計畫“閩南語典藏-歷史語言分布與變遷資料庫”從十六世紀的閩南語《荔鏡記》開始,到二十世紀的歌仔冊,有文本的典藏和斷詞詞類標記,以便理解閩南方言近幾百年來演變的情況。本子計畫同時調查新竹縣新豐鄉閩南客家雜

4

Page 8: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

居的家戶用語,以地理資訊系統研究其分布及閩客方言互動。子計畫“台灣南島語語料庫詞彙庫與語法”內容取自不同的南島語言,包括魯凱語、雅美語、鄒語、賽夏語、泰雅語、排灣語、布農語、阿美語及卑南語等,詞語的研究包括同源語及非同源語的分布,也是本子計畫的重要一環。

四、詞網與詞義分析在黃居仁(2004)的主導下,語言所一個團隊對漢語詞義的區分和表達進

行深入的研究,詞語以出現的頻率分別收集,界定詞義、義項、詞類並且加入例句。本團隊還研究漢英雙語詞網的架構和本體論,具有雙語研究及教學的功能(Huang 2003)。這一方面的研究黃居仁另有論文討論,這裡不加細說。五、詞語在大腦中的活動

我們從實際的文本來檢查詞語的發生與運用以及從金文簡牘到現代漢語的演變,但是這只是從人運用詞語的成果來考察,對認知的瞭解是不全面的,只有配合人的詞語運用的實際過程,從大腦、神經以及心理活動的測試才能更全面的看出人對語言符號的運用的能力。因此,我們有一項主題計畫,從實驗及大腦活動的研究來幫助我們對語言符號認知的理解(鄭錦全等 2004)。

本計畫的題目是“字詞辨識:行為、發展以及神經生理取向的整合性研究”,包括的內容有聲韻表徵與閱讀發展、中文字視覺字性分析相關腦神經機制的時序演進、以鄰項個數效果探討中文字詞辨識歷程--事件誘發電位之系列研究、利用穿顱磁刺激探討中文字詞辨識的腦神經機制、以行為及腦部事件相關電位實驗探討對中文雙字詞的錯誤連結記憶。所用的先進技術包括電位腦電波、腦磁波、功能性磁振造影、穿顱腦磁刺激術等考察詞語辨識的時候腦部的活動,從這些腦功能顯影技術來瞭解語言行為中的大腦運作(Kuo at al . 2003)。六、願景

現代語言學是結合人文與科技的學科,一個人只能管窺,跨學科的群組研究才有希望得到比較全面的知識,我們希望以詞語為主題的各項研究計畫在三、五年內能得到新穎的結果,可以讓我們建構人類語言符號認知的宏觀理論。

*本研究得到國家科學委員會的資助,數位學習國家型科技計畫整合型計畫編號93-2524-S-001-003。

5

Page 9: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

引用書目黃居仁 . 主編 . 2004.中文的意義與詞義 . 台北: 中央研究院語言學研究所。鄭錦全 . 1998. 從計量理解語言認知 . In Benjamin K. Tsou, Tom B. Y.

Lai, Samuel W. K. Chan, and William S-Y. Wang eds. 漢語計量與計算研究 (Quantitative and Computational Studies on the Chinese Language) 15-30. City University of Hong Kong.鄭錦全 魏培泉 陳昭容 陳克 健 曾 淑娟 . 2002. 語言典藏計畫 . 數位典藏國家型科技計畫中央研究院機構計畫. 鄭錦全 黃居仁 羅鳳珠 蔡美智 . 2004. 兼具教學與研究功能的全球華語文數位教與學資源中心. 國科會數位學習國家型科技計畫整合型計畫 鄭錦全 洪蘭 曾志朗 李佳穎 蔡介立 郭文瑞 阮啟弘 李俊仁. 2004. 字詞辨識:行為、發展以及神經生理取向的整合性研究. 中央研究院主題計畫.

Huang, Chu-Ren. 2003. SINICA BOW: Integrating il ingual WordNet and SUMO ontology. Invited panel talk: Synergy Between Language Resources and Knowledge Resources. The 2003 IEEE International Conference on Natural Language Processing and Knowledge Engineering (NLPKE2003), Special Session on Upper Ontology and Natural Language Processing. Beijing. Oct. 28.

Kilgarriff , Adam and David Tugwell . 2001 WORD SKETCH: Extraction and display of s ignif icant collocations for lexicography. In Proceedings of . Workshop on COLLOCATION: Computational Extraction, Analysis and Exploitat ion 32-38. 39th ACL & 10th EACL, Toulouse, July 2001.

Kuo, W.J. , T. C. Yeh, C. Y. Lee, Y. T. Wu, C. C. Chou, L. T. Ho, D. L. Hung, O. J . Tzeng, and J . C. Hsieh. 2003. Frequency effects of Chinese character processing in the brain: an event-related fMRI study. Neuroimage 18:720-730.

6

Page 10: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

现代汉语中的形式动词俞士汶 朱学锋 段慧明

北京大学计算语言学研究所 100871 中国[email protected] [email protected]

摘要现代汉语中包括“加以”、“进行”等在内的一类动词叫做“形式动词”。本文在简述了“加以”和“进行”的词汇语义之后,比较详细地讨论了它们的语法属性,还进一步探讨了它们作为句法成分和语义角色的标记的功能。关键词 形式动词 词汇语义 语法属性 语义角色

Dummy Verbs in Contemporary ChineseYU Shiwen ZHU Xuefeng DUAN Huiming

Institute of Computational Linguistics,Peking University 100871 [email protected] [email protected]

Abstract

In contemporary Chinese, there is a subclass of verbs called Dummy Verbs. After briefly introducing the lexical meanings of two typical dummy verbs ‘Jiayi’ and ‘Jinxing’, this paper discusses the grammatical attributes of ‘Jiayi’ and ‘Jinxing’ in detail, and further explores their functions as the marks of syntactic constituents and semantic roles.

Keywords : Dummy Verb, Lexical Meaning, Grammatical Attribute, Semantic Role

1. 形式动词的所指北京大学计算语言学研究所开发的《现代汉语语法信息词典》(以下简称《语法

信息词典》)收录了若干“形式动词(Dummy Verb, DV)”。在相关论著中,介绍了DV的概念及其语法属性[1]。在《语法信息词典》中忽略 DV的特殊性,只将 DV和其他动词等量齐观,设计同样的语法属性字段。本文力图汇集语言学家的研究成果,突出形式动词作为句法成分和语义角色的标记的功能,这样的知识对语言信息的自动处理是十分有价值的。

据笔者所知,最早提出汉语形式动词概念的是吕叔湘先生[2]和朱德熙先生[3]。朱德熙先生又称“形式动词”为“虚化动词”。又找到了其后有关形式动词的论文 6篇,除[9]涉及信息处理外,[4-8]都属于本体研究或教学研究的范畴。面向信息处理的《语法信息词典》是在朱德熙先生的语法理论体系指导下研制的。

7

Page 11: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

本文的理论基础也是朱德熙先生于 1985年发表的论文《现代书面汉语里的虚化动词和名动词》。该文列举的形式动词有“进行、加以、给予、给以、予以、作”。可以将朱先生列举的DV分为 3 组:①“加以、给予、给以、予以”,② “进行”,③ “作”。

本文除对形式动词的共性进行一般性讨论外,还重点讨论两个最典型的形式动词:第①组中的“加以”和第②组的“进行”。本文不讨论“作”。另外,《语法信息词典》将“有”(取其“表示发生或出现”的义项,指“体重有增加”中的“有”)列入形式动词是否得当,也不讨论。_____________________________________________________________________________* 本文相关研究得到中国国家 863 计划(2001AA114210,2002AA117010)和国家自然科学基金(60173005)的支持。 2. 形式动词的词汇语义

朱德熙先生对形式动词的词义有一个统一的说法:“这些动词原来的词汇意义已经明显地弱化了,因此在某些句子里把它们去掉并不影响原句的意思。”朱先生给出的例句有

关于矛盾的特殊性问题应当着重地(加以)研究。他们花了整整一年时间(进行)调查。对于这种损坏公物的行为应当(给以)批评。两国政府将采取果断措施与恐怖主义(作)斗争。朱先生又指出这些句子中的DV 还可以互换。改为“进行研究”、“作调查”、“给予

批评”、“予以批评”、“进行斗争”,原句意思不变。这也是DV 词汇意义弱化的表现。但“弱化”不等于没有。深入了解DV的词汇意义还是有用的。

“加以”是最典型的DV,也是吕叔湘先生在《现代汉语八百词》中唯一明确指出的DV。记得在学算术时,老师强调了“乘”与“乘以”、“除”与“除以”的区别,“3*4”要读作“3乘以 4”,不能说“3乘 4”;“8÷4” 要读作“8 除以 4”,不能说“8 除 4”。当时记住了,并不理解。现在知道“3乘以 4”可以解释“用 4乘 3”;“8除以 4” 就是“用 4 除 8”。算术中不用“加以”和“减以”。“加以”在日常用语中有了约定俗成的特定意义和用法。《现代汉语词典》[10]对“加以”列了两个义项。其一“表示进一步的原因或条件”,可以替换为“加上”,查《现代汉英词典》[11],它的对译的英语词是 in addition 或 moreover,实际上它的词性是连词,不属于 DV 范畴。其二“表示如何对待或处理前面所提到的事物”,与《现代汉语八百词》的释义“表示对某一事物施加某种动作”基本一样,这是DV的意义和用法。需要注意到,这里“施加的” 是动作,而不是事物(数也是一种抽象的事物)。

“进行”是另一个典型的DV。《现代汉语词典》的“进行”有两个义项。其二是“前进”,不是DV的意思。其一是“从事(某种活动)”,正是DV的意思。但“从事”并不比“进行”更易懂、更常用。再查“从事”,从两个义项中选出的一个相应的释义是“投身到(事业中去)”,接着查“投身”,释义是“献身出力”,最后查“献身”和“出力”。“献身” 的释义是“把自己的全部精力和生命献给祖国”,“出力” 的释义是“拿出力量”,至此释义只使用了常用的词语,意思似乎也明白了,但同平时所理解和使用的“进行”又相距甚远。如果从构词角度考虑,“进行”显然

8

Page 12: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

是由“进”和“行”构成的复合词,“进”和“行”都有动词意义,择其相关的义项,“进”为“向前移动”,“行”为“表示进行某项活动”,无论动词“进行”是联合结构还是偏正结构,“行”总是处于中心(head)地位,于是出现了循环定义:又用“进行”解释“行”。这样看来,利用面向人的词典中对词义的解释,计算机是不可能“理解”词的语义的。大概人也不是通过查词典理解“进行”这样的词的意义和学会它的用法的。尽管形式动词的意义已经弱化,但区分其不同义项(sense)仍然是值得探究的问

题。在大规模基本标注的语料库中调查形式动词所带宾语的情况以及作为宾语的词语的语义,可能会发现形式动词的不同义项和用法。现在从事这样的研究的条件已经具备,不过仍然需要投入精力和时间。本文缺乏这样的研究结果,留下了遗憾。面向汉语信息处理的一些词汇语义知识库[12-15]也包含了“加以”、“进行”等形式动词。由于缺乏应用的实践,笔者现在还不能给出确切的评价。面向“自然语言理解”的形式动词的词义表达及其形式化还有很多工作要做。翻译是区分义项、也是检验“理解”的手段之一,第 4节涉及到“进行”的英语译法。 3. 形式动词的语法属性

汉语语法学界很早就注意到句法和语义必须结合。陆俭明先生指出:“句法研究可以从形式入手,也可以从语义入手,但是如果从形式入手,所得结论需要找到意义上的依据;如果从意义入手,所得结果需要找到形式上的表现。”[16]也就是说,从事汉语本体研究的学者是句法语义并重的。自然语言处理的终极目标是实现自然语言的机器理解,当然也必须句法语义并重。不过,在自然语言理解最终实现之前,要让自然语言处理技术在信息处理应用领域发挥作用,笔者认为,从句法形式入手不仅比较容易、比较现实,而且句法形式研究可以为语义理解研究做好必要的铺垫。因此,笔者与同事们对语义虽然也有所涉猎,但一直把汉语句法分析(包括方法与知识库两方面)作为最重要的基础研究而投入了热情和精力。《现代汉语语法信息词典》是为汉语自动分析和生成服务的电子词典,它对于动

词的语法属性有相当详细的描述[1]。可以很容易地从动词库中检索出所有的DV及其全部属性值。不过,该词典按词类设立属性字段,动词亦然,并没有考虑DV的特殊情况。因此,对形式动词的描述还是不够充分、不够缜密的。以下分情况讨论 DV的句法功能及其各种语法属性。吕叔湘先生只讨论了“加以”

的带宾语的情况和受副词修饰的情况。本文也从这里开始。3.1 形式动词的宾语 形式动词的最重要的特征就是它带宾语的情况。吕叔湘先生指出,“(加以)必带

双音节动词宾语”。朱德熙先生指出,“虚化动词所带的宾语只能是表示动作的双音节词”。

吕叔湘先生是这样区分汉语及物动词和不及物动词的:“及物动词后边可以带一个表示承受动作的事物的名词,称为宾语。不及物动词不能带这样的名词。”

9

Page 13: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

《语法信息词典》认为“能带真宾语的谓词是及物动词”,继承了朱先生的定义,与吕先生的定义相容。需要注意:(1)汉语的及物动词可以带真宾语,不等于说在句子中一定带宾语。第①组“加以”等DV必须带宾语,这一点不同于一般的及物动词,在语句中必须带宾语的及物动词可以叫做“粘宾动词”。(2)宾语不一定是名词,这一点表面上对吕先生的定义有所扩展,但并不与吕先生的观念冲突,因为吕先生已经指出“加以”必带动词宾语。真宾语可以分为 3 类,即 ①体词性的,②谓词性的,③准谓词性的。

形式动词必须带的宾语绝大部分都是准谓词性的,少数是体词性的。作为“加以”、“进行”宾语的双音节及物动词失去了原有的一些特点,如不能再

受副词修饰,不能再带宾语,如果这样的宾语要扩充,也只能扩充为体词性的定中短语。这样的宾语就是“准谓词性宾语”。能够担任“准谓词性宾语”的双音节动词是动词的一个子类,即“名动词”。本文重点讨论形式动词的“准谓词性宾语”,不宜为“名动词”多费笔墨。并非只有形式动词才能带“准谓词性宾语”。像“接受邀请”中的“邀请”也是“

准谓词性宾语”,属于名动词,但“接受”并不是形式动词。另一方面,“拒绝邀请” 中的“邀请”又不是“准谓词性宾语”,因为它除了可以扩充为体词性的定中短语,也可以扩充为谓词性的述宾结构,如“拒绝邀请那些不尊重当地风俗习惯的人” 。

“加以”和“进行”带宾语的情况也有所不同。“加以”只能带准谓词性宾语。“进行”的宾语的形式更为丰富。多数是准谓词性的,此时“进行”的词汇意义弱化了;另一方面,也可以带体词宾语,如“进行战争”、“进行手术”、“进行面试”等,此时“进行”有更实在的词汇意义,不能去掉,能够替换“进行”的也应该是其他有实际意义的动词,如“发动战争”、“施行手术”或“做手术”、“主持面试”。如果主张把带体词宾语的“进行”同带准谓词性宾语的“进行”分开,也未尝不可。不过,当注意到充当“进行”宾语的那些名词也是表示动作的,与作为准谓词性宾语的名动词在语义范畴上是相似的,把这两种情况处理为同一个“进行”的两种不同属性也是可以的。作准谓词性宾语的名动词基本上是及物的,但“进行”的准谓词性宾语也可以是不

及物动词,如“进行合作”、“进行点名”。当“进行”有实在意义,其受事可以前置,这样“进行”在句子中也可以不带宾语,如“战争正在进行”、“手术进行得很顺利”。3.2 形式动词受副词修饰的情况

吕先生指出:“‘加以’前面如用副词,必须是双音节的;单音节副词后面不能用‘加以’,只能用‘加’。”例子有:“不加研究│多加注意”。换句话说,如果要用单音节副词修饰‘加以’,那么双音节的‘加以’应该缩减为‘加’。吕先生和朱先生在阐述词的语法特性时,往往注意到词语的音节数目。现在的《语法信息词典》缺乏有关音节、韵律的信息,是个缺憾。《语法信息词典》设立了动词是否可受“不”、“没”、“很”等副词修饰的属性

字段。查DV的这些属性字段的值:“加以”和“进行”不能受“很”修饰,可以受“

10

Page 14: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

不”、“没”修饰。从 1998年全年《人民日报》中检索“不加以”、“没加以”、“很加以”、“多

加以”。找到了 10例“不加以”:“不加以分析”、“对此美国不能不加以考虑”、“后来有识之士不得不加以劝导”、“不能不加以引介”、“不能不加以分析和考察”、“这种状况如不加以改善”、“但如果不加以注意”、“如不加以整顿”、“许多人不但不加以制止”、“如不加以遏制整肃”。这些应该都是“加以”受副词“不”修饰的可以接受的用法。不过,语言学家通常将受“不”修饰限定为陈述性否定而排除假设性否定(或事态性否定)。吕叔湘先生说“加以”前不受“不”修饰,应该指的是陈述性否定。上述例子可能绝大部分都属于假设性否定。由此可以领悟,副词“不”的语义是十分复杂的。要准确判定“不”的语义,需要扩展到更大的语境,需要在更深入的层次上研究。 在 1998年《人民日报》语料中确实没找到“很加以”、“多加以”,也没找到“

没加以”。但在更大的范围内就找到了例句越往下看越象小娃娃,可是老太太没加以什么批评。(出处:牛天赐传)像下面的句子?由于长期对上游水土保持没加以重视,所以造成近年下游频发洪涝灾害。

也应该是站得住的。因为不是从真实文本中检索出来的,故在前面加了问号。面向短语构成规律描述的《语法信息词典》关于“加以”可以受“不”、“没”修饰的描述只在较浅的层次上反映了词语的使用情况。由于例句毕竟不多,现在对“加以”是否可受“不”或“没”修饰,存在不同看法,是完全正常的。语言学界有“言有易,言无难”和“例不十,法不立”的共识,是很有道理的。《现代汉语语法信息词典详解(第二版)》90页论及二选一型的语法属性值的填写时,曾记下了作者的心得:“在确定‘二选一’型属性值时,一般说来,说‘可’较保险,不容易被驳倒;说‘否’则有一定风险,找到一个反例就使‘否’的立论站不住脚。但对于计算机处理来说,正是由于有刚性的值存在,才使得词语的属性值便于利用。”后来,在“词的概率语法属性描述”研究中,笔者提出了确定“可否”值的比较科学的、定量的判定准则[17]。不过,基于统计的结果也会受到语料规模的制约。 3.3 形式动词的句法标志功能

现代汉语的实词划分为体词和谓词两大类。相应的,短语也可以划分为体词性的和谓词性的两大类。DV是语句中谓语性成分的标志之一。表示动作的名词或体词性短语,例如“战争、手术、词汇语义的研究、行政处分”等等是不能作谓语的。但在它们前面加上DV构成述宾结构转换成谓词性成分,就可以作谓语了。

某些地区还在进行战争。 为了提高机器翻译的质量,我们必须进行词汇语义的研究。 主管部门对违反纪律者给予行政处分。双音节的名动词虽然可以独立作谓语,但是当它要同前面的含介词或动词的短语结构

结合成更大的谓词性短语时,为了同前面的结构相匹配,名动词先要复杂化,这时也必须加上DV。

* 你们把这些资料整理。你们把这些资料加以整理。

11

Page 15: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

* 村长向群众承认错误检讨。村长向群众承认错误进行检讨。在这种情况下,“加以整理”是谓词性的,是作句子谓语的状中结构的中心成分。作

句子谓语中心成分的连动结构“承认错误进行检讨”的一部分当然也是谓词性的。DV与所带的体词性成分构成的述宾结构在句子(或小句)中总是谓词性的,通常作句子(或小句)的谓语(或其中心成分)。 更进一步,DV 还是其后的名动词的受事的前置标志(这已涉及语义、语用问题,将在 4.1中论述)。认识到DV是汉语句法的重要标志,在缺乏形式标记的汉语中,对分析和理解句子

很有帮助,应当加以充分利用。3.4 形式动词的其他语法属性

DV的共性很多,当然不同组的DV也有不同的特性,每个 DV都有自己的个性。研究词的语法属性就是要逐步深入地求同辨异。(1) 所有DV都是粘着词。(2) 所有DV不兼属其他词类。在动词内部,也自成一个子类,与其他子类(不及物

动词、系动词、助动词、趋向动词、兼语动词、离合动词、名动词)都没有交集。

(3) 所有DV都不能单独作主语、谓语、补语和状语,而且第①组也不能单独作宾语(“进行”可以作助动词的宾语)。

(4) 所有DV都不受程度副词修饰,既包括单音节的“很”,也包括双音节的“非常”等。第①组 DV都不能受“在”修饰,除“加以”外,也不能受“正在”修饰。

(5) 第①组 DV都不能带由时量词和动量词构成的准宾语;除“给予”可带“了、过”外,都不能带助词“着、了、过”。

(6) 所有DV都没有“AABB”、“ABAB”的形态变化。综上所述,DV是动词中颇具特色的一个子类。4. 进一步研究的课题4.1 形式动词的语义和语用问题前面已经谈到,可以根据形式动词所带宾语的情况以及作为宾语的词语的语义,

发现形式动词的不同义项和用法。再观察以下例句:

(1) 我们应当充分利用这批宝贵的资源。 / 这批宝贵的资源我们应当充分利用。(2) 我们应当把这批宝贵的资源加以充分(的)利用。 (3) 对于这批宝贵的资源我们应当加以充分(的)利用。(4) 这批宝贵的资源我们应当加以充分(的)利用。(5) 这批资源很宝贵,我们应当加以充分(的)利用。从句法语义角度考虑,(1)中的名词短语 NP“这批宝贵的资源”是动词 v“利用”的受

事,(2)-(5)的句法形式虽然与(1)不同,但语义关系却不变,NP仍然是 v的受事,不过这时 v以名动词 vn的身份出现,由于作为 DV宾语的名动词 vn 后面不能带受事宾语,作为受事的NP被前置了。在(2)中,已有介词“把”作为受事前置的标志,DV“加以”主要承担句法功能。在(3)中,虽有介词“对于”,但通常“对于”只是“与事

12

Page 16: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

”的标志,但在有DV的句子中也承担了受事的标志。在(4)中,DV成了 vn的前置受事的仅有标志。在(5)中,DV的存在标志了上文有一个语义上表示 vn的受事的语言形式,不妨也把它看作广义的前置受事。总之,如果不用DV,动词 v(例子中的“利用”)是无标志的,其受事可以前置,

也可以后置。如果用了DV,名动词 vn一定要有前置的受事,且是有标志的。 [9]论述“进行”句的语义结构,涉及到了句法语义范畴,但只讨论了包含“进行”的几种简化的句型。实际上,真实文本中包含“进行”的句法形式要丰富得多、复杂得多。至于写文章或者说话什么时候采用受事前置形式,则是受语用的制约:句子中哪

些信息是已知的,作为话题(topic),哪些成分又是关注的焦点(focus)。4.2 语言信息处理中的形式动词 在应用浅层分析的语言信息处理系统(如文献检索、信息提取与过滤等)中,也许可以把双音节的DV看作虚词,列入停用词表(stop list)。但在需要进行深层分析以得到句子的句法结构或语义框架的应用系统(如机器翻译)中,对 DV就要给予充分的关注。在词性标注、词义消歧(WSD)等工作中,如果能用上DV的句法语义信息,可以提高自动分析的精度。在北京大学现有的语言知识库(现代汉语语法信息词典,现代汉语语义词典,中文概念词典等)[18]对 DV的描述都是不够充分的。为了弥补这个不足,笔者在倡议建设“广义虚词知识库”时,也把DV 算作广义虚词[19]。以汉语到英语的翻译为例,深入研究包含DV的句型的翻译规律是有价值的。[9]有

一个例句: 我国正在对国营企业进行改革。

[9]认为,“这样的句子,翻译成英语时,‘进行’就没有着落”。 现在给出 5种译文:1. We are carrying on reforms on the state-owned enterprises in our country.2. We are making reforms on the state-owned enterprises in our country.3. The reforms on the state-owned enterprises are being carried out in our

country.4. We are reforming the state-owned enterprises in our country. 5. The state-owned enterprises are being reformed in our country.应该说,这 5 种译文基本上都传达了原文的意思。从前面的讨论,可以了解到“我国正在对国营企

业进行改革”同“我国正在改革国营企业”是有差别的。汉语之所以采用把“改革”的受事加以前置的句型,很可能是由于该受事是已知信息,而“改革”才是本句的焦点。汉语又用了“进行”,将名动词“改革”作为它的准谓词性宾语,不仅显得正式、严肃,而且反映了“改革”的过程性。在第 1,2,3 句译文中,也使用 carry on 或 make 将英语动词“reform”名词化,与“进行”相当匹配。因此,通常在汉译英时,“进行”并非没有着落。实际上,相当于“进行”的英语词并不少,至少有:carry on, carry out, undertake, undergo, conduct, engage, make, hold, commit, have, 等 等 。 一 是 因 为 多 , 二 是 名 词 与 这 类 动 词 常 有 固 定 的 搭 配 , 如 : hold discussion, make investigation ,这样,英语中的这类动词就不像汉语中的“进行”那么引人注目。5. 结语与致谢

笔者虽然长期在计算语言学领域耕作,但发表的论文绝大多数都是属于语言工程或自然语言处理技术方面的。承蒙第五届汉语词汇语言学研讨会(CLSW5, 2004年 6月 14日至 16日,新加坡)组织者赖金锭博士和姬东鸿博士的盛情邀请,要求我提供一个特邀报告。与以往不同,笔者这次选择形式动词这个题目作属于微观语法研究的尝试,虽然它也是为综合型语言知识库的总体目标服务的,却自知语言学功底甚浅,不

13

Page 17: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

太可能取得好的成果。不过又想,既弄斧,不妨就到鲁班门前来弄,所以才壮胆将这篇文章先提交给程序委员会评审,还好没有被拒绝。希望这篇报告能为语言信息处理研究和语言本体研究的交流作出一点贡献。

笔者曾就形式动词的翻译问题求教于王逢鑫教授,他在百忙中提供了例句“我国正在对国营企业进行改革”的 5种译文。刘云博士、柏晓静、王治敏、彭国珍等同学也协助作者收集参考文献、提供翻译例句。陆俭明教授、詹卫东博士、吴云芳博士、孙斌博士、吕学强博士、张化瑞老师、谌贻荣同学等对初稿提出了修改意见或补充资料。初稿的匿名评审者也给予了宝贵的建议。作者对以上各位的奉献致以诚挚的谢意。 作者在定稿之前,先后收到刁宴斌教授的两本论著。一本是他在马庆株教授指导下完成的博士论文“虚义动词论”,一本是 2004年 3月由辽宁师范大学出版社出版的专著《现代汉语虚义动词研究》(37万字)[20]。如果在给 CLSW5提交初稿之前收到这两本论著,笔者可能会另选题目。不过,在浏览了这两本论著之后,我认识到刁宴斌教授的研究属于现代汉语语法史框架下的本体研究,而本文毕竟是面向信息处理的,以寻求自动分析所需要的形式标记为目标的探索还是有一定空间的,也为本体研究的应用拓展了疆界。笔者始终认为,为了向机器理解的目标前进,面向信息处理的语言研究一定要从语言本体研究的成果中吸收营养。笔者一定珍惜出席 CLSW5会议向众多语言学大师学习的机会。

参考文献[1] 俞士汶等,《现代汉语语法信息词典详解(第 2版)》,北京:清华大学出版社,2003年 2月[2] 吕叔湘,《现代汉语八百词》,北京:商务印书馆,1980年 5月第一版[3] 朱德熙(1985)现代书面汉语里的虚化动词和名动词——为第一届国际汉语教学讨论会作,《北京大学学报(哲社版)》第 5 期。[4] 李峰、柴耘(1995)“V+以”类虚化动词的宾语,《新疆教育学院学报》,第 4期,68-71 [5] 毛宏愿(1997)话DV和形式化动词,《喀什师范学院学报》04 期。[6] 阎仲笙,说“后续动词性宾语动词”,河北师范大学学报(自然科学版),1998年,第 32卷第 2 期,91-93[7] 李晗蕾,“加以”的语用功能,苏州教育学院学报,2003年,第 20卷第 1 期,11-16[8] 陈永莉,DV的范围、次类及特征,晋阳学刊,2003年,第 3 期,92-94[9] 苗传江,“进行”句的语义结构,见黄昌宁、董振东主编《计算语言学文集》,北京:清华大学出版社,1999,51-57[10] 中国社会科学院语言研究所词典编辑室编,《现代汉语词典(修订版)》,北京:商务印书馆,1983年 1月第 2版

14

Page 18: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

[11] 外研社,《现代汉英词典》,北京:外语教学与研究出版社,1988年 11月第一版[12] 董振东、董强,面向信息处理的词汇语义研究中的若干问题,《语言文字应用》,2001年,第 3 期,27-33[13] 陈群秀,现代汉语述语动词机器词典的扩充和槽关系研究,《语言文字应用》,2001年,第 4 期,98-104[14] 王惠、詹卫东、俞士汶,现代汉语语义词典规格说明书,新加坡:《汉语语言与计算学报》Vol.13, No.2, 2003年,159-176 [15] 于江生、刘扬、俞士汶,中文概念词典规格说明,新加坡:《汉语语言与计算学报》Vol.13, No.2, 2003年,177-194 [16] 陆俭明,《现代汉语语法研究教程》,北京:北京大学出版社,2003年 8月,161-162[17] 俞士汶、段慧明、朱学锋,汉语词的概率语法属性描述,《语言文字应用》2001年第 3 期,21-26[18] 俞士汶,北京大学语言知识库概况,《汉语语言与计算学报》,2003年 6月,第13卷 2 期,119-120[19] 俞士汶、朱学锋、刘云.现代汉语广义虚词知识库的建设.第二届肯特岗汉语语言学圆桌会议(新加坡),2002年 11月 27日,刊载于《汉语语言与计算学报》,2003年 3月,第 13卷 1 期,89-98[20] 刁宴斌,《现代汉语虚义动词研究》,中国大连:辽宁师范大学出版社,2004年 3月

15

Page 19: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

The Sinica Sense Management System: Design and Implementation

Chu-Ren Huang, Chun-ling Chen, Cui-Xia Weng, and Keh-jiann ChenAcademia Sinica

1. Background and MotivationIt has been a trend for language engineering to construct a sense-based lexical

knowledgebase as a core foundation. WordNet and Euro WordNet are two well-known examples. There are two important criteria in constructing this knowledgebase: linguistic felicity and data cohesion. Huang et al. (2003) discussed how to achieve linguistic felicity in building a comprehensive inventory of Chinese senses from corpus data. It introduced five criteria as well as operational guidelines for sense distinction. In this paper, we will discuss how to achieve data cohesion for the sense information thus collected through a Sinica Sense Management System (SSMS).

2. Introduction to the Content of the SSMSThe SSMS manages both lexical entries and word senses. This system is designed and

implemented by the Chinese WordNet Team at Academia Sinica. It contains all the basic information that can be merged with the eventual Chinese WordNet. The basic structure of this system is meaning-driven: Each sense of a lemma is identified specifically and given a separate entry. When further differentiation at the meaning facet level is called for, each facet of a sense is also described in a full entry (Ahrens et al., 1998). In addition to sense and meaning facet, this system also includes the following information: POS, example sentences, corresponding English synset(s) from Princeton WordNet, and lexical semantic relation such as synonym/antonym, and hypernym/hyponym. Moreover, the overarching structure of the system is managed by a sense serial number, and inter-entry structure is established by cross-references among synsets and homographs.

In the present stage, the Chinese WordNet Team focuses on analyzing middle-frequent words in Sinica Corpus. The reason to choose middle-frequent words as our target ones is that with only three to five senses of a word, we can investigate senses and meaning facets of each word deeply and accurately, which would avoid the simple situation of one sense in low-frequent words, and the complicate situation in high-frequent words with numerous senses. Up to now, 1000 more lemma have been analyzed, and more than 2000 senses have been distinguished. We also published five technical reports to present these results [4]. In the near future, these fruits will be used as a basis for Natural Language Processing or E-learning application.

3. The Design Principle of SSMSA sense-based lexical knowledgebase with data cohesion must meet three requirements:

unique identification of senses, trackability of sense, and consistent sense definitions. SSMS has four devices to supply these requirements.

3.1 The Unique Serial NumberFirst, each sense or meaning facet is identified by a unique serial number in SSMS. In

Princeton WordNet (Fellbaum 1998), each synset is given a unique offset number. However, the offset number does not have any logical structure to it. Hence, although it guarantees unique identification, it is not very trackable. An alternative is to set up a base ontology and assign senses to an ontological node with a unique ID. However, this is not feasible since we

16

Page 20: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

cannot pre-designate all the possible conceptual and semantic relations. And if decision is made to encode only certain higher level nodes, the random assignment issue is unavoidable since more than one lexical sense will be assigned to the same node. In our system, the unique serial number of each sense is composed of three segments: the sequential information of when the lemma was processed, the lemma form, and the sense classification code for each lemma (including the meaning facet level). Take “bao4 zhi3 (newspaper)” for example. “bao4 zhi3” has two senses and two meaning facets being distinguished. The lexical entry of “bao4 zhi3” is as follows.

Example 3-1: The result of sense distinction for “bao4 zhi3 (newspaper)”

報紙 bao4 zhi3 ㄅㄠˋㄓˇ詞義 1:【名詞,Na】指定期出版,報導新聞、提供各式訊息的出版品。 義面 1:指刊物,尤其指內容部份。{newspaper, 03039218N}  例句:儘管他出現在報紙頭條的頻率極高,被刊登的卻幾乎都是片段性的談話。  義 面 2 : 指 定 期 出 版 , 報 導 新 聞 、 提 供 各 式 訊 息 的 紙 張 本 身 。 { newspaper,

04738466N}  例句:他找了一張報紙,平鋪在面前,取下身邊掛著的匣子之後就開始自言自語。詞義 2:【名詞,Na】指定期出版,報導新聞、提供各式訊息出版品的組織。{newspaper,

06009637N} 例句:報紙對他進行專訪的內容將刊登於隔天的頭條新聞上。

Four-level unique serial number is shown as below to express four segments of the unique serial number for one meaning of “bao4 zhi3”.

報紙 “ bao4 zhi3 (newspaper) ” Lemma processing year 03-

Lemma form ID -0018-

The first sense -01-

The first meaning facet -01

The unique serial number for 1st. meaning facet of 1st.sense of “bao4 zhi3” => 0300180101There are four advantages to manage the sense database with unique serial numbers.

First, the sequential number not only gives a unique code to each lemma, it also enables a project manager to track work progress more easily. Second, including the lemma in the serial number helps human users to quickly identify the relevant senses. It also facilitate man-machine interface such as in keyword search for senses. Third, it also provides a logical structure of the sense serial number since each lemma represents a small number of possible senses. Lastly, four digits are reserved to identify senses and meaning facets belong to each lemma. The first two digits are reserved for senses and the last for meaning facets. These four digits also allow the minimal space to identify exact sense in the database. For instance, when stipulating a synonym, we can identify it as word0200, which refers to the second sense of a certain lemma. There is no need to repeat the complete sense serial number. The sense serial number enables unique identification and also contributes to trackability.

3.2 The Cross-reference deviceSecond, SSMS will automatically prompt all possible cross-references. When a lemma is

called up for analysis, all existing records that contain this lemma will be prompted. This includes not only lexical semantic relations such as synonyms and hyponyms, it also includes

17

Page 21: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

and sense definition that contain this lemma, as well as any explanatory notes that contain this lemma. This feature allows sense relations to be clearly defined, and inconsistencies to be detected. In addition any anomaly in definition or expression format will also be discovered. This process will also help us to narrow down to a set of control vocabulary for sense definition. This feature contributes to both the trackability of senses and consistency of sense definition.

3.3 The concurrent lexical knowledgebase and coupusThird, SSMS enables parallel concurrent of the lexical knowledgebase and corpus. When

a lemma is chosen in the system, all tagged example of that lemma from Sinica Corpus are retrieved. This allows closer examination of how the senses are used and distributed. It also allows automatic selection of corpus example sentences. In turn, when the sense classification is completed, SSMS allows all the corpus sentences to be sense-tagged and returned to merge with the original corpus. In other words, a sense-tagged corpus is being processed in parallel. This feature allows each lexical sense to be trackable to its actually uses in the corpus. It also allows linguist to examine the data supporting each sense classification.

3.4 Linking to the Sinica BOWFourth, SSMS is also linked to the bilingual wordnet information at Sinica BOW.

Candidate English synset correspondences, including offset number, are shown after a Chinese lemma is chosen. This allows the cross-lingual trackability and consistency.

4. The Implementation of SSMS There are three major phases in this system implementing. In lemma analysis phase,

based on the criteria and operational guidelines proposed in Huang (2003), we distinguish senses and meaning facets for each word. At the same time, Sinica Corpus and WordNet will be referred for POS, examples and English translation. Then through the help of dictionary resources or word mapping by the system, we decide the word relation. The second phase can be divided into two steps. First, we design the schema of the sense management system database for storing the analyzing result of the first phase. Then, as for the data access, we develop the interface to help the Chinese Wordnet Team insert and query from the database. We employ DELPHI tool to design our system interface. Thought the interface, the data in the database also can be exported as Word documents. Last, the third phase of this system implementation is the application phase. Our work project is to build Chinese WordNet web sites for users querying. The development language of these web pages is HTML and ASP. Finally, these web pages in the web sites could be viewed thought web server. By the way of the Internet, people can retrieve data from our sense management database system everywhere at anytime. The flow of the Sinica Sense Management System is displayed in the following chart.

Figure 1: The flow chart of the Sinica Sense Management System.

18

Page 22: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

We can represent the overall framework of SSMS diagrammatically in Fig. 2. As the diagram indicates, the Chinese WordNet Team use SSMS to access database and have electric documents as Word report. Moreover, the users in the internet can browse HTML/ASP pages to query database through and web server.

Figure 2: The overall structure of SSMS.

4.1 The Schema of SSMS Database in Class DiagramIn the section, we discuss and design the schema of SSMS Database. The Unified Modeling

Language (UML) [2][7] is a graphical notation that provides the conceptual foundation for assembling a system out of components from the 4+1 views and nine diagrams. Each view is a projection into the organization and structure of the system, focused on a particular aspect of that system.

We employ the class diagram notations in UML to provide a static view of application concepts in terms of classes and their relationships including generalization and association. Therefore, we only introduce the details about class diagrams as follows.

Class diagrams [2][7][6] commonly contain the following features:

1. A class diagram shows a set of classes and their relationships. For example, the class diagram of the Suppliers-and-Parts database as shown in Fig. 3. The terms with italic style in Fig. 2 indicates the concepts about class diagrams.

Figure 3: A class diagram for the Suppliers-and- Parts Database.

2. A class is a description of a set of objects that share the same attributes, operations, relationships, and semantics. A class mainly contains three important parts: its name, attributes, and operations. We explain these terms as follows:

(a) Class name: every class must have a name to distinguish it from other classes. For example, Suppliers or Parts are class names.

(b)Attribute: an attribute represents some property that is shared by all objects of that

19

Page 23: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

class. A class may have any number of attributes or no attributes at all. For example, in Fig. 3, the Suppliers have some attributes such as sno, sname, city.

(c) Operation: an operation is the implementation of a service that can be requested from any object of the class to affect behavior. A class may have any number of operations or no operations at all. For example, in Fig. 3, the class of Suppliers has an operation add().

3. There are three kinds of relationships between classes:

(a) Association: an association is a structural relationship that specifies objects of one thing to be connected to objects of another. For example, in Fig. 3, a line drawn between the involved classes (Suppliers and Parts) represents an association named supply.

(b) Aggregation: an aggregation is a ‘whole/part’ relationship, in which one class represents a larger thing (the ‘whole’ class), which consists of smaller things (the ‘parts’ class). Moreover, an aggregation represents a “has-a” relationship, which means that an object of the ‘whole’ class has objects of the ‘part’ class. To represent an aggregation, an empty diamond will be drawn at the ‘whole’ class end of the line linking two classes.

(c) Inheritance: An inheritance relationship can be regarded as a generalization (or specialization), which is a taxonomic relationship between a general (super classes) and a special (subclasses) element, where the special element adds properties to the general one and behaves in a way that is compatible with it. Therefore, it is sometimes called an “is-a-kind-of” relationship. An inheritance relation is represented by means of a large empty arrow pointing from the subclass to the super class. For example, in Fig. 3, Domestic and Foreign suppliers (two subclasses) are a kind of suppliers (the super class).

According to the need of SSMS content and design principle, Fig. 4 is the schema of SSMS database using the concepts of class diagram.

Figure 4: The schema of the Sinica Sense database.

4.2 The Function of SSMS In this section, we will discuss the interface marking for SSMS. The development

language of SSMS interface is DELPHI 7.0. Based on the need of program execution, the function of SSMS is shown in Fig. 5. In SSMS, the programs have many functions and these functions can be represented in windows interface and ASP web pages. Sense management and Sense visualization are two major functions in SSMS. In Sense management function, the Chinese WordNet term can insert, update, and delete data including lexical entries, word

20

Page 24: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

sense, meaning facet, POS, example sentences, English synset(s), lexical semantic relation. The Sense visualization is SSMS interface and can be divided into two parts: Sense Query and Word Report. The format of SSMS interface is shown in Fig. 6. The SSMS interface provides a user-friendly interface to operate and maintain. For the Sense query function, the users can enter a serial number or a lexical entry for sense querying in SSMS interface. Another function, the Word report, uses development software Crystal Report9 to produce electric documents shown as Fig. 7.

Figure 5: The class diagram of SSMS function description.

Figure 6: The interface of SSMS.

21

Page 25: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Figure 7: The format of Word report.

6. ConclusionIn sum, SSMS is not only a versatile development tool and management system for

sense-based lexical knowledgebase. It can also serve as the database backend for both Chinese WordNet and any sense-based applications for Chinese language processing.

Online Resources:Sinica BOW: http:// BOW .sinica.edu.tw/ Sinica Corpus: http://www.sinica.edu.tw/SinicaCorpus/ WordNet: http://www.cogsci.princeton.edu/~wn/

References[1] Ahrens, K., L. Chang, K. Chen, and C. Huang, 1998, Meaning Representation and

Meaning Instantiation for Chinese Nominals. Computational Linguistics and Chinese Lnaguage Processing, 3, 45-60.

[2] Booch, G., J. Rumbaugh, and I. Jacobson, The Unified Modeling Language User Guide, Addison-Wesley, 1999.

[3] Fellbaum, Christine. Ed. 1998. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

[4] Huang, Chu-Ren (ed.), 2004, Sense and Sensibility series: Technical Report 03-01~04. CKIP, Taipei.

[5] Huang, Chu-Ren et al., 2003, Sense and Meaning Facet: Criteria and Operational Guidelines for Chinese Sense Distinction]. Presented at the Fourth Chinese Lexical Semantics Workshops. June 23-25 Hong Kong, Hong Kong City University.

[6] Muller, R.J., Database Design for Smarties: Using UML for Data Modeling, Morgan Kaufmann, 1999.

[7] Oestereich, B., Developing Software with UML Object-Oriented Analysis and Design in Practice, Addison-Wesley, 1999.

22

Page 26: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

CLSW5 Submission InformationTitle: The Sinica Sense Management System: Design and Implementation

Authors: Chu-Ren Huang, Chun-ling Chen, Cui-Xia Weng, and Keh-jiann ChenAffiliation: Academia SinicaContact Information:

[email protected] (Huang)[email protected] (CL Chen)[email protected] (Weng)[email protected] (KJ Chen)

23

Page 27: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

论汉语释义元语言的特征厦门大学 苏新春

我们以《现代汉语词典》的释义部分为对象,对分离出例句后的所有释词进行了频率统计与语义分布的统计,来尝试着提取汉语的释义元语言。全书的释词部分共有120余万字符,61万条释词,不重复的词 44000余条。其中出现频率最高的是“的”字,出现 49000多次。释词的平均出现次数为 15次。我们以对所有释词的累积频率为 90%为基本参考,再将横跨这个频率之间的所有单个释词出现次数为 6次的都包括进来,这样就初选出 10751 个释词,进行了语义分布调查,然后在同一义类中再进行相对频率及风格、功能的比较,来提出汉语的释义元语言。释义元语言就是一种语言中对其它的词汇成分进行解词释义所使用的一套用词用

语系统。因释义对象的不同,即词语性质的不同,释义元语言的构成与特点也会表现得各不相同。由于本研究所用语料——《现汉》的性质与内容,由于本研究使用的理论和方法——频率统计法与语义分布调查与筛选法,决定了本研究提出的释义元语言主要是针对现代汉语中语文性词语进行解词释义的用词用语系统。释义元语言与人们通常说到的另外两种元语言有着明显的不同。1首先是与哲学语

义界的元语言有着根本的不同。释义元语言来源于真实语言、自然语言之中。它存在于使用这种语言的所有人群之中。凡是有这种语言的存在,就都会出现对语言的认知、求解和诠释活动,也就会有释义元语言的存在。词典中的释义元语言只不过是释义语言的集中、静态、凝练的存在形式而己。而在哲学语义界那里,元语言是属于形式语言的范畴。“第一语言的表达式的名称,以及这些表达式之间关系的名称,都属于第二语言,后者叫做元语言。”2“元语言,纯理语言。指用来分析和描写另一种语言(被观察的语言或目的语[Object language]的语言或一套符号。” 3其次也与认知元语言有着明显的不同。认知元语言是语言认知中的最小单位,用通

常的话来说,它与基本语素的含义差不多。语素是语言中的最小音义单位,基本语素指的就是一种语言中起着最基本指称作用的语素群,它提供了人们语言认知活动中的最小单位与工具,成为语言大厦的最小结构。它的指称对象是面向整个语言世界,也即人们的主客观认知世界。在整个语言表意系统中,那些底层、基本、核心的意义与语言的语音形式结合在一起形成了基本语素也即认知元语言。像中文信息处理界颇为知名的语义知识库——知网,4里面所概括出来的先为 1500多,后为 2000余个的“义原” (primitive),即属此类。认知元语言不必像常用词那样具有使用性、交际性,唯一看重的是语义的指称性,看重认知概念上的基本与齐备。而释义元语言显然与此有着1 苏新春,《元语言研究的三种理解及释义型元语言研究评述》,江西师范大学学报,2003年第 6 期。2 尼古拉斯·布宁、余纪元编著《西方哲学英汉对照辞典》,人民出版社,2001年。3 R.R.K.哈特曼 R.C.斯托克著,黄长著等译《语言与语言学词典》,上海辞书研究,1981年。4 “知网”由董振东先生研制,英文名Hownet。它是利用一种语义系统词典,描述的是概念与概念之间的关系,这种关系是通过概念的属性与属性之间建立联系来体现的语言知识系统。

24

Page 28: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

明显的差别。它面向的对象是其它语言成分而不是整个主客观的认知世界;它要做的是将其它语言成分清楚地显现,而不是把整个认知世界来表达;它对语言符号的选用是着眼于能否构成有足够表意能力的相对封闭的解释性词语的系统,而不是对追求对整个认知世界的普遍覆盖。如此性质的汉语释义元语言,会具有如下的一些特征。

一.释义元语言的功能特征释义元语言的最主要功能就是为了满足普通的社会交际需要对该语言的语文性词语

进行一般性的陈述、描绘、再现;它的服务对象是语言社会的普通成员。这是认识释义元语言功能特征最主要的两个出发点。

“该语言的语文性词语”,它一方面意味着所阐释的词语对象不是部分,而是词汇系统的整体,这对释义功能是一个极大的挑战。像语义哲学中的元语言其服务对象就远没有这么广泛,它解决的问题主要是对意义本原进行正确的认知与判断。而释义元语言要达到这样的目的,它必须具备强大的释义功能,自身必须是一个自足的表意系统,足以满足认知其它所有词语成分的需要。另一方面,又必须认识到它不可能囊括该语言的所有词语成分,而是以它的主要部分、基础部分、核心部分为对象,这就是语文性词语。在任何一种语言的词汇系统中,语文词语都是在社会交际中起着主要、基础与核心的作用。在这里实际上是把专用术语、专门性词语等加以小心的排除。从任何一门知识、一个学科都有自己的元语言系统的角度来说,释义元语言是不可能包打天下的。

“进行一般性的陈述、描绘、再现”,它一方面意味着对语言对象的解释不应是简单的标示,或选择性或判断性的释义。另一方面,也限定了它对语言对象释义的深度和广度,而不能对更深层次的学理与知识进行阐释与挖掘。那样的话,所需要的也是另外一套专门的元语言系统了。

“服务对象是语言社会的普通成员”,与上一点紧密相关。普通社会成员对语言要素的认知与使用有着“通用性”“交际性”“大众化”等特点,进入普通社会成员使用范围的语言成分一般来说都有着广泛的流传面,能轻松被别人所理解和接受,不需要进行专门的系统学习。这既是对释义元语言本身应有的通用属性的认识,也是对释义深浅把握的衡量标准。

这三点是相互关联的,清楚显示出以语文词语为对象的释义元语言与面向专业知识领域的释义元语言有着根本的不同。不同的学理需要依靠不同的阐释工具,不同的学科需要不同的释义元语言。不能一谈到释义元语言,就以为它能包容一切,囊括所有。

为了更好地理解这个问题,我们来比较三部字词典对“水”的解释。《新华字典》“主要供中小学教师和学生使用,中等文化程度以上的读者也可参考

”。5《现代汉语词典》“以记录普通话语汇为主的中型词典,供中等以上文化程度的

5 《新华字典》“修订说明”,商务印书馆,1998年。

25

Page 29: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

读者使用”。6《辞海》是“兼有字典和百科性质的综合性辞书”。7

“一种无色无臭透明的液体,一个水分子的化学成分是氢二氧一。”(《新华》)“最简单的氢氧化合物,化学式 H2O。无色、无味、无臭的液体,在标准大气压下,

冰点 0℃,沸点 100℃,4℃时密度最大,比重为 1。”(《现汉》)“氢和氧的最普遍的化合物,化学式 H2O。水在自然界中以固态、液态和气态三种

聚集状态存在。空气中含有水蒸气。土壤和岩石层中有时也积存着大量的水。水是动植物机体所不可缺少的组成部分,成年人体中含约 65%。在一大气压下,水的沸点为100℃,冰点为 0℃。水的密度在 4℃时最大(1 克/毫升)。水结冰时,其密度减小,体积增大,所以冰总是浮于水面。在一切固态和液态物质中,水的热容量最大,这一特性对于调节气候具有重大意义。水能溶解许多物质,是最重要的溶剂。天然水中含有极少量的重水。”(《辞海》)从释义学的角度来看,有两点值得特别的讨论:一是用词的广度与深度的不同。《新华》使用到的专业术语有“水分子”;《现

汉》为“化学式”“H2O”“标准大气压”“冰点”“沸点”“密度”;《辞海》为“化学式”“H2O”“固态”“液态”“气态”“机体”“大气压”“沸点”“冰点”“密度”“热容量”“溶剂”“重水”。专业术语的使用情况是衡量释义类型与释义深浅的一个重要标志。二是对“知识”释义的多少与程度不同。《新华》只解释了两个知识点,《现汉》

解释了 7 个知识点,《辞海》解释了 16 个知识点。即使是对相同的对象,也使用了不同的语言表达形式。如对水的内部物质构成,《新华》是“一个水分子的化学成分是氢二氧一”,《现汉》是“最简单的氢氧化合物,化学式 H2O”,《辞海》是“氢和氧的最普遍的化合物,化学式 H2O”。释义元语言的功能特征,也就决定着它的功能实现。以语文词语为主要对象的释义

元语言有两大应用领域,一是面向一般社会成员的语文性词典的编纂,另一是语言教材的编写与语文教学,包括母语的初中级学生及非母语的他族语言学习者。对他们来说,释义元语言对百科词语不是不能介绍,而是要考虑怎样做到通俗易懂。超出社会一般成员需求的深奥知识不在其释义范围,对不能不释义的内容也必须使用通俗而非专业的语言。用这样的标准来衡量,就会发现《现汉》中的专业术语,及学术味相当浓的专业性释义用语随时可见。下面这个例子能清楚地说明这一点。《现汉》的释词中有“侧”和“侧扁”两个词。“侧”是一个很普通的词,出现

36次数。运用的环境、搭配的对象也很灵活,有“内侧”“一侧”“里侧”“船侧”“侧转”“两侧”“外侧”“前侧”“下侧”“侧手”“每侧”“侧着”等。36次的频率排在所有 4万多条释词的第 2308位,累积频率位于 72.535%。而“侧扁”,出现的次数比“侧”还多,达到 52次,频率排序为 1584位,累积频率位于 67.562%。单从频率来看,它比“侧”字还要常用。可它并不是语文性词语。它 52次的使用只用于一6 《现代汉语词典》“前言”,商务印书馆,1996年。7 《辞海》“前言”,上海辞书出版社,1980年。

26

Page 30: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

个语境:描写鱼类的体形。它用来解释了 45 个单字和 7 个复音词:鲃、鲾、鳊、鲌、(餐鱼)、鲳、鮆、鲷、鲽、鸫、鲱、鲴、鱥、(鱼骨)、(鱼

或)、鱾、鲚、鰶、鲫、鲣、鮈、鲪、鯻、鳓、鲤、鲢、鱲、鲮、(鱼录)、鮸、鲆、鲯、鲭、蝾、鲹、鰤、鳎、鳀、鮠、鳚、(鱼翁)、鮨、鲉、鱼、鲻;带鱼、鲂鮄、黄鱼、鳗鲡、泥鳅、小黄鱼、胭脂鱼。它使用的语言环境高度一致:“体长侧扁”、“体长而侧扁”、“体侧扁”、“身

体小而侧扁”、“身体短而侧扁”、“身体侧扁像薄片”、“后部稍侧扁”、“身体侧扁”、“后部侧扁”、“尾端侧扁”、“身体侧扁而长”、“嘴细长而侧扁”。将释义对象与使用的语言环境结合起来考虑,把“侧扁”看作是一个专业性释词应该是没有疑问的。像这样的词就不应该收入释义元语言。专术性释词不用,不等于专业性的知识不能用语言表达。语文性辞书的功能,语文

性的释义元语言的功能就在于它应该也能够做到这一点。像“侧扁”可以说成“扁形”“圆偏形”“扁而细长”“窄而细”或“窄而宽”等。像上面的“化学成分”与“化学式”,“一大气压与“标准大气压”,“零度”与“冰点”,之间显然就有着俗雅、通专、广狭的区别。当然术语运用的价值在于准确、规范,但正是因为它追求过于准确而必然规范,过于规范必然专一,过于专一必然大大限制使用的对象与范围。释义元语言的最主要功能就体现在“释”字上。我们可以据此将它与通常说到的一

些常用词词表,如《现代汉语频率词典》的 8548条常用词、“对外汉语词汇大纲”中的 8822条常用词,或是什么中小学教材用词等等区别开来。它们都是常用词表,都是某一领域,或更大范围内所经常使用词语的词表,可它们的性质是完全不同的。简而言之就是释义元语言是“解释”用的词表,而其它的则是“指称性”“交际性”的词表。这种差异是极其巨大的。

这里我们只要提出一个现象,相信就能给人留深刻的印象。来看看所有释词中前300条高频词中的名词构成:8

人7、事物44、东西51、姓59、地方61、部分63、古代64、水75、物体81、工作84、事情85、时间86、别人88、国家97、生活98、身体99、地区102、我国104、植物106、作用107、单位112、声音114、事118、形状120、物质124、样子125、花126、情况127、组织135、方面141、方法144、动物147、金属151、叶子153、色155、话156、类157、文字159、关系161、通常164、果实165、名169、运动173、表面179、文章180、年181、戏曲185、天188、军队191、行动192、字193、社会198、对方200、茎203、人员204、机关205、液体208、程度211、形式212、方向215、物216、思想218、时期219、颜色221、体226、数227、动作229、手235、材料242、后来244、毛245、装置246、食物254、力量259、月261、现象262、货物263、政治266、器物267、原来272、纸273、个人279、距离282、草本植物283、内容284、鱼286、器具287、问题292、太阳293、数量294、鸟295、妇女296、能力297、名称298、光299、方式300

这里面绝大部分是类属性名词,而不是在一般的供学习用的词表中最多见的指称具体事物的具体名词。就是缘于释义语言的目的与所采用的释义方式。

二.释义元语言的风格特征1.书面语风格

8 词后面右上方的数字是表示充当释词的次数。

27

Page 31: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

释义元语言应该是书面语的风格。在面向大众,而非单一,追求通用,而非专业的时候,书面语风格仍应是释义元语言追求的目标。例如,《现汉》在描写事物的性质与状态时,有数百例“-形”的说法,就是富于书面语风格的表述。先看例子:兜 1:⑵做成兜形把东西拢住:小女孩儿的衣襟里~着几个海棠果儿丨老大娘用手巾

~着几个鸡蛋。豆饼:大豆榨油后剩下的渣滓压成饼形,叫豆饼。可以用来制造大豆胶,也用做肥

料或饲料。类似的说法在《现汉》中有相当多。有用具体事物作譬的:“斗形”“盾形”“瓜

形”“柜形”“针形”“心脏形”“龟形”“纺锤形”“齿形”“船形”“箱形”“虎形”“圆盘形”“伞形”“鸡心形”“簸箕形”“星形”“圆棒形”“卷轴形”“贤脏形”“半璧形”“月牙形”“鸠形”“树形”“链条形”“灯笼形”“山形”“箭头形”“漏斗形”“莲花形”“钟形”“蛋形”“槽形”“龙形”“砖形”“鞭形”“蘑茹形”“蝶形”“梨形”“折扇形”“瓜子形”“凿形”“鳍形”“灵芝形”“云形” “锅形”“勺形”“棱形”“塔”“板形”“屋形”“铲形”“元宝形”“杖形”“杯形”“鹰形”“马形” “钩形”;有用具体形状作譬的:“凹凸形”“圆柱形”“圆锥形”“椭圆形”“圆扁形”“

方柱形”“长筒形”“半球形”“三边形”“五角形”“三角形”“六角形”“凹形”“楔形”“抛物线形”“双曲线形”“尖形”“弯形”“网络形”“杆形”“小碎块形”“直筒形”“螺旋形”;有用字形作譬的:“A形”“D形”“L形”“H形”“S形”“T形”“U形”

“V字形”“W” “X形”“人字形”“十字形”“冂形”。这里还不包括像“长形”“球形”这样已经稳定下来的词语。它们无一例外地都是用来描写事物的形状的。这就是词典释义语言追求的书面语风格。如果改用口语化的说法,几乎都可以用“……的形状”,或“……样子”来表述。可恰恰就是这种口语式风格不为词典所欢迎。

“……样子”在全书中也有数百例,可《现汉》对它的使用给予了特别的限定。它用来描写的大都是有关人的神情状态而不是事物的外在形貌。如:黯然:⑵心里不舒服,情绪低落的样子:~泪下丨~神伤。岸然:〈书〉严肃的样子:道貌~。可以把“某样子”作为《现汉》中形容性词义的专用释词,其实还可以进一步的缩小:它的主要用途是用来描写有关人的神情状态的形容性释词。《现汉》在描述事物的外貌与色彩时,与“形”“状”“色”相呼应的有一个动词,

即“呈”字。“呈”放前面,“形”“状”“色”放在描绘词的后面,表示“表现为……”、“呈现为……”、“是……”的意思。如:触角:昆虫、软体动物或甲壳类动物的感觉器官之一,生在头上,一般呈丝状。也

叫触须。

28

Page 32: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

刨花:刨木料时刨下的薄片,多呈卷状。“呈”就是词典语言的一个很典型的动词性释词。如果把它们换成口语化的说法,其味道会大变,效果会剧减。词语的风格是由使用决定的。2.当代语言的浅近风格这是释义元语言所需要的另一种风格。所谓“浅近”是与文绉绉的古雅风格相对的。

这点应该说在《现汉》现有的释义词语中是做得相当不错的。如:等第:〈书〉名次等级(指人)。颠末:〈书〉自始至终的经过情形:细述~。但书中仍可见到不少未能遵守以今释古,以通释僻,以浅释深的通例,而是以古释古,以

僻释僻,难深相释,使人多有雾里云里之感。如下面各组例子中的首条即属此:丁艰:〈书〉丁忧。——丁忧:〈书〉遭到父母的丧事。落子 2:落儿。——落儿:〈方〉生活上的着落(指钱财等,只用在‘有、没有’后

边):有~(富足)丨没~(穷困)。也说落子。所幸的是,在用来释义的这些古雅难僻的词语中,基本都另外立了专条作了释义,

像右边的就是立目释义者。这里大概是含有相关参照释义的意思。但以难僻词直接用作释词仍是不太妥当。因为释义的目的就是应该尽量迅速、有效地给人以释疑解惑,“一次性”地解决问题。而用难僻词来释义会使绝大多数的词典使用者感到迷惑不解。有心人,或有词典使用经验的人才会在不明了时“顺藤摸瓜”地穷究下去,而多数人则会就此带着迷惘合上书本。从释义元语言的要求来看这也是不妥的。古雅的难僻词不应该成为释义语言的一部分。至于要达到词典所要求的简约、互联、呼应,完全可以明白地使用参看互见法,如改为这样的释义:“丁艰:见‘丁忧’”。既保证了释义语言的纯洁性,也给读者以一目了然的提示。《现汉》收古雅词,以古雅词作释词,当不是个别。这是有违其现代汉语词汇规范

的初衷的。有的古雅词甚至相当的罕用。如:润例:润格。——润格:指为人做诗文书画所定的报酬标准。

经查检《汉语大词典》,即使它的收词规模 7倍于《现汉》,也只收了“润格”而未收“润例”。在对“润格”释义时也明确释义为“旧指为人作诗文书画所定的报酬标准”,加上了“旧时”,指明它是一个属于过去时代的旧词。看来规范意识明显的《现汉》也还时有偶误。有没有释词中有,而没有立目的呢?如果没有立目,人们通过怎样的渠道来认识它?

看来这是触到了以难僻词作释义语言的症结。如“使臣”出现了 4次,解释的是下面 4词:朝贡:君主时代藩属国或外国的使臣朝见灵君主,献礼物。大殿:⑴封建王朝举行庆典、接见大臣或使臣等的殿。夜郎自大:汉代西南邻国中,夜郎国(在今贵州西部)最大。夜郎国的国君问汉朝使

臣道:……

29

Page 33: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

捉刀:〈书〉曹操叫崔琰代替自己接见匈奴使臣,自己却持刀站立床头。……这里的“使臣”显然都是作为一个名词,可它并没有立目。当然从词素可以作些猜测,“使”为使者、大使,“臣”为臣子,但像“出使”“奉使”“密使”“使者”“信使”“专使”,“臣民”“大臣”“功臣”“奸臣”“谋臣”“忠臣”这些词义清楚,词义与词素义呈现叠架关系明显的复合性词语都立为词目了,“使臣”的理解难度不在它们之下,本来是不应遗漏在词目之外的。这里不是想谈论立目的标准与范围,因为它的处理与其它诸多因素有太多的干系,而想说的是用来解释词义的不宜用过于偏含、古雅词语,一旦使用了便应在其它地方有所照应,否则会留下词语认知的一个盲点。

又如《现汉》释词中有不少专业性的术语,它们中的不少也没有立目,如“岩心管”“沿阶草”“盐渍”“盐肤木”“烟枪”等。当然,也不是说凡是在释义中出现了的都要立目。有的可以通过隐含释义、下位释义、例举释义、相邻释义来达到认知的目的。如

“圆周线”没有立目。赤道:⑴环绕地形表面距离南北两极相等的圆周线。它把地球分为南北两半球,是划分纬度的基线,赤道的纬度是 0。⑵指天球赤道,就是地球赤道面和天球相交形成的大圆圈。

“原子物理学”没有立目。物理学:研究物质运动最一般规律和物质基本结构的学科,是自然科学中的一门基础学科之一。包括力学、声学、热学、磁学、光学、原子物理学等。

“约翰福音”没有立目。福音书:指基督教《新约全书》中的《马太福音》、《马可福音》、《路加福音》、《约翰福音》,里面记载传说的耶稣生平事迹和教训。但人们仍可以通过它存在的语境达到旁通的目的。“圆周线”相对于“赤道”是上

位词,知道了“赤道”义,把前面的限定语去掉就可以由此而及彼了。“原子物理学”于“物理学”,“约翰福音”于“福音书”,都是部分与整体的关系,知道了整体义,部分义也就好理解了。

3.全民性的通用语风格全民性的通用语风格是与只在部分地区使用的方言词语相对的。《现汉》有 2700

余条方言词,大都能用现代通行的规范语言来释义,收到了很好的释义效果。如暗门子:〈方〉暗娼。讹赖:〈方〉讹诈。可也不时能见到有别于此的释义,即用来释义的仍是方言词,或通行程度不高

的非普通话词语。如耳掴子:〈方〉耳刮子。——耳刮子:耳光。——耳光:用手打在耳朵附近的部位

叫打耳光◇事实给了造谣的人一记响亮~。也说耳光子。这 3 个词的意思完全相等,从通用程度来看,应该是“耳光——耳刮子——耳掴子”,可释义时是用“耳刮子”来释“耳掴子”,就未尽是。当然可以说这两个词的读音更为接近,一个念ěrɡuā·zi,一个念 ěrɡuāi·zi,内部理据是相同的。但从释义要求来看,主要是要求该词意义的清楚再现,它的服务对象不限于方言区,而是面向整个社会成员,所以这里

30

Page 34: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

用来作释词的应该是“耳光”。又如:腌:[腌臜]⑶糟践;使难堪:算了,别~人了。“糟践”作释词只用了 1次,

“难堪”用了 10次,另一个同义释词“为难”用了 37次。类似的例子书中还可见到不少。像这样对通行范围较狭窄的方言词优于通用词语来

使用,是应该尽量避免的。由上可以知道,对释义元语言的研究来说,频率显然不是万能的,还需要在语言风

格上做出通盘的考虑和严格的挑选。在对语料的讨论中我们已经提出过,《现汉》的语料价值是弥足珍贵的,但无可讳言,追求完美仍是长期的任务。

三.释义元语言的结构特征释词在结构上总的要求是结构单位尽量小些,使之使用起来更具灵活的搭配组合能

力。通过词与词的灵活组合使元语言的表意功能得到几何式的扩张。在提取元词集时要处理好以下几个问题:

1.词素义与词义之间呈叠加式关系的复合词,特别是并列式、偏正式的复合结构能分则分。在词的结构单位与词义载量之间有一层这样的关系,词的结构越复杂,词义的含量

越丰富,词的适用范围也就越小。这实际上就是内涵与外延的关系,内涵越丰富,外延越小。任何语言要素通过一次次的组合,形成一个个大大小小不等的语言层次。其实这并不单单是个纯结构形式,或纯语言物质上的问题,而是直接与语言的表达功能紧密相关。因为每一个大小不等的语言要素不仅是它们的结构外壳不同,而且在这个外壳的内部,所存在的语义状态也大不相同。正因为这点,也就造成了它们在意义表达功能上的巨大差异。而“词”所要研究的就是它的意义与形式的不可分。如果分开后意义发生了变化,就说明它具有不可分性;如果分开后意义没有出现变化,就说明它具有充当“词”的必要性。这种情况最容易发生在并列式、偏正式组合的复合性词语中。当词义与词素义的关系不是化合式,而是叠加式时,它并没有获得新义,也没有获得在词汇群中独特的指称性,反而给自己在指称能力和使用范围上增加了诸多限制。像这样的词语在意义的组合上就属于可分可合型。这样的词语就应以拆分的形式来入选元词集。如:阿婆:⑶尊称老年妇女。在“尊称……”这样的结构中,后面的部分显然是作

为一个完整的指称实体的,是作为一个概念来出现的,如果把“老年妇女”作为一个词语单位也是可以的。这样做符合词汇学上对“词”定义的要求,即指一个概念,充当一个最小的句子成分,指称一个客观事物。但仅此要求对释义元语言来说就还不够。因为它是“老年”“妇女”两个构词单位意义的简单相加,并没有出现新的转化词义。而且它们各自都有很强的组合能力。如“妇女”在《现汉》的释义中就出现了“中年妇女”“中老年妇女”“年轻妇女”“古代妇女”“已婚妇女”“外国妇女”“贫苦妇女”“贵族妇女”“妇女病”“妇女节”“农家妇女”等许多组合形式;如“老年”则有“老年男子”“老年人”“中年或老年的女仆”“老年男女”“老年时代”。

31

Page 35: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

类似的就应以“老年”与“妇女”两个结构被选。看起来在这里是一个拆成了两个,可这两个却可以组合成许多个,换来了整体组合功能的大大增强,其效果是明显的。

那么,为什么在具体的言语运用中,总会出现大量复合性比较强、结构比较大的“词结构”呢?这里其实是有言语成分与语言成分的差异在起作用。在言语作品中,人们所指往往使用了比较复杂的结构来描绘一个比较具体的对象,这种习惯在社会成员中是普遍存在的,因此,复杂的结构合称出现的频率也就比较高。这就是一般语言使用者往往把专家们眼下的词组当作一个词来看的原因。9而语言学家除了合用的频率高低外,还看重它们的理据如何,意义的结合程度如何,故重其分慎其合。而对释义元语言研究来说,它对“词”的认定不仅仅是看它表意的完整性、运用的独立性,还更多了一层,就是看重它表意的意核性、搭配的灵活性与组合的高效性。只有符合这些特点的才是释义元语言首先要考虑收录的对象,也只有这样,所提取出来的元词语才能形成精炼、高效的释词系统,也才有可能满足元语言的“有限性”要求。

当然,在尽量以短结构、小单位的形式入选释义元词时,不应妨碍词义的完整性。它应该保证释词具有词的意义完整性与结构统一性的特征。

词作为一个最小的、不可分割的整体,主要表现为它必须表示一个独立而完整的意义。这个意义是特定的,表示着某种特定的事物或现象,所以一般情况下,都不能把词的意义看成为它组成成分的简单相加。因此,词也不能再被分割,否则,这个词就会失去原有的意义而不再存在了,或者因改变了原来的意义而变成了另外的词。10

下面就以颜色词的划分来看看这一原则的运用。释词中有许多颜色方面的词语,光后面有“色”的词就有近百个。“色”字与前面的词结合有这样几种情况:与单音节颜色词的结合;与表颜色的物名词的结合;与表示颜色程度的形容词结合;与指明颜色部分的物名词结合;与表性质词的结合,及与动词等的结合。如:

A 类是单音颜色词加“色”字表示颜色种类的,如:白色、彩色、赤色、褐色、黑色、红色、蓝色、绿色、黄色、灰色、紫色

B 类是指物词加“色”字形容颜色种类的,如:花色、金色、玫瑰色、米色、桃色、血色、银色、肤色、橙色、棕色、茶色、橄榄色、栗色、土色、藕色、货色、锖色

C 类是描绘性词语加“色”字表示颜色程度的,如:深色、浅色、单色、各色、粉色

D 类是表名物词加“色”字表示名物性质的,如:姿色、山色、脸色、面色、眼色、夜色、音色、天色、女色、气色、声色、酒色、

E 类是表性质词加“色”字表示颜色性质的,如:怒色、神色、美色、喜色、保护色、本色、特色、

F 类是支配性词语加“色”字,“色”作为实体出现的,如:好色、变色、补色、退色、褪色、脱色、无色、染色、润色、着色、上色、有色、出色

G 类是名词与“色”字,表示颜色种类的,如:成色、五色、原色、杂色、基色9 胡明扬《说“词语”》,载《语言文字应用》1999年第 3 期。10 葛本仪《现代汉语词汇学》,山东人民出版社,2001年。第 32页。

32

Page 36: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

H 类是颜色复合词。如:赤褐色、赤铜色、粉白色、金黄色、米黄色、黄褐色、灰白色、银白色、茶褐色以上颜色词的词义与词素义之间的关系都很清楚。可从可拆性来看,只有A、H 类

可分离,A 类可以用“红”“黄”“绿”等单音节的颜色词来替代,而其它都是不可拆的。H 类拆分后意义变异并不大。可其它的词语却不行了,尽管它们内部的理据清楚,复合词强,但拆开后表颜色的意义就会出现很大的变化。作为释义元语言来说,不可能都将它们选取,只能保留一些表示基本色的词语,而将其它割爱了。在需要对颜色进行细致描绘时,只能用描绘性的语句而不是单一、独立、细致具体的颜色词。

2. 补充式、动宾式结构的复合结构能分则分与上面所遵循的原理一样,释义元语言研究对那些补充式、动宾式的复合性结构也

应是能分则分的原则,即使是凝固程度相当高的,如果是结构的拆分不影响到意义的表达,也应是慎言其合的。下面来分析几组例。

“住”是一个高频词释词。经用分词软件处理后,它在释词中一共以 48种结构形式出现了。单音字算一种,复音节 47种。在下面这样的复音结构中表示的是“居住”“停止”“关闭”义,它们肯定属实词:

居住、暂住、住持、住处、住地、住房、住户、住家、住宿、住所、住院、住宅、住宅区、住址 /不住、住手 / 住口、住嘴而在下面这些复音词结构中,都是用在动词后面充当补语,表示牢固、稳当义,停

顿、静止义,跟‘得’(或‘不’)连用,表示力量够得上(或够不上)义:保住、撑住、挡住、顶住、堵住、记住、截住、揪住、捆住、拦住、蒙住、拴

住、围住、稳住、握住、咬住、遮住、止住、抓住、捉住、留住、愣住、保不住、备不住、背不住、对不住、禁不住、禁得住、经得住分词软件把它们作为一个单位来处理,显然把它们是看成了词。在人们的语言使用习惯中它们确实也是结合得非常紧的。像上面所举的“住”字双音词人们一般不会单独地只说前面的动词“保”“撑”“挡”“顶”“堵”“记”“截”“揪”等的。

可“住”还单独出现了 261次。除了大都是作为主要动词外,还在下面这些动词后出现过:

压、粘、抵、缠、系、缝、屏、钩、插、卡、扣、别、闭、逮、把、拉、包、塞、捏、盖、停、夹、吊、拢、捧、掐、支、包、关、扶、勒、绊、擒、牵、拖、托、忍、裹、阻、套、搭、挂、绑、收、迷、兜、糊、系、守、扭、绕、哽、按、勾、定、提、束、架、罩、埋、捂、噎、钳、逮约束、遮掩、抑制、把握、抵抗、控制、遮蔽、固定、掌握、束缚、保存。

“保住”“撑住”与“压住”“粘住”有何不同?为什么前者是切为一个单位,后者切为两个单位?它们的功能、作用、结合对象等,都十分相近,可却有了两种不同的处理方法。这显然是不恰当的。如果说某某动词与后面的“住”结合得十分紧,非它不说,倒也罢。其实又并非如此。如“围住”出现了五次,都是划成了一个单位,可“围成”有 25次,却被划成两个单位。当然这可以说,“围成”往往后面还要带表示结果的成分,可是与和它相邻词语进行对比后,发现后面带不带别的成分并不能成为必

33

Page 37: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

须这样或必须那样的理由。显然,承袭这样的分词结果只会带来分歧。这也不符合释义元语言对释词的词

汇结构最小化的要求。“住”作为一个动词后补性性质,能与它结合的动词是那么多,合起来作为一个单位,就与原来的单音动词分而立之,成了两个。所以,尽管它们的结合相当密切,如果分开后并不妨碍词义的理解,就都应分开来处理。这样只要把“住”在实词义外的作动词补充义的半虚化义独立出来自成一类,就可以关照到一大批动词了。

对动宾式结构,分与合之间也是较难处理的一类,软件的切分中属可议者就有不少。如:守门、收费、受罚、受累、受冷、打鼓、图利、贪财、输电、输血、松手、签名、掌权、致病、握手、伐木、发话、换车,如:出租汽车:供人临时雇用的汽车,多按时间或里程收费。也叫出租车。免费:免缴费用;不收费:

像这里把“守门”“收费”都作为一个单位来划分,将会大大增加词语的数量。对动宾结构关系的处理,仍应遵循从紧的原则,即意义未发生转移、变化时,

结构的划分宜分不宜合。像下面这些词合起来成为一个单位还是有成词理据的:失信、生根、打雷、烧酒、作乱、变色、筹款、插嘴、讲学、含笑、赶集。当然,即使是在同样具有成词理据的情况下,只要意义没有发生大的变异,对释义元词来说,都要依照从紧的原则来处理。

3.词缀的分与合汉语中还有许多词缀成分,或是位于前面,“第、阿、化、所、非、超、无、非、

反、可、手”,或是位于后面,“家、头、性、子、者、儿、式”。有的词缀跟词干结合得特别紧,影响着词义与语法属性,这样的结构是密不可分的。而有的词缀与词干的结合比较松,分开后不影响词的意义和语法属性,这样的结构就宜把词干与词缀分开。

第一类,宜合不分的。以“化”字为例。这是一个动词性的后缀,含有变化、演变的动态意思。它大都放在动词性词素后面,强化了它的动作义。也能放在形容词性与名词性词素后,使之词素化,并获得了动词的意义与功能。如消化、熔化、融化、分化、转化、进化、简化、孵化、退化、焚化、教化、裂化、

驯化、催化、合作化、软化、腐化、硬化、净化、绿化、美化、形象化、氟化、复杂化、恶化、典型化、

淡化、丑化、同化、简单化

34

Page 38: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

氧化、磁化、炭化、风化、液化、硫化、工业化、钙化、表面化、公式化、乳化、社会化、羽化、皂化、神化、煤化、氯化、欧化、理化、具体化、人格化、碱化、集体化、机械化、水化、规格化、民主化

第二类,宜分不合的。以“者”字为例。在分词软件的处理结果中,“者”字作词尾的词 50 个,它们是:爱好者、编者、长者、倡导者、初学者、第三者、读者、独裁者、二者、发明者、

革命者、工作者、后者、患者、或者、记者、精神胜利者、劳动者、两者、流氓无产者、旁观者、前者、强者、侵略者、弱者、三者、射击者、生产者、胜利者、使者、始作俑者、手工业者、受事者、死者、所有者、听者、统治者、先驱者、先行者、消费者、小生产者、小手工业者、新闻记者、行者、学者、业余爱好者、优胜者、游民无产者、著者、作者出现总次数 505次,次数最高的前 5 词是:死者 81、或者 68、统治者 48、作者 37、患

者 37。从释义元语言看来,这么多的“者”字词显然不符合其收词标准的。因为除了

频率外,它最关心的还是元词必须具有在词义指代功能上的不可替代性。像“爱好者”、“长者”、“编者”、“读者”这些都是属于词素义的简单相加型,而“第三者”这样词义与词素义之间有明显距离的很少。在释词的自动切分中,“者”被单独切分出来的还有 196次,如果把“者”字与它

前面的词语合称的话也就与上面例举的“者字词”无异,就会出现如“存款者”“放款者”“应试者”“犯罪者”“杀人者”“创造者”“违法者”“歌唱者”“获奖者”“住宿者”“领导者”“当局者”“追随者”“迫害者”“施事者”“主宰者”“工商业者”“修理者”之类的词语。这些与上面作为一个结构出现的“射击者”“发明者”“旁观者”“手工业者”“业余爱好者”其实无甚区别。其实,即使是用一般的标准来衡量,“者”字结构在作为词来认定时也要从严。在

《现汉》的词目中,以“者”字作词尾的词有 25 个:笔者、编者、第三者、读者、患者、或者、记者、来者、劳动者、老者、流氓无产

者、始作俑者、使者、侍者、无产者、先行者、小生产者、小手工业者、行者、学者、游民无产者、再者、长者、著者、作者从这些例词可以看到这样几个特点:“者”字前的单字的多,多字节的少;“者”与前面的结构结合得非常紧密,即使是多字节的,它们结合后的稳定性也极

强,如“劳动者”“无产者”“先行者”“始作俑者”。大多数多字节的者字结构,如果将它们拆开的话,“者”字前面的结构几乎不会单独说到,如“无产”“流氓/无产”“游民/无产”由于“者”字极强的构词能力,由于“者”字结构内部大都属于意义叠加式的组合,

像“者”字的构词成分如果将它们专门作为一类构词素在释义元语言中保留它们的地位,11将会有助于释义元词在有限词数的范围内增大它的容量与有效性。11 这里将它们笼统称之为“虚化的构词成分”。学术界对它们的看法不尽统一。

35

Page 39: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

4. 数量词的分用数词与量词之间的结合,无论是在软件分词中,还是在人们的习惯中,往往会有许

多被人们看作是一个词单位的。在《现汉》的 61万个释词中,带“一”的词有 5341 个,占总词量的 0.9%。除去重复者仍有 278 个,占总词种数的约 7%,除了“一定”“一边”“一般”“同一”“一道”“一齐”“一概”“一心”“一旦”等具有词的理据外,像“第一”“一亿”“一种”“一百万”“一片”“一天”“一方”“一点”“一端”“一些”“一面”“一代”“一侧”“一月”“一角”“一手”“一伙”“一说”“一条”“一度”“一口”,这样都是应该分而居之的。

5. 兼类词的简化处理汉语的兼类词是普遍存在的。愈是基本的词,愈是单音节词,愈是多义词,一词

多类的现象愈是普遍。这方面我们曾作过一些专题调查,12发现即使是像《现汉》这样刻意划分词的不同语法功能的词典,其中相混的也不在少数。不是不想分,而是处理起来实在太棘手。而对释义元语言研究来说,对此的简化处理,并不是因为它难,而是作为基本词、元词的要求,它最看重的是词的指称对象与搭配组合能力,所以把表意功能放在了第一位。如“使用、经过、区别、产生、规定”等都能在几种功能之间自如地变换,正是这种普遍使用的多种语法功能与相互之间灵活转换的特性,才更好地符合了释义元语言的要求。这时再按在其他场合可能适用的词的语法功能单一的要求来看待释义元词,显然是有损于释义元语言的性质与作用的。通过以上五方面的分析,就会发现在它们综合影响下的最终结果,就是释义元词在

结构上表现出来的词核化。它们是在汉语词汇系统中起最重要表意作用的那部分词,词的长度普遍较短,并包括少数几个有极强构词能力的非自由词素。

四.释义元语言的词义特征在词义的面貌与性质上,释义元语言也会表现出自己的特点。1.通用性的特点通用性指的就是它必须是属于当代语言中使用面最广,人们大众所熟知的词语。首先它必须是真实语言,或说是自然语言的一部分。这与认知元语言是有着根本

不同的。认知元语言,或哲学元语言,所使用的语言符号是形式语言中的抽象成分,它的数量可以是仅为有限的,但它已经不属于自然语言,只是一种构拟成分。因此,它也存在于专业领域,存在于行家里手。其次它应该是尽量为更多的人所使用、所熟悉,明白通晓,流行范围最广的词语,

而不是与此相反的地域词、行业词,或偏雅或偏俗的词。如“大拇指”太俗,“大拇哥”太偏,通用的应是“食指”。再次是它应属中性词,不应带有更多的色彩,特别是感情色彩、时代色彩。通用性是释义元语言最重要的一个特点。自古以来,凡是很好地承担了释义任务

的大体上也都具有通用的特点。在释义语言的所有使用场合,无论是定义式的描述性12 苏新春,《同形词与词的意义范围》,载《辞书研究》,2000年第 3 期

36

Page 40: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

释义,还是同等对释式的同义词释义,通用性都是释义词语应具有的基本特征。对以上论述,下面的例子是一个很好的印证:释词中有“保佑”“占卜”“占”三个词,可以都归之于《词林》中的“Hl迷信

活动”。经查验,“占”是多义词,在释词中出现了 76次,基本上不作“算卦”用。“保佑”出现了 11次,解释的词语是“庇荫、庇佑、祷告、呵护、护佑、还愿、吉人天相、祭祀、谢天谢地、荫庇、佑”。“占卜”出现了 32次,解释的词语是:“卜2、蔡 2、卦、珓、课 3、签 2、蓍、栻、筮、占、贞 2、繇、八卦、卜辞、卜筮、龟甲、龟鉴、吉卜赛人、甲骨文、灵童、六壬、起课、签筒、未卜先知、问卜、星术、熏沐、阴阳、阴阳生、转世”等。32的数字是一个比较高的使用次数,累积覆盖频率也排在73.678%处,单从频率来看,它似乎成为释义元词是无庸置疑的。但之所以仍提出来讨论,原因就是释义元语言的释义对象是一般性的语文词语还是比较偏难的词语或专门的专科语词,是满足一般语言学习者的认知需求还是要达到专门的解读目的。说到这里,应该指出的之所以要对释词作如此认真的甄别,就是因为它完全来自于《现汉》,而《现汉》收录了相当高比例的百科词语,对相当多的百科词语所作的解释也过于专业。因此,在提取释义元语言时,对释义对象与释义深度是必须做出认真考虑的两个关键问题。

2.高频的特点高频指的是使用频率高,在所有的释义活动中经常使用到的词语。这是释义元语言

的自然状态与属性,也是释义元词的筛选标准。本研究所进行的释义元语言研究是一个实证性很强的工作,即它依据的材料首先是真实的文本,而不是理论上虚构。初步分析后,可以发现释词的数量非常可观,有数万条之多,那么哪些是释义元词,值得提取、保留,最直观的感觉就是那些出现频率高的词。这是最直观的一条标准。高频性与通用性有互为表里的关系,但各自的侧重点又不同。高频是指其在已有的释义语言中出现次数多,通用是指其在最一般的、通常的语言环境中会普遍使用到。频率的鉴别是在对数万条释词进行第一步筛选时所作用的方法。

3.义域宽广的特点义域宽广指的就是释词的意义要比同类其它词语的意义范围要大,义域要广。这也

是由释义功能决定的,特别是在同义式的对等释义中更是如此。笔者曾做过一个调查,发现《说文解字》所有的单字对释词,都表现出了“广义性”的特点。13现在看来,基本词汇与释义元语言在这一基本特征上是相通的。义域宽广的词意义覆盖面大,词义内涵要少,这样才能在释义时更好地承担起解释的功能。使用义素分析法来进行分析,一般情况下,广义词的义素显得相对要少,狭义词的义素相对要多。《现汉》在释义时常使用到的“多指”,其实就是在对广义释词进行限定性的说明。另一个还经常见到的就是直接把上位词用作释义,如释某某山谓之为“山名”,释某某水谓之为“水名”即此。对广义词能起到鉴别作用的还有一个很好的材料,就是它们在义类词典中往往是充当“主题词”“类名词”的词。13 见《论古汉语基本词汇的广义性》,广州师范学院学报,1987年第 1 期。《如何确定古汉语基本词汇的广义性》,广州师范学院学报,1990年第 1 期。

37

Page 41: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

4.组合性强的特点元语言不可能太多,太多就不构成其为语言核心的“元”。元语言作为一级语言单

位来说,不可能太大。组合单位一大,也就意味着意义要素多,意义要素多,也就必然带来使用范围变小变窄。因此,元语言必然是一些“元素”性很强的词核性的基本词。但它们又不能是一些孤立性的语言个体,除了一些封闭性的词类和一些具有特殊功能的词语外,元语言还应包括有足够语义覆盖面的各个词类中的常用词与基本词。要求它们具有良好的组合性,能充分利用自身的特点,以成为复合构词,及组词成句的基本成分。在构词范围,就是能灵活地组成更多的合成词,在成句范围,就是能和更多的词语成分形成搭配关系,在语用范围,就是能适用于更多样的语言环境。

五.释义元语言的数量特征释义元语言的确定数量不能太多,必须限定在一定的数量范围之内。有限量是元语

言形成的一个外部特征,又是它内在素质要求的体现。只有“有限”,才能具有“元”语言的资格,才能更好地体现元语言的表意功能。元语言的价值本来不仅仅是表现在数量有限上,它应是语言中最有表意功能的那部分核心词汇成分的体现。对这样的语言成分,不能用简单的数量与功能之间的比差关系来衡量。它们的数量虽小,但却能完成语言表达交际任务的最主体部分。掌握了这部分元语言成分,就将大大有效地提高语言学习与语言使用的任务。元语言的存在是客观的,它的功能主要在于完成对别的词汇成分的描述、说明的表

达任务。相对这一庞大的任务,使用的又是数量极为有限的“元语言”,这无疑是大大提高了语言的使用效率。这在语言教学与语言表达上是极具应用价值的一个课题。因此,对元语言研究来说,“有限量”必须成为一个看起来是外在的,然而又是其内在素质体现、最富挑战性的评判标准。不同语言的释义元语言数量有多少,不应该有一个凝固、死板的标准,不应该成为一个人为确定的主观定量。它应在语言的最大表达效果与语言要素的最低使用量上达到最佳平衡点。这个最佳平衡点就是释义元语言的限量标准。别的语言有过的最低释词量,如《朗曼当代英语词典》中的 2000条,14

也只能成为汉语释义元语言的参考点。因为,在追求对一种语言的最佳表意效果里面,其实与该语言有别于其它语言的结构差异、组合差异、使用差异等,有着密切的关系。本文研究的释义元语言是以汉语的语文性词语为对象。随着释义对象的扩大,即使

是语文性词语,也有着地域上由普通往狭窄方面的发展,时代上由当代共时往历时延溯的拓展,语体由通用往特殊方面的延伸,更遑论语文词语与专业术语之间本来就有着千丝万缕的联系。这也就是说释义对象是一个范围极其宽广、可延伸性大、数量边缘难以确定的对象语言。本文研究的释义元语言又是以一般语言社会成员为服务对象的。随着认知任务的加

重,释义厚度的加深,所需要的释义元词也必将进一步增多。可在释义的深浅之间又难以找到一条难以划分清楚的界河。14 实际上是 2169条,其中前缀 13条,后缀 41条,词语 2115条。

38

Page 42: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

所以,“释义元语言”的有限量性只能是就其核心、基础那部分而言的。随着释义广度的拓宽,随着释义深度的延伸,当然会对释义元语言的容量提出扩大的要求。我们可以提出这样一个分级分层的设想。以 3000条为数,属释义元语言,或曰一级释义语言;以 8000条为数,属释义语言,或曰二级释义语言。我们还可以提出这样一个设想,就是确定了以语文性词语为对象的释义元语言后,

它也就大体具有了对所有词汇的阐释功能。这时需要再做的就是在面对有着特殊面貌与功能的专业词语时,只要再增加这个领域的若干基础性的术语释义也就可以了。

参考文献:《辞海》 1980 上海辞书出版社。《现代汉语词典》 1996 商务印书馆。《新华字典》 1998 商务印书馆。R.R.K.哈特曼 R.C.斯托克著,黄长著等译 1981 《语言与语言学词典》,上海辞书研究。北京语言学院语言教学研究所编 1986 《现代汉语频率词典》,北京语言学院出版社。董振东、董强 2001 《知网和汉语研究》,当代语言学,第 1 期。葛本仪、盛玉麒 1988 《〈信息处理用现代汉语三万词语集〉简介》,载《科学技术研究成果公报》,中华人民共

和国科学技术委员会,第 8 期。又载《山东大学百年学术集萃文学卷》(下册),山东大学出版社,2001年。葛本仪 2001 《现代汉语词汇学》,山东人民出版社。胡明扬 1999 《说“词语”》,载《语言文字应用》,第 3 期。李葆嘉 2002 《汉语元语言系统研究的理论建构及其应用价值》,南京师范大学学报,第 4 期。刘英林 宋绍周 1992 《汉语常用字词的统计与分级》,《中国语文》,第 3 期刘源 1990 《现代汉语常用词词频词典(音序部分)》,宇航出版社。尼古拉斯·布宁、余纪元编著,2001 《西方哲学英汉对照辞典》,人民出版社。苏新春 2000 《同形词与词的意义范围》,载《辞书研究》,第 3 期一一一 2001A 《关于〈现代汉语词典〉词汇计量研究的思考》,世界汉语教学,第 4 期。一一一 2001B 《汉语词汇定量研究的运用及其特点——兼谈〈语言学方法论〉的定量研究观》,厦门大学学报,

第 4 期。一一一 2003 《元语言研究的三种理解及释义型元语言研究评述》,江西师范大学学报,第 6 期。工作单位:厦门大学中文系通讯地址:厦门大学白城 12号 301信箱:[email protected]电话:0592-2184081,2181479,8745786

39

Page 43: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

同源角色框架的表达和计算董振东 董强 郝长伶

中国科学院计算机语言信息工程研究中心 北京 100083E-mail: [email protected]

Representation and Computing of Cognate RoleFrameZhendong Dong Qiang Dong Changling Hao

Research Center of Computer & Language Information Engineering, CAS, Beijing, 100083E-mail: [email protected]

Abstract: Borrowing from the term of “cognate object”, we use “Cognate RoleFrame” to reveal a kind of semantic relations between nouns and verbs like “hatred” and “hate”. By Cognate RoleFrame, we mean that the noun has the same role frame as its correspondent verb. In HowNet we use “CoEvent” as the identifier to describe all the nouns of Cognate RoleFrame. We demonstrate two HowNet-based tools to evaluate our treatment of Cognate RoleFrame.Keyword: HowNet, valency grammar, event role, event role frame, cognate RoleFrame

1. 前言我们认为词汇语义表达的灵魂是关系,词汇语义处理(特别是面向计算机)的关键是意义的计算。这一主张贯穿于我们十多年来研究词汇语义的全过程。这一主张是《知网》建构的基本理念,它全面地体现在《知网》的各个方面,进而成为了《知网》的精髓。我们认为这样的主张和实践不仅对于面向计算机的研究是正确的,而且对于面向人的研究也会是有益的。众所周知,《知网》描述了多种类型的词汇语义关系,涉及了词汇语义的各个方面。大家也知道,与英文的WordNet不同,第一,《知网》是基于由中英文两种词语所代表的概念为基础的;第二,《知网》着重描述了不同词性的词语所代表的概念之间的语义关系,其中特别重视名词所代表的概念与动词所代表的概念之间的语义关系,也即我们通常称作实体与事件之间的语义关系。这样的语义关系最普遍的是所谓的“涉入”关系,在《知网》中称为角色关系,例如作为实体的“医生”和作为事件的“医治”,两者有着“事件”与“施事”的关系。本文所谈及的是另外一种类型的实体与事件之间的关系,例如“意见”和“认为”、“意愿”和“愿意”等的关系。有的语法学家把这类的现象归结为“二价名词”[2]。《知网》把这样的关系称为“同源角色框架”。本文将讨论和回答:什么是“同源角色框架”,它有多少种类型,这样的名词占名词总量的比例约多少,《知网》是如何表达和处理它的,并且通过《知网》的二次资源,即《概念相关性计算》和《概念相似度计算》两个软件的演示来显示如此表达和处理的正确性和优越性。2. 角色框架(Role frame)在讨论同源角色框架之前,自然应该先介绍一下角色框架。我们所说的角色框架属于动词的语义范畴,它与句法无关,它是不依赖特定语言的。现今动词框架在一些面向

40

Page 44: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

计算机的语义资源中很流行,如WordNet、VerbNet、FrameNet等都有自己的专门的动词框架,但它们是很不相同的,例如WordNet的动词框架应该说只是句法的。更多的不同主要在于对于角色的定义和它们在框架中的规定。《知网》的角色框架是:它包含着当某一个事件发生时,除时间和空间以外的全部的、必不可少的参与角色。例如:

“买” agent, possession, source, cost, beneficiary“打仗” agent, instrument, partner, cause“污染” agent, patient, instrument, PatientValue={dirty|龊}“打” agent, patient, instrument, PartOfTouch

这里有两点要特别强调:所谓“必不可少”,不是说在实际的语言文字中一定要出现,而是在逻辑上必然会有的,并且如果缺少了,这个事件就不成立了。例如当“买”这个事件发生时,一定会有“施事”(买主)、“领属物”(买的东西)、“来源”(如商店等)、“代价”(付出的货款)、“受益人”(如家人和朋友等,或者自己)。在实际语言文字中很少有把上述各个角色都说出来的,但这绝不等于没有这些角色参与。例如,“我又买了一本词典”,这句话里虽然只有“施事”和“领属物”,但这绝不等于实际上不包含“来源”、“代价”、“受益人”。《知网》的事件类别有 815 个,每一个类都有一个类似上述的角色框架。同时《知网》还列出了 815 个框架中的各个角色的典型演员,例如:“打仗”:{fight|争斗} {HaveContest|较量:agent={human|人}{group|群体->},instrument={weapon|武器},

partner={human|人}{group|群体->},cause={*}}

所谓角色的典型演员(typical actor)很类似于传统的“语义约束(selectional restriction)”,我们摒弃“语义约束”,只是要避免这种理想主义的,实际却是不灵验的“约束”。3. 同源角色框架 (Cognate role-frame)同源角色框架是不同的词类的词语共享完全相同的角色框架的现象。这样的情形在名词和动词之间表现得尤为充分。同源角色框架是不依赖于特定语言的。在英文中有如下语言现象:“live a happy life”,“sleep a sound sleep”,语言学把这里的“life”、“sleep”就称作“同源宾语(cognate object)”[1],因为它们跟支配它们的动词在词源上和语义上有联系。汉语中诸如“睡觉”的“觉”,“洗澡”的“澡”,“洗浴”的“浴”,“打仗”的“仗”,等等,也完全可以认为是“同源宾语”。下面

41

Page 45: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

我们以名词“愿望”和动词“盼望”为例说明。动词“盼望”的角色框架是:“experiencer, degree, content”,这就是说当“盼望”所代表的事件发生时,必然会有如下角色参与即:谁“盼望”,“盼望”什么,“盼望”的程度。例如“她非常盼望儿子能平安归来”。而名词“愿望”也包含着同样的角色框架。例如,我们可以说,“儿子能平安归来是她最大的愿望”。从这个例子中我们看到了同样的角色框架是:“experiencer, degree, content”。上面两个句子的句法结构完全不同,但它们却有着完全相同的深层语义框架(或图解)。4. 同源角色框架概念和同源角色框架词语同源角色框架概念(Cognate role-frame concept),是指共享完全相同的角色框架的不同词类的词语所代表的概念。这里我们要特别强调的是“概念”,这是因为:第一,同源角色框架是不依赖特定语言的;第二,同源角色框架是建立在概念的基础之上的,严格地说“战争”所对应的同源角色框架,并不是“打仗”这个词语,而应该是“打仗”这个词语所代表的概念。同源角色框架词语(Cognate role-frame word),是指共享完全相同的角色框架的不同词类的词语。它们主要是两类:同源角色框架名词如“婚”和同源角色框架动词如“结婚”。我们必须对它们加以科学的研究分析,给出明确的解释,并在语义资源中有充分的反映。如前指出的,我们的任务不仅仅是要说明一种语言现象,更主要的是要揭示内部存在的关系,同时还要使之便于进行意义的计算。从建设《知网》的研究中,我们发现:同源角色框架的现象更多地存在于我们称之为一种“动画-定格”的转换中。我们在回答一个经常被提及的问题时我们将采用“动画-定格”这一观念。什么是“动画-定格”?举例来说,“汽车在路上飞驶,把一个路人撞倒”,如果把这样一个连续的过程拍下来,这就是我们说的“动画”,但当我们把“汽车撞倒路人”的镜头加以凝固,这就是“定格”。再如我们常听到的例子,“出版这本书”和“这本书的出版”的区别,以及这里的两个“出版”有何不同。我们说前者是“动画”,是“电影”,有过程,我们称它为“事例”;而后者是一张静止的画,没有过程,我们称它为“事实”。无论是“事例”,还是“事实”,归根结底它们都是“事件”。它们将会有相同的角色参与。在这里我们顺便说明一点,我们不会把上面的两个“出版”认为是两个不同的词性。 再举一个例子做进一步说明,我们认为“学习英语”短语中的“学习”与“英语学习”短语中的“学习”,在词性上是没有区别的,都是动词。但是“学习英语”这个短语,在语义上是“事例”,整体上是动词性短语;而“英语学习”这个短语,在语义上是“事实”,整体上是名词性短语。再强调一下,《知网》认为:这里的“学习”的词性仍是动词,而不是什么“名物化”或“名动”等。5. 《知网》中现有的同源角色框架的类型和数量在《知网》现有的 4万 2千多个汉语名词中,包含同源角色框架名词的名词约 2380多个,约占 5.6%。但这里要特别指出:同源角色框架名词的数量是动态的、开放的,它并不是一个封闭的集合。请看下面的例子,左侧的词是动词,而右侧的词语是同源角

42

Page 46: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

色框架名词语。它们表示同源角色框架名词是一个开放的集合。“播” “春播” “接触” “身

体接触”“防” “边防” “管理” “行

政管理”“救” “急救” “援助” “军

事援助”“治” “法治” “污染” “水

污染”《知网》发现,同源角色框架名词主要有如下语义类型:(1)表示“事务”、“业务”,例如:

信贷 生意 交易 信贷 丑业 渔猎 通讯 炊事 防务兵役 工作 买卖 体育 针线 财税 车险 森工 消防建筑业 饮食业 预备役 色情业 针线活 博彩业专业课 典当业 棉纺织土木工程 医疗卫生 脑力劳动 人身保险 科学研究 幼儿教育餐饮连锁业 航空意外险 汽车制造业 乳制品工业

(2)表示“事情”、“行动”,与“事务”或“业务”不同,它是一个单一的事例,例如:

婚 折 亲 约 刑 吻 举 丧 变婚嫁 亲事 暴行 酷刑 响指 团拜 乘务 急弯 官司动静 丧葬 举措 手脚 壮举 言行 追尾 起居 酬酢对台戏 爆炸案 申诉案 重婚罪 性贿赂 贸易战处女航 夜生活 大手笔性骚扰 慢动作 头三脚 翻身仗 发布会 回马枪攻坚战 耳刮子 开幕式衣食住行 洞房花烛 家庭作业 军备竞赛 搜救行动 信息检索空头人情 电子游戏 短期行为 临终关怀 术后护理 惊人之举恐怖袭击 贸易往来 法律诉讼 自我牺牲 生老病死 生死存亡不正当竞争 最惠国待遇 吃喝拉撒睡 常规尿分析 记者招待会 珍珠港事

件(3)表示“意愿”,例如:

意 欲 愿 志 色嗜好 烟瘾 洁癖 抱负 呼声 希望 理想 盼头 人心心声 想头 意思 欲求 志向 众望 夙愿 胃口 情欲上进心 领袖欲 好奇心 性冲动 美国梦 求知欲

43

Page 47: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

倾向性 进取心狼子野心 一相情愿 非分之想 民心所向 共同愿望 从众心理

(4)表示“情感”忿 愤 火 怒 怨 嫌 信 孝 疑 仇 恨 冤忾 雠 醋 爱 情 歉愤慨 肝气 民愤 敌意 把握 迷信 孝心 恶感 反感外心 存疑 炽情 激情 暖流 丹心 恐怖 余悸 谢忱意思 恩仇 仇怨 私仇 宿怨 醋劲 爱心 春晖 青睐认同感 负罪感 信任感 自信心 优越感 事业心恐惧感 人情债 妒忌心宗教信仰 敬业精神 恐惧心理 恩恩怨怨 恋母情结 深仇大恨

(5)表示“感受”,即某种经验、体验,例如:感觉 听觉 无知 童蒙 快感 乐趣 余兴 眼波 动觉美感 冷眼 冷遇 倦意 觉悟 疙瘩 苦楚 痛楚 痛苦新鲜感 安全感 冷板凳 耳目之娱 酸甜苦辣 悲欢离合燕尔之乐

(6)表示“现象”,包括“疾病”、“症状”,“天象”,以及“结果”,例如:锈 嗝 呃 梦 热 年 稔 荒 幸 洑 脉 屈冤 妆水文 假死 矛盾 潮汛 春潮 故障 毛病 胎动 停电梦幻 低烧 年成 余缺 枯水 房荒 失业 失重 全食浓妆 贡献 败局 败仗 进球千年虫 弛张热 闭门羹 肠绞痛 关节痛 乌龙球磁感应 光电导 日全食通货紧缩 内部矛盾 逆反心理 宾客如云 人口老化 信息爆炸成矿作用 一夫多妻 能源危机 水土流失 双喜临门 政企不分就业不足 骨牌效应 条件反射 尖端放电 接触不良 供过于求

(7)表示“思想”,“念头”,“规划”,“制度”,例如:意 论 见归心 乡情 乡思 美梦 异议 鄙见 看法 论断 想法愚见 主张 设想 假想 心裁 念头 意见 人治 法治思乡病 主心骨 拜火教 拜物教 革新论 分红制兵役制无政府主义 投降主义 冒险主义 南柯一梦 一得之愚 折衷方案集会自由 种族主义 老年健康保险

44

Page 48: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

这里有一点是要特别强调的:上面列出的 7大语义类型,是指这些名词自身的,而不是它们所对应的动词的。名词所对应的动词是个别化的。详细内容参见下节。6. 《知网》对于同源角色框架的表达和计算6.1 一般原理《知网》对于同源角色框架的表达,体现在如下几个方面:(1)确立这样的现象是一种普遍存在,必须在《知网》中予以反映;(2)务必以概念为基础,而决非以词语为基础;(3)明确一个原则,即务必一个词语一个词语地逐一建立起语义同源的关系,例如,“战争”、“意见”、“爱情”、“乡思”、“生意”等等。也就是说找出与它们各自相对应的事件概念,并以某种形式表达出来。只说它是一种什么现象是不够的。这从一个方面也体现了面向计算机的语言研究与面向人的语言研究是不同的。6.2 《知网》的同源角色框架关系符 -- CoEvent《知网》采用一个同源角色框架关系符 – CoEvent来建立同源角色框架概念(通常是名词与同源角色框架动词)之间的关系。“CoEvent”的意思是:Cognate_Roleframe_Event,即同源角色框架事件。下面是《知网》中的两个记录:

W_C=爱心W_C=爱护

G_C=NG_C=V

E_C=E_C=

W_E=loveW_E=cherish

G_E=NG_E=V

E_E=E_E=

DEF={emotion|情感:CoEvent={like|爱惜}}DEF={like|爱惜}

关于“爱心”这一词语的定义的意思是:它是“情感”,它的同源角色框架事件概念是“爱惜”。再看下面简化的例子,包含三部分,分别是:(1)同源角色框架名词;(2)《知网》中对该名词的定义的实际的标注;(3)相对应的事件的角色框架;(4)事件角色与典型演员。(1)“仗”/“战争”(2)DEF={fact|事情:CoEvent={fight|争斗},domain={military|军}}(3){fight|争斗} {HaveContest|较量:agent={*},instrument={*},partner={*},cause={*}};

45

Page 49: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

{HaveContest|较量:coagent={*},instrument={*},cause={*}}(4){fight|争斗} {HaveContest|较量:agent={human|人}{group|群体->},

instrument={weapon|武器},partner={human|人}{group|群体->},cause={*}};

采用“CoEvent”这个同源角色框架关系符,我们实现了逐一地把同源角色框架名词语与同源角色框架动词语建立了关系。试比较动词“打仗”,它的标注是:DEF{fight|争斗:domain={military|军}}。这样很显然,就可以实现同源角色框架关系的意义计算了。另外,如前所述,《知网》发现和归纳了同源角色框架名词语的语义类型,同时也指出同一语义类型的名词完全可能对应不同的动词,尤其是属于“事务”和“事情”类的名词。试看下面《知网》中实际的例子:W_C=环卫G_C=NE_C=W_E=environmental sanitationG_E=NE_E=DEF={fact|事情:CoEvent={clean|使净:patient={Environment|情况:host={entity|实体}}}}

W_C=乒乓球赛G_C=NE_C=W_E=table tennis tournamentG_E=NE_E=DEF={fact|事情:CoEvent={compete|比赛},domain={TableTennis|乒乓球}}

这里表明,虽然“环卫”和“乒乓球赛”都属于“事情”这一语义类型的名词,但它们与之对应的,也即与之同源角色框架的动词是不同的。只有这样对于它们的计算才是有意义的。6.3 同源角色框架关系在意义计算中的体现我们用《知网》开发的《概念相关性计算》和《概念相似度计算》两个软件来检验我们对同源角色框架表达和处理的正确性。我们用《概念相关性计算》来检验两个同源角色框架概念是否会有很类似的概念相关场。下图显示名词“仗”的概念相关场结果查询的一部分,以及它与动词“打仗” 的概念相关场查询结果的比较。由此我们看到它们在语义上的高度的相关性。

46

Page 50: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

再者,我们以“爱情”为例,查询它的与一些词语的语义距离或称语义相似度,我们得到了如下的结果:爱情 <—> 打仗 :0.009091 爱情 <—> 喜欢 :0.061538

47

Page 51: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

爱情 <—> 初恋 :0.380000 爱情 <—> 恋爱 :0.450000

这几个词语在《知网》中标注的定义分别是:“爱情”:DEF={emotion|情感:CoEvent={love|爱恋}}“打仗”:DEF={fight|争斗:domain={military|军}}“喜欢”:DEF={FondOf|喜欢}“初恋”:DEF={fact|事情:CoEvent={love|爱恋},modifier={first|首次}}“恋爱”:DEF={fact|事情:CoEvent={love|爱恋}}

直觉显示上面的结果是可以接受的。特别令人感兴趣的是:《知网》告诉了我们为什么“爱情”与“恋爱”的相似度会略高于其与“初恋”的相似度。参考资料[1] 哈特曼,斯托克,语言与语言学词典,上海辞书出版社,1980,pp60-61[2] 袁毓林,现代汉语二价名词研究,现代汉语配价语法研究,北京大学出版社,1996,pp29-58

48

Page 52: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

From Frame to Subframe: Collocational Asymmetry in Mandarin Verbs of Conversation

Mei-Chun Liu Chun Edison ChangGraduate Institute of Linguistics and Cultural Studies

National Chiao Tung University, Hsinchu 30050, Taiwan

[email protected] [email protected]

AbstractThis paper examines the collocational patterns of Mandarin verbs of conversation and proposes

that a finer classification scheme than the flat structure of ‘frames’ is needed to capture the semantic granularity of verb types. The notion of a ‘subframe’ is introduced and utilized to explain the syntactic-semantic interdependencies among different groups of verbs in the conversation frame. The paper aims to provide detailed linguistic motivations for distinguishing subframes within a frame as a semantic anchor for further defining near-synonym sets.

1. IntroductionAs the importance of lexical semantic research grows with the need of representing human

knowledge, various lexically-based information networks have been proposed, such as the comprehensive work of differentiating word senses and sense relations in WordNet (Miller et al. 1990), the ontological hierarchy in SUMO (Das et al 2002, Pease et al 2002, Niles and Pease 2003), and the more linguistically-motivated model of FrameNet (Baker, Fillmore and Cronin 2003). While all providing valuable information regarding certain aspects of word meaning, the first two are constructed in a more intuitive manner. FrameNet, on the other hand, is based on the theory of Frame Semantics (Fillmore and Atkins 1992) and attempts to define meaning within a set of shared knowledge or background information, that is, a frame. However, as pointed out in Liu and Wu (2003), if meaning is anchored in the notion of ‘frame,’ then we need independent motivations for postulating different ‘frames’. What seems to be lacking in the current framework is a cognitive linguistic explanation as to how the individual ‘frames’ are distinguished and interrelated? In other words, what are the ‘semantic relations’ among all the frames? To answer the question, Liu and Wu (2003) proposed an overarching conceptual schema which incorporates all the core frame elements (FEs) and accounts for the interrelationship among various frames in the communication domain. By providing a cognitive schema as a macro-structure, the distinction of frames is then well-motivated. However, there still remains another issue at a micro-level, as indicated by Liu and Wu (2003):

Within each frame, a wide range of verbs are found and one would wonder how these verbs differ from each other. For example, English verbs speak, discuss, quarrel, and gossip, are all found in the Conversation Frame, but obviously, these lemmas encode something different. What are the differences ? There seem to be frame-internal features that also need to be characterized.

In this paper, we will show that within each frame, a more elaborated classification system is needed to account for a variety of verb behaviors. The notion of ‘subframe’ is introduced and utilized to capture the syntactic-semantic interdependencies observed in the corpus data15.

2. Motivation for the Conversation FrameCompared with the other communication frames, the Conversation Frame is unique in that it

profiles the property of reciprocality or two-way communication. Verbs in the Conversation frame encodes reciprocal events where participants are involved as Interlocutors, such as tan談 ‘talk’ ,

15 A preliminary model of the Mandarin VerbNet (http://140.114.75.18/verbnet/webform1.aspx/) has been constructed by researchers from National Chiao Tung University and National Tsing Hua University with the support of a NSC grant.

49

Page 53: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

tanlun談論 ‘converse’, ta-lun討論 ‘discuss’, shangliang商量 ‘discuss’, xietiao協調 ‘negotiate’, xieyi協議 ‘negotiate’, goutong溝通 ‘communicate’, chaojia吵架 ‘quarrel’, zhenglun爭論 ‘argue’, xianliao閒聊‘chat’, and liaotian聊天 ‘chat’, etc16. These verbal events highlight part of the conceptual schema as discussed in detail in Liu and Wu (2003) and represented in (1) below. The core Frame Elements (with bold fonts and grayed areas) help define the frame as a bidirectional communicative activity conducted by both the Speaker and Addressee as Interlocutor 1 and Interlocutor 2 (or Interlocutors), via a certain Medium, on a given Topic.

(1) Conceptual schema for the Conversation frame: Encoding Decoding

- ---- Noise----- -----Noise-----

The Conversation frame proves to be well-motivated in relation to other communication frames, as most of its verbs share the same conceptual schema and realizing similar constructions in coding the core frame elements. There is, however, a fundamental question to be answered, that is, within the Conversation frame, are there semantic subtypes that are also syntactically motivated?

3. Motivation for Distinguishing SubframesAs mentioned above, verbs of conversation involve a set of core Frame Elements:

Interlocutor1, Interlocutor2 (or combined to Interlocutors), Topic and Medium. In most cases, the default Medium is ‘face-to-face’ when not overtly mentioned, as in the following sentence: 他們在 談 / 討論 / 溝通 / 吵 / 聊 人生的意義 ‘They are talking/discussing/exchanging views about/argue about/chat about the meaning of life.’ Intuitively, these different lemmas seem to encode differences in manner, formality or purpose, while sharing the same topic. But what are the grammatical correlates to the lexicalized meaning differences? When looking closely at their collocational patterns, we found that there are asymmetrical distributions in five respects: 1) V+V pattern: some may occur with a preceding verb such as jinxing 進行 ‘proceed’ or dacheng 達成 ‘achieve’; 2) V+NP pattern: the core element ‘Interlocutor2’ may sometimes be coded as the direct object; 3) Metonymic subject: the subject of the event may be inanimate entities taking the role of Interlocutors by the principle of metonym; 4) V+ Complement: some verbs take a postverbal complement or adverbial adjunct denoting effect evaluation, such as chenggong 成功 ‘succeed’ or shibai 失敗 ‘fail’;and 5) In terms of distribution of grammatical functions, they show different frequencies of nominalization. Based on the five criteria, verbs of conversation can be further divided into 5 groups with corresponding sets of near-synonyms. We will address the syntactic-semantic interdependencies revealed by each pattern in the following sections.

16 The lemmas discussed in this paper are high-frequent words of the conversation frame used mainly in Taiwan. Besides the words mentioned, there are some other lemmas , as an anonymous reviewer mentions, such as tung hua通話 ‘interconnect’, shiang tan詳談 ‘descant’ , shen liau 神聊 ‘tittle-tattle ’, sz yu私語, etc. These words can be included as members of one the subframes discussed in the paper.

50

Intl1 Intl 2

UnderstandingSign/SignalMessage

Topic

Medium

Motivation (Internal Cause)

Page 54: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3.1. V+V Pattern: with the preceding verbs jinxing (進行) or dacheng (達成)The use of the light verb ‘進行’ entails a formal register and encodes a process or atelic event. It

tends to occur with an activity verb compatible with the formal register and involving a durative process, as shown in (2): (2) a. 進行 討論/溝通/協調

b. *進行 談/談論/吵架/爭論/聊天/閒聊Below is the distributional tendency found in Sinica Corpus:

(3) Percentage with Jingxing (進行)V1 V2 討論 溝通 Other Verbs (談/談論/吵架/爭論/聊天/閒聊)

進行 4% (3/83) 6% (25/419) 0%

Another verb dacheng (達成) ‘achieve’ is also compatible with some conversation verbs, requiring a formal register but encoding a telic event. The verb dacheng is only found with the nominalized form of such verbs as溝通/協調/協議17, i.e., activity verbs entailing a semantic endpoint with an incremental theme, as shown in (4):(4) a. 達成 溝通/協調/協議

b. *達成 談/ /討論/吵架/爭論/聊天/閒聊

The co-occurrence with the preceding verbs jinxing (進行) or dacheng (達成) serves to distinguish the conversation events in terms of its pragmatic mode (formal vs. informal) and event types (telic vs. atelic).

3.2 V+NP pattern: Interlocutor2 as the Direct ObjectAnother pattern that sets the verbs apart regards the semantic role of the object NP. While most

verbs can only take the Topic as the direct object, some verbs may encode Interlocutor2 as the direct object without adding the associative marker 和/與/跟, as shown in (5):(5) a. [執行秘書]Intl1已協調 [相關單位]Intl2

b. 由[他] Intl1負責溝通 [校方] Intl2

This suggests that with the verbs協調/溝通, the co-participant, Interlocutor2, may be viewed as the undergoer or the affected target of the event. Among the sentences of協調/溝通 followed by an object NP, an average of 23 percent may take an Interlocutor 2 as the direct object in Sinica Corpus:(6) Percentage with Interlocutor2 as DODO V 溝通/協調 Other Verbs (談/談論/吵架/爭論/聊天/閒聊/討論)

Interlocutor2 as DO 23%(28/123) 0%

3.3 Use of Inanimate Subject Interlocutors in the conversation events are by default human participants. However, some

verbs may take inanimate subjects (place or institute names) as Interlocutors via metonymic extensions from institute/building to human organization:(7) a. 台北和北京 談/討論/溝通/協議 了很久

b. 台北和北京 *聊天/*閒聊 了很久The application of metonymy tends to be associated with verbs that comply with the formal

17 In Sinica Corpus, only ‘達成協議’ is found, but in the Kimo website, we found examples: 1)具備這三項條件就可以達成溝通; 2) 兩邊的陣營終於達成協調.

51

Page 55: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

register requiring also a formal, non-personal topic (e.g., public affairs). Sinica corpus shows that verbs with marked manners tend not to be used with metonymic subjects:

(8) Percentage with Inanimate Subject: VSubj. type

談 討論 溝通 Other Verbs(吵架/爭論/聊天/閒聊)

Inanimate Subject 2%(4/191)

6%(5/83)

25%(21/85)

0%

3.4 Postverbal Complement with Effect EvaluationAmong the conversation verbs, only the ‘negotiate’ verbs (e.g., 協調, 溝通) may collocate

with effect evaluation complement such as 成功 ‘successfully’ and失敗‘failingly’, as shown below with examples and percentage rate from the Sinica Corpus:(9) a. 國防部和兩廳院已初步協調[成功]

b. 在協調[失敗]後,水公司終於昨天宣布放棄其中一口(10) Percentage of result evaluation complement: Comp. V 協調 Other Verbs (談/談論/吵架/爭論/聊天/閒聊/討論)

成功/失敗 12.5% (2/16) 0%

The co-occurrence with effect evaluation complement indicates that the semantics of the ‘negotiate’ events encode some kind of an ‘effect’ or ‘result’ that is being sought by the negotiation process. This also implies that the two-way communication in the event of協調/溝通 is a solution-seeking process which is semantically bounded and may be evaluated as to whether the solution or purpose has been achieved.

This pattern also correlates with the use of dacheng 達成 ‘achieve’, as mentioned above, in signaling an evaluation of the attainment of the desired result.

3.5 Frequency of NominalizationSome groups of verbs tend to be nominalized more frequently than the others. Comparing the

high-frequency verbs and their distributions over grammatical functions, we see clear skewing in nominal uses:(11) Distribution of Predicate vs. Nominal UsesFunc. V 談 討論 溝通 吵架 聊天Predicate 97%

(680/701)52%

(83/161)55%

(415/1013)76%

(123/162)94%

(134/142)

Nominalized 3%(21/701)

48%(78/161)

45%(598/1013)

24%(39/162)

6%(8/142)

Nominalization serves to change verbs to event nominals that may be referred to as a quantifiable entity. Nominalization is also highly correlated with the formal register of written texts.

4. Subframes as an Anchor for Near-synonymsThe asymmetrical distributions of the conversation verbs over different collocational

associations clearly suggest that verbs can be further divided into subtypes. Although sharing the same conceptual frame, subclasses of verbs show distinct patterns of syntactic-semantic interdependencies that may serve as the basis to further define near-synonym sets. These subtypes may be viewed as anchored in different subframes. Below is a summary of the collocational patterns associated with the 5 subframes within the conversation frame:

52

Page 56: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(12) Collocational Patterns associated with the Conversation Subframes CPSubtypes 進行+V 達成+V Intl2 as DO Inanimate

SubjectComplement成功/失敗 [+Nom]

1. Converse: 談/談論 No No No Yes No Low

2. Discuss: 討論 Yes No No Yes No High

3. Negotiate協調/溝通 Yes Yes Yes Yes Yes High

4. Quarrel: 吵架/爭論 No No No Yes No Mid-High

5. Chat: 聊天/閒聊 No No No No No Low

Based on the distributional variations of collocational patterns, we can group all the other conversation lemmas into the five subframes: 1) ‘Converse’ subframe: 談, 談論, 交談, 講, 談話, 講話, 說話, 會話,交流,會談,對話,對談2) ‘Discuss’ subframe: 討論, 商量, 商討, 商談, 會商3) ‘Negotiate’ subframe: 協調, 協議, 溝通, 協商, 協議, 交涉, 接洽, 洽商4) ‘Quarrel’ subframe: 吵架, 爭論, 爭吵, 爭執, 爭辯, 辯論5) ‘Chat’ subframe: 閒聊, 聊天, 閒談, 閒聊, 談天.

5. Concluding Remarks and Theoretical ImplicationsWith the proposal of subframes within the theoretical construct of Frame Semantics, verb

meanings may be defined with finer distinctions that are syntactically motivated. However, further fine-grained semantic distinctions are still needed to differentiate near-synonyms within each subframe, such as交談 vs.交流 or 討論 vs.商量, etc. It is exactly at the subframe level that we may anchor all the near-synonym sets as closely related. In sum, to fully represent the meaning relations among verbs, we’d like to propose the following classificational scheme for representing verb meanings:

Domain ->Frame -> Subframe -> Near-synonym Set -> Lemma

The five-layered structures allow verbs to be represented in a frame-based semantic hierarchy with detailed lexical information to further disambiguate near-synonyms.

ReferencesBaker, Collin F., Charles J. Fillmore and Beau Cronin (2003) The Structure of the Framenet Database.

International Journal of Lexicography 16(3).281-296. Das, Subrata, Kurt Shuster, and Curt Wu. 2002. Ontologies for Agent-Based Information Retrieval and Sequence

Mining. Proceedings of the Workshop on Ontologies in Agent Systems (OAS02), held at the 1st International Joint Conference on Autonomous Agents and Multi-Agent Systems,.Italy, July 15-19.

Fillmore, Charles J., and Atkins, Beryl T. 1992. Toward a Frame-Based Lexicon: The Semantics of RISK and Its Neighbors. Frames, Fields, and Contrasts, ed. by Adrienne Lehrer and Eva Feder Kittay. 75-102. Hillsdale. New Jersy: Lawrence.

Kennedy, C. and Levin, B. 2002. “Telicity Corresponds to Degree of Change” Handout to Speech at Georgetown University.

Liu, Mei-Chun and Yiching Wu. 2003. Beyond Frame Semantics: Insight from Mandarin Verbs of Communication. Paper presented at the 4th Chinese Lexical Semantics Workshop. City University of Hong Kong, Hong Kong. June 22-July 11. (http://icl.cityu.edu.hk/conference/4CLSW/BIG5/home.htm)

Miller, A., R. Beckwidth, C. Fellbaum, D. Gross, K.J. Miller. 1990. Introduction to WordNet: An on-line Lexical Database. International Journal of Lexicography. 3.235-244.

53

Page 57: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Niles, Ian and Adam Pease. Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged Ontology. Proceedings of the 2003 International Conference on Information and Knowledge Engineering (IKE’03), Las Vegas, Nevada, June 23-26, 2003.

Pease, A., Niles, I., and Li, J. 2002. The Suggested Upper Merged Ontology: A Large Ontology for the Semantic Web and its Applications. Working Notes of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada, July 28-August 1, 2002.

Website Addresses:FrameNet: http://www.icsi.berkeley.edu/~framenet/HowNet (知網): http://www.keenage.com/html/c_index.html/Sinica Corpus (平衡語料庫): http://www.sinica.edu.tw/SinicaCorpus/SUMO Ontology: http://ontology.teknowledge.com/WordNet: http://www.cogsci.princeton.edu/~wn/The Academia Sinica Bilingual Ontology WordNet (BOW): http://bow.sinica.edu.tw/

54

Page 58: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

詞彙素描與多義詞詞義辨識國立中山大學中文系 蔡美智

一、詞義消歧與自然語言處理多義詞是自然語言中普遍存在的現象,指的是一個詞形具有數個不同但彼此相關

的意義,如華語動詞「送」,可以「送」信,「送」禮,「送」客,也可以「送」命。根據 Li & Huang (1999)的統計,《同義詞詞林》收錄的 52716目詞當中多義詞約 7800個,佔 14.8%。對於使用者而言,多義詞理解上沒什麼困難,例如華語人士可以毫不費力地分辨下列五句「送」的詞義:(1a)遞送,(1b)贈送,(1c)陪送,(1d)斷送,(1e)推送。

(1)a. 把手伸出來,他還會抓住你的手往嘴裡送。 b. 花也可以送。c. 最後她哭了,也不許別人送,一個人回家去了。 d. 你把孟瑞的命送了。

e. 貝珍把東尼的小包往瑟勒思娣面前一送。反觀自然語言處理,多義詞的詞義辨識,也就是所謂的詞義消歧(Word Sense Disambiguation),卻是發展資訊擷取自動化極重要的環節,電腦遇到多義詞,必須有辦法根據上下文自動排除歧義,才能正確分析和解讀語料。早期詞義消歧仰賴專人撰寫規則,耗費時日,能處理的詞項極為有限。八0年代以降,詞典成為詞義消歧主要的依據,電腦根據詞典中的詞義解釋自動取得辨識詞義的訊息。

詞典解歧法落實了詞義自動抽取和判讀的理念,但如 Li & Huang (1999)所述,一旦上下文異於詞典的定義,消歧效果便大打折扣,Lam et al. (1997)利用《現代漢語詞典》的詞義解釋及《同義詞詞林》的義類代碼處理多義實詞,詞義辨識率僅 45.5%。鑑於詞典無法預測可能出現的語境,也無法提供所有的組合特徵,利用電腦自動取得大量組合知識的語料庫解歧法於焉產生,如李涓子(1999)在詞典的基礎上結合語料庫,多義詞辨識率提高為 52.13%;Chen et al. (1999)同樣藉由語料庫解決自動翻譯中的歧義和多義問題,效能也見提昇。儘管一詞多義相當普遍,但在實際語句中起作用的大多只有一個。認知語言學家

Choueka et al. (1983)實驗證明,人類僅憑上下文中一個或少數幾個成分就能分辨多義詞的詞義。因此除了詞典和大型語料庫之外,晚近的消歧策略進一步將搭配成份的語法訊息納入考量。如此一來,詞性相同的多義詞可以經由比較搭配成份的語法功能和語意類型,達成詞義辨識,如王惠(2002)辨別華語名詞「辦公室」的兩種意義,Chuang (2003)區隔英語動詞 set和華語動詞「擺」的多重意義。Ahrens et al. (2003)並利用MARVS模組屬性動詞語意表達模式,提出多義詞詞義(sense)與義面(meaning facet)的辨識標準。

值得注意的是,具有詞義辨識功能的成份未必緊鄰關鍵詞出現,如例(1)中「送」多處句尾,搜尋關鍵詞前置成份的結果,只有(1d)搭配的「命」和(1e)的「一」具有辨義作用,其他三句出現的「裡」、「可以」及「別人」不足以消歧。可見檢索範圍侷限在關鍵詞前後的緊鄰成份,不但無法全面勾勒使用語境,也無法呈現不同語境間的相關性,如下列兩則例句,檢索結果一則動詞後接量詞「個」,一則後接動貌助詞「了」,這些訊息既無法區別詞義,也無從得知兩者句式相同。

(2) a. 送個 E-Mail給我們。 b. 我的大學同學呀,就送了一個東西給

55

Page 59: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

我。同理,下列兩組例句經過語境檢索,只能顯示動詞可以後接介詞「給」和代詞「他、我」,無法揭露句式間的相關性,也無從比較不同句式的使用頻率。

(3) a. 有一天,一個朋友送給他一束鮮花。 b. 我想送他一樣東西。(4) a. 林小姐想買個禮物送給她。 b. 這張能送我嗎?針對當今漢語語料庫的設計,黃居仁(2003)指出詞義研究的兩個瓶頸:第一,僅

能就關鍵詞的語境進行排序、統計和羅列,分析歸納有賴人力逐筆檢視;第二,大型語料庫有利於處理低頻詞義和用法,但檢索起來高頻用例動輒上萬,耗費可觀的研究成本。解決之道可參考英國不來頓大學建置的WASPS網站(http:// wasps.itri.bton.ac.uk/)所提供的詞彙素描(word sketch)功能:

1. 關鍵詞搭配成份根據句法功能分類,而非單詞詞類;2. 句型及用法根據互見訊息計算顯著性,而非絕對標準值;3. 視窗寬度旨在完整呈現句型及用法,而非事先設定。本文以華語動詞「送」的多義辨識為例,展示現有消歧法的效能與侷限,再由

句型出發,探究詞義與句式間的呼應關係,體現詞彙素描功能的重要性。二、現有消岐法的效能與侷限(一)詞義項目不等綜觀詞典釋義條例,「送」的詞義項列舉不一。《漢語大詞典》收錄十四條,

《同義詞詞林》、《現代漢語八百詞》和《現代漢語詞典》都收三條,《現代漢語多義詞詞典》收四條。反觀使用實況,中研院平衡語料庫搜得的 1334則用例當中出現六種詞義,只有《漢語大詞典》全數羅列,詳見表一。表一 多義詞「送」詞典義項比較詞典 詞義 運送 贈送 送行 斷送 遣送 推送漢語大詞典 √ √ √ √ √ √現代漢語八百詞 √ √ √現代漢語詞典 √ √ √同義詞詞林 √ √ √多義詞詞典 √ √ √ √

(二)語法訊息不全《現代漢語八百詞》針對「送」的三個義項「運送、贈送、送行」18逐項提供例句,

依序介紹後接直接賓語DO、間接賓語 IO,介詞「給、往」,助詞「了」,結果補語RC及趨向補語DC七種用法。然而真正具有辨義作用的後接成份只有間接賓語 IO和介詞「往」兩種,分屬贈送義和運送義特有,詳見表二。

表二 《現代漢語八百詞》多義詞「送」後接成份句式 義項 運送 贈送 送行送+DO √ - √

18 義項名稱各詞典互有出入,《八百詞》作「運送/傳送、贈送、送別」,《現漢》作「送行/送別、輸送/遞送、餽贈」,《詞林》作「遞送、贈送、送別」,為求論述方便,本文統稱「運送、贈送、送行」。

56

Page 60: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

送+IO - √ -送+給 √ √ -送+往 √ - -送+了 √ √ √送+RC √ √送+DC √ √

結構相同的情況下,可以進一步分析語意屬性。上表顯示運送義和送行義後接成份雷同者有三:一,都可以帶DO,但運送義搭配無生賓語,送行義則搭配有生賓語,比較(5a-b)的「貨、他」。(6a-b)展現運送義和送行義都可以帶DC,而由「把」帶出的DO「這封信、我」也呈現無生、有生的對比。二,都可以接「給」再帶 IO,但運送義搭配的 IO是移位目標,如(7a)的「秘書室」,贈送義搭配的則是接受者,如 7(b)的「小華」。三,都可以帶 RC,但運送義搭配的是動詞,如(8a)的「走」,贈送義則搭配形容詞,如(8b)的「多」。

(5)a. 送貨上門。 b. 送他上火車。(6)a. 把這封信送到他家裡。 b. 他把我一直送到了家。(7)a. 文件送給秘書室。 b. 鋼筆我送給小華了。

(8) a. 把小孩兒送走。 b. 送多了。詞典一般按詞義給用法,礙於義項和用法列舉不全,影響分析的有效性,以下

列兩則語料為例,運送搭配人稱代詞「他」,贈送後接動詞「完」,與上述歸納有所抵觸。

(9)a. 那一天,我替男孩叫了計程車送他回去。b. 送完禮物後,接著進行的是壽星才藝表演。

至於(1d-e)所呈現的斷送義和推送義,可能因為使用率偏低,19舉凡《八百詞》《現漢》《詞林》等當代詞典多未收錄。三、句式分佈與統計表三 「送」各義項出現頻率頻率 義項 運送 贈送 送行 遣送 斷送 推送

1334(100%)

629(47.16%)

530(39.73%)

124(9.3%)

37(2.77%)

9(0.67%)

5(0.37%)

表四 「送」各義項特殊句式 28.26%傳送 8.41% 贈送 19.56% 送行 0.29%

送+L+VP 3.45% 送+給 IO 10.49% 送+DO+C 0.22%

送+往 L+VP 2.5% 送+IO+DO 5.7% 送送 0.07%

送+往 L 1.35% 送+IO 1.8%

送+L 0.9% 送+給 IO+DO 1.35%

送+往 L+DO 0.07% 送+IO+VP 0.15%

19 以台灣中央研究院現代漢語平衡語料庫的檢索結果觀之,斷送義和推送義的出現比例總計不到所有用例的百分之一,參見下節表三。

57

Page 61: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

送+由 IO+VP 0.07% 送+予 IO 0.07%

送+DO+到 L+給 IO 0.07%

表五 「送」各義項共同句式 71.74%句式 頻率 71.74% 傳送 38.78% 贈送 20.16% 送行 9% 遣送 3% 斷送 0.66% 推送 0.37%送+C 35.99% 33.36% 1.28% 0.68% 0.38% 0.22% 0.07%

送+DO 16.49% 2.2% 13.1% 0.82% - 0.37% -

送+DO+VP 8.41% 0.68% 0.9% 5.4% 1.43% - -

送 4.35% 1.35% 1.95% 0.68% - 0.07% 0.3%

送+DO+到 L 1.88% 0.75% - 1.13% - - -

送+給 IO+VP 1.65% 0.3% 1.35% - - - -

送+DO+給 IO 1.50% 0.07% 1.43% - - - -

送+VP 0.74% - - 0.22% 0.52% - -

送+DO+到 L+VP 0.51% - - 0.07% 0.45% - -

送+DO+給 IO+VP 0.22% 0.07% 0.15% - - - -

(10) a. 我很高興地拜讀了石川女士送來的資料。b. 尤其我們認識不久,送重了太唐突,太輕了又沒意義。c. 送走了學生已經是下午四點半。d. 要不是大白鵝趕來救他,可能送掉一條命。e. 華 僑 們 時 興 將 妻 小 送 回 家 鄉 , 讓 孩 子 能 接 受 完 整 的 中 國 教 育 ,f. 蘇普迷迷糊糊的送出一刀,正好刺中在狼肚腹上柔軟之處,

(11) a. 父母倒茶送水果,心中只想作孝子。b. 按照中國的規矩,我不知道應該送什麼禮物?c. 沒有人送我,正合我意。 d. 我差點為此送了命,

(12) a. 熱情的民眾送兩箱草莓慰問。 b. 你幫我送這個去輔導室。c. 有一個朋友送他上飛機。 d. 在目前送學生出國留學還是需要。

(13) a. 有時候你比較忙,不一定有時間親自去送。b. 課本作業忘記帶時,家長不必替他送。c. 最後她哭了,也不許別人送,一個人回家去了。d. 你把孟瑞的命送了。e. 左手向前一送,藏在衣袖中的匕首已刺了出去。

(14) a. 把計畫送給政府審查。 b. 我帶回來一部佛經,就送給你做紀念吧。

(15) a. 送個 E -Mail 給我們。 b. 我決定送一筆錢給他們。(16) a. 有一次她親自送餐到駕駛艙。 b. 送孩子到美國再回臺北。(17) a. 除夕無論再晚,也保證將旅客送回家。

b. 眼看媽媽向外走,邱子章無言一直送下樓。c. 不但這樣,還有能力將子孫一個個送出國留學。

表六 「送」各義項句式排序排序 句式 運送 629 (100%) 贈送 530 (100%) 送行 124 (100%) 遣送 37 (100%)

一 送+C 70.6% 送+DO 33% 送+DO+VP 58% 送+DO+VP 51.4%

二 送+L+VP 7.3% 送+給 IO 26.4% 送+DO+到 L 12% 送+VP 18.9%

三 送+往 L+VP 5.2% 送+IO+DO 14.3% 送+DO 9% 送+DO+到 L+VP 16.2%

四 送+DO 4.6% 送 4.9% 送 7.3% 送+C 13.5%

58

Page 62: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

五 送 2.9% 送+IO 4.5% 送+C 7.3%

六 送+往 L 2.9% 送+DO+給 IO 3.6% 送+DO+C 2.4%

七 送+L 1.9% 送+給 IO+DO 3.4% 送+VP 2.4%

八 送+DO+到 L 1.6% 送+給 IO+VP 3.4% 送送 0.8%

九 送+DO+VP 1.4% 送+C 3.2% 送+DO+到 L+VP 0.8% 斷送 9 (100%)

十 送+給 IO+VP 0.6% 送+DO+VP 2.3% 送+DO 55.6%

十一 送+DO+給 IO 0.2% 送+DO+給 IO+VP 0.4% 送+C 33.3%

十二 送+DO+給 IO+VP 0.2% 送+IO+VP 0.4% 送 11.1%

十三 送+DO+到 L+給 IO 0.2% 送+予 IO 0.2% 推送 5 (100%)

十四 送+由 IO+VP 0.2% 送 80%

十五 送+往 L+DO 0.2% 送+C 20%

四、「送」多重詞義辨識(一)各義項句式特點

1.運送義「送」的多重義項當中,運送義所搭配的句式最多樣,十五種句式當中又以後

接補語用法最突出,使用率高達百分之七十。另兩種常見句式都是後接目標處所再接動詞組,差異在於是否由介詞「往」帶出處所。以上三種用法合計超過百分之八十。賓語的分佈值得注意,直賓使用率較間賓頻繁,可以單獨出現,也可以再接終點處所「到﹍」、動詞組或間賓,間賓則一定後接動詞組,沒有獨現用例。至於連動句式出現率接近百分之十五,關鍵詞和第二動詞組之間可插入移動客體(18a 便當),目標處所(18b-c銀行、縣府民政局),接受者(19a政府),或決策者(19b警備總部)。

(18) a. 學校不准校外餐廳送便當進校園。b. 在兩週後學校獲知結果,才能送銀行審核。c. 名單早在十天前即送往縣府民政局審核

(19) a. 把計畫送給政府審查。 b. 當事人送由警備總部依法嚴辦。(20) a. 農友蔡漢坤在田裡拔了一把蒜苗送給主持人看。

b.* 農友蔡漢坤在田裡拔了一把蒜苗送由主持人看。例(20)顯示「給」無法換成「由」,證明兩個句式功能不同。原因在於第二個動詞「看」並非決策活動,不適合「送由﹍處理」句式。

2.贈送義搭配贈送義的十三種句式當中,以後接直賓最常見,佔百分之三十三,間賓百

分之三十點九次之,兩者差距不大。雙賓同現居第三位,達百分之十七點七。前三種用法加總起來超過百分之八十。各類句式當中,「給」和間賓的搭配值得矚目:間賓單獨出現的情況下,帶「給」的比例 26.4%遠高於不帶「給」4.5%;但如果間賓後再接直賓,不帶的比例 14.3%反而比帶 3.4%更頻繁。至於連動用法不如運送義發達,只有百分之六點五。

(21) a. 熱情的民眾送兩箱草莓慰問。 b. 我帶回來一部佛經,就送給你做紀念吧。

3. 送行義59

Page 63: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

搭配送行義的九種句式當中,連動用法相當發達,出現率高達百分之六十一,以後接賓語再接動詞組,的用法最普遍,佔百分之五十八(22a)。其次百分之十二是賓語後再接終點處所「到﹍」,賓語單獨使用名列第三,佔百分之九。以上三種句式合計超過百分之八十。送行義可以緊接第二動詞組(22b),但無法插入動作接受者,這一點與運送義、贈送義不同,比較(19a)、(21b)。

(22) a. 有一個朋友送他上飛機。b. 眼看媽媽向外走,邱子章無言一直送下樓。

4.遣送義搭配遣送義的四種句式當中,連動用法一枝獨秀,使用率超過百分之八十五,

用法以接賓語後再接動詞組為大宗,出現比例超過百分之五十(23a),此外同送行義,關鍵詞也可以緊接動詞組(23b)。

(23) a. 目前送留學生出國留學還是需要。b. 不但這樣,還有能力將子孫一個個送出國留學。總計遣送義的用法送行義都有,只是送行義還可以獨自出現,也可以獨帶賓語。

(二)詞義分析送 運送義 <Agent, Theme, Goal>∣

[location]Goal [destination] → 義面一:傳送Goal [organization] → 義面二:送交Goal [direction] → 義面三:推送

送行義 <Agent, Theme, Goal>∣

[human]Goal [departure] → 義面一:陪送Goal [destination] → 義面二:護送Goal [activity] → 義面三:遣送

贈送義 <Agent, Theme, Goal>∣

[receipient]

斷送義 <Agent, Theme >∣[life]

(24) a. 吳德貴率先五指一抓一捏就往口裡送。b.每天派人給和尚送飯。c. 成品將一波波從趕工的生產線上送到市場。

(25) a. 有一農婦採集殞石後送莫斯科研究。 b. 當事人送由警備總部依法嚴辦。(26) 左手向前一送,藏在衣袖中的匕首已刺了出去。(27) a. 爸爸親自送我們到車站。 b.* 我們被爸爸親自送到

車站。c. 雙雙昏倒在地,被救護車送到醫院。

(28) a. 又要養家活口,又要送子女到國外唸書。b. 偷偷送棍子到學校給老師的,也是家長。

60

Page 64: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(29) a. 由男方送兩頭活豬代表雙雙對對給女方。b. 西裝多是由朋友送的。 c. 生日那天,收到三位女同事送的花。

(30) 這兩名受傷病患是由陸軍總部送來的。主要參考書目中國社科院語言所詞典編輯室編 2001,《現代漢語詞典》繁體字版,香港:商務印書錧。王惠 2002,基於組合特徵的漢語名詞詞義消歧,CLCLP 7.2, 77-88.呂叔湘 1980,《現代漢語八百詞》,北京:商務印書館。李涓子 1999,漢語詞義排歧方法研究,博士學位論文,清華大學圖書館。袁暉主編 2001,《現代漢語多義詞詞典》,太原:書海出版社,二版。黃居仁 2003,〈語言的網路,知識的架構:由意義誘發的語言科技〉,台灣師範大學主辦第三屆語言與科技研討會邀請講席,2003年 12月 20日。梅家駒、竺一鳴、高蘊琦等 1983,《同義詞詞林》,上海:上海辭海出版社。Ahrens, K., C.-R. Huang, and Y-H Chuang. 2003. Sense and meaning facets in verbal semantics: A

MARVS perspective. Language and Linguistics 4.3: 469-484.Chen, H.-H., G.-W. Bian, and W.-C. Lin. 1999. Resolving translation ambiguity and target polysemy in

cross-language information retrieval. CLCLP 4.2, 21-38.Choueka, Y., and S. Lusignan. 1983. A connectionist scheme for modeling word sense disambiguation.

Cognition and Brain Theory 6.1, 89-120.Chuang, Y.-H. 2003. Sense Distinction of Verbs in English and Mandarin Chinese: An Analysis of the

Verbs “Set” and “Bai3”. MA thesis. National Taiwan University.Lam, S.-S., K.-F. Wong, and V. Lum. 1997. LSD-C –A linguistics-based word sense disambiguation

algorithm for Chinese. Computer Processing of Oriental Languages 10.4, 409-422.Levin, B., and M. Hovεv. 2001. What alternates in the dative alternation? CSSP. Li, J., and C. Huang. 1999. A model for word sense disambiguation. CLCLP 4.2, 1-20.

61

Page 65: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

隐喻性成语的语义映射李 芸

北京大学计算语言学研究所北京,中国

[email protected]

李素建北京大学计算语言学研究所

北京,中国[email protected]

王治敏北京大学计算语言学研究所

北京,中国[email protected]

吴云芳北京大学计算语言学研究所

北京,中国[email protected]

摘要 成语中的隐喻是一种非常普遍的现象。从本义到其隐喻义,可以看作是一种此类事物语义映射到彼类事物的认知活动。本文对2347条隐喻性成语进行了统计,分析了它们的语言特点、语法结构、语法功能、语法结构与语法功能的关系以及语义类别。分析了隐喻性成语中的语义映射的类型。大多数隐喻性成语都是由关涉性语义成分和描述性语义成分共同构成,其中关涉性语义成分是实现显性事物到隐性事物语义映射的基础,而它们的关联则依赖于描述性语义成分。关键词:隐喻,隐喻性成语,语义映射

1 引言传统的隐喻理论将隐喻看作是一种语言现象,是一种用于修饰话语的修辞现象。

然而,隐喻不仅仅是一种语言现象,它更重要的是一种人类认知现象。它是人类将其某一领域的经验用来说明或理解另一类领域经验的一种认知活动。在人类其它的文化和艺术活动过程中,我们到处都能看到隐喻的存在(束定芳,1998)。

汉语成语浓缩了中华民族博大精深的文化智慧,是中国的文化瑰宝。它的语言精炼,结构严谨,含义深刻,富有表现力。成语从形式上看,结构紧密,浑然一体。从意义上看,脱离字面的意思,产生了统一的概念,或者有了比喻义。产生比喻义的成语不在少数,研究这些成语的构成特点,以及从字面义到引伸义或到比喻义之间的语义映射,借以丰富当前隐喻研究的成果。

为此,我们选取了研究的语料,一个是《分类汉语成语大词典》,王勤、马国凡、许正元、孙玉溱编著,山东教育出版社,1988 年 11月,有 9,507条成语。另一个是《三知成语词典》,有 13,768条成语,是从网上下载的共享软件。两个词典描述成语的属性字段有多有少,为了使两个词典信息互补,就把它们的交

集部分作为统计的基础,两个词典共同的部分有 7,105条成语。从中找出含有比喻义的成语 2,347条。

62

Page 66: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2 隐喻性成语我们把含有隐喻意义的成语叫做隐喻性成语。具体到从数据库中如何挑出这些隐

喻性成语来,我们采取的方法是,如果释义中出现“喻”,比如“比喻…”、“借喻…”“旧常喻…”“后以喻…”“喻”等等,就挑出来待进一步考察。当然,释义中含有“喻”字的也有少量不属于隐喻意义的,比如解释“喻”字的“喻:…”就不是,还有“喻示”。去除这些成语“不可理喻”、“家喻户晓”、“不言而喻”“罕譬而喻”等。如此挑选下来,得到 2347条隐喻性成语。2.1 来源和语言特点

隐喻性成语主要来源于典籍,产生于古代和近代,现代较少。有些脱胎于俗语、谚语、歇后语。比如来源于历史的有:得陇望蜀,乐不思蜀、垂帘听政。来源于典籍的有:郑人买履,刻舟求剑。来源于寓言故事的有:狐假虎威。来源于俗语的有:无米之炊、依样(画)葫芦、平地一声雷、一鼻孔出气、坐山观虎斗、一蟹不如一蟹、驴唇不对马嘴、井水不犯河水、前怕狼,后怕虎等。

隐喻性成语中按是否含有比喻词分两类:1)含有“如”、“似”、“若”、“象”、“比”、“同”、“犹”等喻词的。

本体喻源均出现:执法如山,寿比南山,情同骨肉,情同手足,恩同再造。本体不出现:如鱼得水,如饥似渴,如履薄冰。

2)不含有“如”、“似”、“若”、“象”、“比”、“同”、“犹”等喻词的。

本体喻源均出现:羊肠小道本体不出现:月下老人,尚方宝剑,靡靡之音

2.2 语法结构从隐喻性成语内部的语法结构来统计,主要有联合式、主谓式、偏正式、连动式、

动宾式、复句式、紧缩式、兼语式、补充式、复杂式 10 种情况。如下表:表 1 隐喻性成语的语法结构分布

结构 数量 比率(%) 示例联合式 616 31.21 坐言起行主谓式 437 22.14 左右开弓偏正式 381 19.30 钻头觅缝连动式 182 9.22 做贼心虚动宾式 145 7.35 坐于涂炭复句式 107 5.42 坐山观虎斗

63

Page 67: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

紧缩式 73 3.70 着手成春兼语式 16 0.81 炙手可热补充式 12 0.61 运斤成风复杂式 5 0.25 尾大不掉

从上表可以看出,隐喻性成语内部构成主要是联合式、主谓式和偏正式,其中联合式占到了 31.21%,并且比主谓式高出将近 10%。联合式主要是 NP+NP、VP+VP形式。2.3 语法功能

把隐喻性成语作为一个整体看,可以做句子的任何成分,如主语、谓语、宾语、定语、状语、补语等,也可单独成句。2.4 语法结构和语法功能的关系

在成语知识库中,详细描述了每个成语的用法,包括成语内部的语法构成、可以充当的句法功能,以及褒贬义色彩等。所有这些我们都可以通过统计得出结果,进而分析它们之间的各种关系。下面以联合式隐喻性成语为例,统计出来的语法结构与语法功能之间的关系如下表所示。其他结构略去。

表 2 联合式隐喻性成语的语法功能语法结构 数量 比率(%) 语法功能 示例联合式 146 23.70 谓语、定语 趑趄不前联合式 73 11.85 谓语 坐薪悬胆联合式 70 11.36 宾语、定语 坠茵落溷联合式 54 8.77 宾语 坐言起行联合式 37 6.01 谓语、宾语 左辅右弼联合式 36 5.84 谓语、宾语、定语 装神弄鬼联合式 35 5.68 谓语、定语、状语 自吹自擂联合式 25 4.06 主语、宾语 阳春白雪联合式 20 3.25 主语、宾语、定语 左道旁门联合式 17 2.76 定语 钟灵毓秀联合式 11 1.79 谓语、定语、补语 珠圆玉润联合式 9 1.46 谓语、宾语、定语、

状语 舍本逐末联合式 8 1.30 谓语、宾语、状语 破釜沉舟联合式 7 1.14 谓语、状语 张冠李戴联合式 7 1.14 定语、状语 再接再厉

64

Page 68: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

联合式 6 0.97 状语 无声无臭联合式 5 0.81 谓语、宾语、分句 兔死狐悲联合式 4 0.65 谓语、定语、分句 吐故纳新联合式 4 0.65 谓语、补语 食玉炊桂联合式 4 0.65 定语、补语 佛口蛇心联合式 3 0.49 谓语、宾语、补语 天昏地暗联合式 3 0.49 定语、分句 载舟覆舟联合式 3 0.49 宾语、状语 披肝沥胆联合式 2 0.32 状语、补语 一五一十联合式 2 0.32 主语、谓语 怀瑾握瑜联合式 2 0.32 主语、定语 民脂民膏联合式 2 0.32 谓语、状语、补语 提纲挈领联合式 2 0.32 谓语、分句 换汤不换药联合式 2 0.32 定语、状语、补语 生龙活虎联合式 2 0.32 补语 落花流水联合式 2 0.32 宾语、定语、状语 盲人瞎马联合式 1 0.16 状语、分句 七擒七纵联合式 1 0.16 主语、谓语、宾语、

定语 天经地义联合式 1 0.16 主语、谓语、宾语 管窥蠡测联合式 1 0.16 主语、定语、状语 单枪匹马联合式 1 0.16 主语、补语、分句 纲举目张联合式 1 0.16 主语、补语 别鹤孤鸾联合式 1 0.16 主语、宾语、状语 蛛丝马迹联合式 1 0.16 主语、宾语、兼语 虾兵蟹将联合式 1 0.16 主语、宾语、分句 繁文缛节联合式 1 0.16 主语 白云亲舍联合式 1 0.16 分句 伯歌季舞联合式 1 0.16 宾语、定语、补语 花残月缺联合式 1 0.16 宾语、补语、分句 歪打正着

上表表明,联合式隐喻性成语既可以作谓语又可以作定语的数量最多,有 146条,占到了 23.70%。其他依次为作谓语,73条,占 11.85%;作宾语和定语,70条,占 11.36%。

对以上联合式隐喻性成语所能充当的语法功能,按照各语法成分分组汇总,从多到少排列,得到下表。

表 3 联合式隐喻性成语的语法功能分布65

Page 69: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

语法功能 谓语 定语 宾语 状语 主语 补语 分句成语数量 386 371 279 85 58 35 19比率(%) 31.31 30.09 22.63 6.89 4.70 2.84 1.54

从表 3 中看出,联合式隐喻性成语可以作句子的任何成分,还可以做分句。主要作谓语、定语和宾语,三者占到了 84.02%。2.5 语义类别

这些成语参考《分类汉语成语大词典》,按照成语所表达的意义分成了 48个大类20,290个小类。3 隐喻的语义映射3.1 隐喻的本质

隐喻从本质上讲,是一种认知活动,是人类理解周围世界的感知和形成概念的工具。语言中的隐喻是人类认知活动的结果与工具(束定芳,1998)。按照理查兹的互动(interaction)理论,隐喻是两个主要部分“本体”(Tenor)和“喻

源21” (Vehicle)之间的互动,隐喻本身指包含两个部分的整体(胡壮麟,2004)。因此,隐喻涉及到两个领域,用其中一个领域 A 来说明另一领域 B 。两个领域中,被说明的领域(即 B)称为目标领域(target domain),另一个(即A)称为源领域(source domain)。两个领域有不同的语义网络,语义结构特征具有相异性。但是,本体和喻源之间之所以能够互动,是因为它们之间有“共同点”(ground)或者“相似性”。相似,使隐喻成为可能;相异,使隐喻更加鲜明,使认知更深入。3.2 隐喻的语义映射

隐喻意义是两个语义领域之间的语义映射。隐喻是以喻源和本体之间的相似性作为意义转移的基础的。以“A 是 B ”结构出现的映射是将有关喻源域 B 的适当的知识结构的一部分映射到目标域结构 A 上。为了以喻源域的词语来理解目标域,人们必须具有对喻源域的适当的知识。

例如:“爱情是一次旅行(Love is a journey)”,分析如下:20参考《分类汉语成语大词典》,分为 48个大类,290个小类。如下是 48个大类,按原词典顺序排列:01 国家类、02 政治类、03 法律类、04 军事类、05 工作类、06 生产类、07 学习类、08 学问类、09 教育类、10 言语类、11 文章类、12 艺术类、13 地理类、14 行旅类、15 风光类、16 花木类、17 时令类、18 时间类、19 计谋类、20 得失类、21 功罪类、22 劳逸类、23 钱财类、24 富裕类、25 贫穷类、26 数量类、27 程度类、28 建筑类、29 人才类、30 友谊类、31 修身类、32 品德类、33 情感类、34 意志类、35 智愚类、36 容貌类、37 体态类、38 仪表类、39 礼庆类、40 妇女类、41 爱情类、43 家庭类、44 饮食类、45 生老类、46 疾病类、47 福祸类、49 死亡类、50 其他类。21或者译为“喻体”。

66

Page 70: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

爱情 是 一次 旅行。 A 是 B。

Target domain Source domain 目标领域 源领域 Tenor Vehicle 本体 喻源映射: 本体 (映射) 喻源

F: A BF: BA于是,“爱情是一次旅行”隐喻是将“旅行”结构映射到“爱情”域。

语义映射的原则是:从具体到抽象、从熟悉到陌生、从简单到复杂等。语义映射具有方向性。3.3 隐喻性成语中的语义映射

语言中的隐喻是一种以词语或句子为焦点,以语境为框架的语用现象。孤立的词严格意义上讲不能称为隐喻。只有在具体的语境中才能判断一个词是否用作隐喻(束定芳,1998)。但是,成语则不然了。成语是人们长期以来习用的定型词组或短语,脱离了字面的意思,获得了统一的概念或者比喻义。因此,隐喻性成语从隐喻程度性上来说,成语应该算作死寂隐喻(dead and buried)或者是非活跃隐喻(inactive metaphor) 22。隐喻涉及到语义的转移,这一转移带有方向性。一般情况下,喻源的有关特征被转

移到本体上(束定芳,1998)。对于隐喻性成语来说,要转移到本体上的意义已经固定下来,即成语的隐喻义。隐喻性成语的语义映射可以分为以下两类:1) 从“物”映射到“物”;

例如:[大风大浪] 原指自然界的大的风浪。现用来比喻激烈的斗争和艰险的历程。[清规戒律] 原指佛教徒所遵守的规则和戒条。现比喻束缚人的繁琐不合理的规

章制度。[无名小卒] 卒:古时指士兵。不出名的小兵。比喻没有名望或地位的人。

2) 从“事”映射到“事”。例如:[风云变幻] 风云:比喻变化动荡的局势;变幻:变化不定。像风云那样变化不定。比喻局势复杂,变化迅速,难以预料。

[载舟覆舟] 民众犹如水,可以承载船,也可以倾覆船。比喻人民是决定国家兴亡的主要力量。

[明镜高悬] 传说秦始皇有一面镜子,能照人心胆。比喻官员判案公正廉明。[插翅难飞] 插上翅膀也难飞走。比喻陷入困境,怎么也逃不了。

22参见束定芳,论隐喻的本质及语义特征,载于《外国语》1998 年第 6期。文中提到隐喻程度性,引用Goatly 的隐喻分类:1)死喻(dead metaphor);2)死寂隐喻(dead and buried);3)非活跃隐喻(inactive metaphor);其中又分为沉睡式隐喻(sleeping metaphor)和陈旧隐喻(tired metaphor)两种。4)活跃隐喻(active metaphor)。

67

Page 71: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

[百足之虫,死而不僵] 百足:虫名,又名马陆或马蚿,有十二环节,切断后仍能蠕动。比喻势家豪族,虽已衰败,但因势力大,基础厚,还不致完全破产。

[东风压倒西风] 原指封建大家庭里对立的两方,一方压倒另一方。现比喻革命力量对于反动势力占压倒的优势。

[天无二日] 日:太阳,比喻君王。天上没有两个太阳。旧喻一国不能同时有两个国君。比喻凡事应统于一,不能两大并存。另外,一些成语典故属于这一类。如:负薪救火,画蛇添足,削足适履,刻舟求剑,

盲人摸象,坐井观天,守株待兔,南辕北辙,揠苗助长,缘木求鱼,亡羊补牢,囫囵吞枣等,通过故事来说道理。3.4 语义结构成分=描述性语义成分+关涉性语义成分

我们从另外一个角度来看隐喻性成语的构成及语义映射过程。在语义结构中,有两个组成部分,一是描述性成分,一是关涉性成分。即:语义结

构成分=描述性语义成分+关涉性语义成分(施春宏,2003)。隐喻性成语的语义结构大致有三种形式:1)两种语义成分都有,表现为:描述性语义成分+关涉性语义成分,如“同床异

梦”,“井底之蛙”,“青出于蓝”“弦外之音”“添枝加叶”,“千锤百炼”,“精雕细刻”。其中的 “床”、“梦”,“井”、“蛙”,“青”、“蓝”,“弦”、音”,“枝”、“叶”,“锤”、“炼”,“精”、“刻”是关涉性语义成分,而其它为描述性成分。

2) 没有明确的关涉性语义成分,表现为:描述性语义成分(+关涉性语义成分),如“蠢蠢欲动”,“颠扑不破”,“无可救药”。

3) 没有描述性语义成分,表现为:(描述性语义成分+)关涉性语义成分,如“酒囊饭袋”,“阳春白雪”,“吴下阿蒙”(吴下:现江苏长江以南;阿蒙:指吕蒙。居处吴下一隅的吕蒙。比喻人学识尚浅)“晨钟暮鼓”,“美人香草”,“风花雪月”(本来泛指四时景色。也指浮泛的写景言情的诗文题材。又指男女之间的爱情。后来多指反映没落思想情调,堆砌辞藻而内容空泛的诗文)。关涉性语义成分是实现显性事物(喻源)到隐性事物(本体)语义映射的基础,而

它们的关联则依赖于描述性语义成分。以友谊类隐喻性成语为例说明。例 1.抃风舞润:抃:鼓掌;润:雨水。如燕在风中飞翔,象商羊(鸟名)在雨中起舞。原指同类事物相互感应。后比喻意气相合。关涉性语义成分:风,润 同类事物描述性语义成分:抃,舞例 2.车笠之盟:笠:斗笠。比喻深厚的友谊。参见“乘车戴笠”。关涉性语义成分:车笠同类事物描述性语义成分:盟例 3.乘车戴笠:乘:坐;笠:斗笠。乘车时,戴斗笠的。比喻友谊深厚,不因贫富不同而有所改变。

68

Page 72: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

关涉性语义成分:车、笠 同类事物描述性语义成分:乘,戴例 4.唇齿相依:依:依靠。象牙齿和嘴唇一样相依靠。比喻相互关系密切,互相依存。关涉性语义成分:唇,齿 同类事物描述性语义成分:相依例 5.唇亡齿寒:嘴唇没有了,牙齿也暴露在外边感到寒冷。比喻关系密切,利害相同。关涉性语义成分:唇,齿 同类事物描述性语义成分:亡,寒例 6.心有灵犀一点通:灵犀:传说犀牛是一种灵兽,角中有条白纹通向头脑,感应灵敏。比喻恋爱着的男女双方心心相印。也泛指彼此心心相印。关涉性语义成分:心,灵犀男人女人的心描述性语义成分:有,一点通

如果成语中没有明确的关涉性语义成分,而主要显现描述性语义成分,象第 2种情况,实际上,其关涉性语义成分实际蕴含其中而为交际所默认。如:

[蠢蠢欲动] 蠢蠢:爬虫蠕动的样子。比喻敌人策划进攻或坏人准备捣乱破坏。[颠扑不破] 颠:跌倒;扑:敲、拍打。无论怎样摔打都不会破。比喻言论或学说

符合客观规律,永远不会被推翻。[无可救药] 药:治疗。病势严重,无法医治。也比喻坏到极点,无法挽救。“蠢蠢欲动”的关涉性语义成分虽不在成语中,但所指是很明确的,指爬虫,转移

到人,而且是敌人或坏人,便形成了隐喻义,比喻敌人策划进攻或坏人准备捣乱破坏。“颠扑不破”的关涉对象是物件,意思是无论怎样摔打这个物件都不会破;借指言论或学说,意为言论或学说永远不会被推翻。“无可救药”的关涉对象是人身体上的病,无法医治,借指人思想上的错误或事态的恶劣程度已经严重到了极点,无法挽救。3.5 隐喻的多样性

隐喻具有多样性,也就是说,用一个隐喻的喻源与不同的本体相结合可以产生不同的意义,即所谓的“比喻之两柄(handles)”现象(钱钟书,管锥编)。反过来,一个事物也可以有多种喻源,即一物多喻。

从成语知识库中,可以挖掘到“喻源域”与“本体域”之间多对多的关系。进一步扩充到真实文本中,自动发现词语的隐喻用法或隐喻义,为计算机自动处理语义打下基础。4 结语

以上对成语中的隐喻现象从多个方面作了细致地统计和分析,但是还有待进一步深入研究。对隐喻的计算研究将会推动自然语言理解的深入,相信我们对隐喻性成语的研究能对隐喻理论的研究以及对中文信息处理研究作出贡献。

69

Page 73: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

致谢感谢谌贻容同学、段慧明老师和俞士汶老师对建设成语知识库的大力支持和帮助。

参考文献 王勤、马国凡、许正元、孙玉溱编著(1988),《分类汉语成语大词典》,山东教育出版社,山东。三知成语词典(2004),网上软件“天空软件站”http://www.skycn.com。束定芳(1998),论隐喻的本质以语义特征,《外国语》第 6期,P10-19。赵升奎(2003),比喻——跨范畴的语义映射过程,《云南师范大学学报》第 35卷第 2期,P119-121。施春宏(2003),比喻义的生成基础及理解策略,《语文研究》第 4期,P19-24,人大复印资料,《语言

文字学》2004 年第 2期。胡壮麟(2004),《认知隐喻学》,北京大学出版社,北京。严世清(2000),《隐喻论》,苏州大学出版社,苏州。季广茂(2002),《隐喻理论与文学传统》,北京师范大学出版社,北京。刘洁修(1985),《成语》,商务印书馆,北京。

70

Page 74: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

漢語情態詞「一定」、「必定」的語義發展與互動鄭縈

台灣 靜宜大學中文所[email protected]

趙芳玉台灣 新竹師範學院台語所[email protected]摘要「必定」和「一定」都是「X定」的形式,本文將探究「必定」和「一定」的結合方式及

演變過程是否相同;另一方面,「必定」和「一定」語義既然相近,自然會有互動,因此「一定」、「必定」在歷史上共存時,語義競爭或消長也是我們關心的焦點。1.「一定」的語法化過程  以下將從共時和歷時二方面,探討「一定」的語法化過程。本文現代漢語部份的語料,取自台灣中央研究院平衡語料庫;歷史部份的語料由台灣中央研究院漢籍電子文獻語料庫取得。1.1 現代漢語「一定」的語法特點呂叔湘(1980[2003])和侯學超(1998)中,列出「一定」的用法如下:詞類 呂叔湘(1980[2003]) 侯學超(1998)副詞 必然,確實無疑。 自信會如此,表示所做的判斷或推論確鑿

無誤。表示意志的堅決。多用於第一人稱;用於第二、三人稱時往往表示要求別人堅決做到。

表示態度堅決。

形容詞 固定的。只修飾名詞,通常要帶「的」。某種程度的;適當的。只修飾名詞,必帶「的」。

猶如「確定的;相當的;特定的」等義。

表一:呂叔湘(1980[2003])和侯學超(1998)的比較上表中顯示呂叔湘和侯學超都指出,現代漢語的「一定」有二種詞類,兩者之間的關係可從歷史角度加以考察。1.2 歷史上「一定」的連用與結合根據我們的觀察(鄭縈、趙芳玉 2004),「一定」最早連用出現在《淮南子》,表示「一經制定;一經確定」義,出現的位置有二種,一是在名詞之前,如例(1):

(1)何況乎君數易世,國數易君,人以其位達其好憎,以其威勢供嗜欲,而欲以一行之禮,一定之法,應時偶變,其不能中權,亦明矣.故聖人所由曰道,所為曰事.(淮南子/卷十三/氾論訓)

一是做為主要動詞,如下例(2):(2)今夫權衡規矩,一定而不易,不為秦、楚變節,不為胡、越改容(淮南子/卷九/主術訓)

「一」在先秦時就有表「一旦;一經」的副詞用法;「定」在先秦時也有表「確定;規定」的及物和不及物動詞用法(羅竹風 1997),因此例(1)-(2)可分析為狀中結構的詞組。名詞之前的「一定」結合成複合詞後,一直延用至今,語義沒有太大的變化;而位居動詞的「一定」卻展開一連串的演變,簡述如後。

71

Page 75: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

從歷時角度來看,「一定」的語法化是一種融合現象,所謂「融合是指本來是兩個獨立的性質不同的語言單位,由於語義的不斷虛化,詞義的逐步融合,最終合成了一個新的副詞」(張誼生 2000)。在唐代,「一經制定;一經確定」的詞組融合為表「固定」的複合動詞,此時詞性還是動詞,如下例(3):

(3)若住心妨修心,若修心即動念不安,云何名為學道?若安一定,即何異定性之徒?(祖唐集)

「一定」的「肯定推測義」副詞用法最早出現在《朱子語類》,但這些 「肯定推測義」的「一定」仍可理解為「固定義」的動詞用法,這個現象顯示宋代處於「固定義」到「肯定推測義」的過渡期,試看下例:

(4)一箇吉,便有一箇凶在後面來.這兩箇物事,不是一定住在這裏底物,各以其所正為常.(朱子語類)

《朱子語類》中「一定」還是以表示「一經制定」的狀中結構和「固定(v)」和「固定不變;註定(adj)」的複合詞佔大多數,表「肯定推測義」的副詞用法還是少數。我們在《朱子語類》找到 42筆「一定」的語料,表「肯定推斷義」的只有三例,並且皆有二解;形容詞用法出現 17例,而表「固定」動詞用法有 11例,「一經制定;一經確定」的詞組還有 7例。就「一定」各種用法的比例而言,再次證實宋代是一個過渡時期。

到了《水滸傳》,「一定」主要用做表示「肯定推測」的副詞用法(在 16筆語料中佔12筆),此時的「一定」己不可再用「固定(V)」來解。值得注意的是,在「一定」用為動詞時,主語大多是抽象名詞。到了表「肯定推測義」時,主語開始大量出現有生物名詞,如例(5)所示:

(5)喬道清心中思忖道:『此人一定會些法術。我且試他一試。』(水滸傳)  在水滸傳裡,「一定」又多出了「意願」「要求」和「保證」的意項,也都是做副詞使用,如(6)-(8):

(6)宋江…與吳用商議道…林沖道:『來日扣關搦戰,一定要殺那個賊將。兄弟迸力衝殺上去。』吳用道:『將軍不可造次…』(水滸傳)

(7)宋江聽罷大驚,急與吳用商議。吳用道:『…只就這箇機會,一定要破他這座城池。』便向宋江密語半晌。(水滸傳)

(8)王慶道:『只這節兒稀罕。帶行枷贏了他,纔筭手段。 』人齊聲道:『你若帶枷贏了,這兩貫錢一定與你。』(水滸傳)

例(8)的「一定」是主語對聽話者提出自己的保證,因為意志的來源是主語,也就是說話者自己,故為【+主語】23。保證用法是由於語用原因所觸發的,「一定」必須在「主語對聽話者提出自己的保證」這樣的語境中,才會有保證義出現。但此時「一定」的意願義和要求義都需和「要」連用才發生,但到《紅樓夢》時,「一定」的意願義就不需和「要」連用,即可單獨表示意願義,但「一定」的要求義到現代漢語,仍需和「要」連用。「一定」的四種副詞用法和「要」的語義搭配關係如下表:

可能世界的概念 次類劃分 觀點或態度來

源 一定 要漢語 認知 判斷 斷定 【-主語】 「一定A」

23所謂【+主語】和【-主語】是表示詞語本身的語義是否來源自句中主語,由主語本身提出的觀點或態度,稱為「主語取向」的情態詞,而由主語之外的成分(包括說話者或語境中的人事物)提出的觀點或態度,稱為「非主語取向」的情態詞。詳細討論請參謝佳玲(2002,2003) 。

72

Page 76: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

情態詞

猜測 「要 1」義務 指令 要求 【-主語】 (「一定B」) 「要 2」

【+主語】保證 【+主語】 「一定C」 「要 3」

動力 意願 【+主語】 「一定D」 「要 4」表二:「一定」與「要」的語義搭配表

由上表可知,與表意願義「一定」連用的為「要 4」,與表要求義「一定」連用的為「要2」。清代的《紅樓夢》中,找到 66筆「一定」的語料,表「肯定推測義」的副詞用法佔二分

之一強,但上述清代之前出現過的「一定」之其他用法都還保留著。但到了現代漢語, 「一定」除了定語用法之外,尚保留了「肯定推測」(一定A)、「要

求」(一定B)、「保證」(一定 C)和「意願」(一定D)的副詞用法,「一定」與「一」和「定」各自的意義已看不出關係。如下例(9)-(13):

(9)但因社團評鑑難有一定的標準,學生可能會有反彈。(定語用法)(10)一個人能在公司待下去,一定是這個環境能滿足他某些要求、慾望。(肯定推測)(11)我們做家長或是做老師的,一定要隨時指導,他並且注意他的反應。(要求)(12)梁山伯大笑起來:那太好了!我一定去。(保證)(13)所以他很不甘心,一定要想個法子,使自己的秧苗比鄰家的秧苖…(意願)綜合以上的討論,「一定」的語法化是一種融合現象,其語法化過程可以圖示如下:

圖一:「一定」的語法化過程

2. 「必定」的語法化過程  以下 2.1-2.3節分別從共時和歷時二方面,來探討「必定」的語法化過程。2.1 現代漢語「必定」的語法特點  我們用謝佳玲(2002)對情態詞語義分類方式來檢視現代漢語「必定」的用法,發現它有以下幾種分類:

可能世界的 次類劃分 觀點或態度來 謝佳玲(2002)

本文

73

Page 77: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

概念 源

漢語情態詞

認知 判斷 斷定 【-主語】 「必定」 「必定A」義務 指令 要求 【-主語】 「必定B」

保證 【+主語】 「必定C」動力 意願 【+主語】 「必定D」

表三:謝佳玲(2002)及本文對「必定」副詞用法語義分類比較表三中「必定」四種副詞用法分別舉例如下:  (14)電影中正面人物的行為必定不會和觀眾的認知產生牴觸。(必定A)  (15)前五戒是佛所制,凡是佛教徒必定要守持,這是根本的五戒。(必定B)  (16)本人擔任海峽基金會之袐書長,必定全心全力做好此一工作。(必定C)  (17)她出外時,必定保持在拉吉夫身後兩步之距離,(必定D)以下 2.2-2.3節從歷時角度來看「必定」的演變。2.2「必定」的連用  在先秦時期,我們找到二筆,「必定」最初連用的語料:  (18)國之所以亂者四,其所以亡者二…失族於內,失援於外,此二亡也,故妻必定,子必

正,相必直立以聽,官必中信以敬.(管子)  (19)無參驗而必之者、愚也,弗能必而據之者、誣也.故明據先王,必定堯、舜者,非愚

則誣也.愚誣之學,雜反之行,明主弗受也.(韓非子)例(18)中「妻必定/子必正/相必直立以聽/官必中信以敬」是說明妻、子、相、官四者應當如何,才能避免國亂,故此處的「必」為副詞,「必定/必正」為狀中結構的詞組。例(19)有「無參驗而必之者」句,顯示此「必」為動詞,與「定」同是斷定義,故推斷「必定」應為並列結構。到了史記,「必定」連用的語料僅有一例,則應分析為狀中結構:  (20)項羽乃謂海春侯大司馬曹咎曰:「謹守成皋.若漢挑戰,慎勿與戰,無令得東而已.

我十五日必定梁地,復從將軍.」(史記)例(20)的「必定」還是詞組,「定」是平定之義,而「必」是副詞,可單表「必然;一定」之義24。  如上所說,在先秦時的「必定」是狀中或並列結構的詞組,在《史記》則有狀中結構的「必定」,這二種結構之中,何者是現代「必定」用法的來源?我們在歷史語料中發現「定必」一詞(如下例 21-23),用法同於「必定」:  (21)但問所懷為是男女.諸佛如來發言無二.是故當知定必得子.(唐 法諸林∙ )  (22)寶玉聽了不解,一心疑定必是遇見了花神了,(紅樓夢)  (23)大賢旁搜博覽,定必深知其詳。(鏡花緣)柳士鎮(1992)提到,魏晉南北朝時期出現了一批雙音節的助動詞,就其結構可分為二類,

一是助動詞與助動詞的組合,二是副詞與助動詞的組合使用。其中第一類與現代漢語雙音節助動詞有二點不同,一是二個組成成分之間還處於臨時性的同義組合階段,既可共同使用,拆開後又可分別使用;其次是這種組合順序有時顛倒過來也不影響整体意義。「必定」和「定必」正是這樣的情況,肯定義的動詞「必」與確定義的動詞「定」結合之初,語義相近而並列,詞序尚未固定,到了現代漢語,語料中已不見「定必」的例子。24 羅竹風 主編. 1997. 《漢語大詞典》P393

74

Page 78: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

再者「必」、「定」單字詞義很早就出現表必然、一定的副詞用法了,如下例(24)-(25):  (24)何其處也?必有與也;何其久也?必有以也。(詩經)  (25)聞陳王定死,因立楚後懷王孫心為楚王,(史記)「必定」有可能是副詞「必」和「定」並列結合而來。  由以上二點理由可知,無論「必定」是由表肯定的動詞「必」和「定」義近並列為動詞組,經由句法位置的改變,形成現代的副詞「必定」,或是由表必然的副詞「必」和「定」義近並列而成,可以肯定的是,現代漢語「必定」是由並列結構結合而來。  到了敦煌變文,「必定」的例子出現 15例,都是表推斷義的複合詞用法,如例(26):  (26)學取目連心裏事,命終必定見慈尊。(敦煌變文)在《朱子語類》中,「必定」和「要 2」及「要 4」連用,形成要求義及意願義,如例(27)、(28):  (27) 鳳姐兒笑道:「這個杯沒有喝一個的理。我們家因沒有這大量的,所以沒人敢使他。

姥姥既要,好容易尋了出來,必定要挨次吃一遍才使得。」(紅樓夢)  (28) 聖人分明說這箇不是仁,公今只看合要無,合要有了不行.若必定要無,下梢猶恐

未能盡去.(朱子語類)例(27)的「必定」是說話者鳯姐兒要求劉姥姥做的事,為要求義;例(28)的「必定」說的是「公」的意願,為「必定D」,此時「必定」和「要 4」一起出現。但到現代漢語,它已能單獨表示意願義,如上例(17)。而「必定」在《紅樓夢》和現代漢語中,也能單獨表示要求義,如下例(29)、(30):  (29)馮紫英笑道:「這又奇了。你我這些年,那回兒有這個道理的?果然不能遵命。若必

定叫我領,拿大杯來,我領兩杯就是了。」(紅樓夢)  (30)生病時細菌容易繁殖,更要保持口腔清潔,飯後必定刷牙漱口。  「必定」的定語用法,在我們所找的語料中僅見一例如下:  (31)仲尼無鳳而旅人。傅說夢達於巖埜。子房神授於圯上。亦必定之符也。(太平廣記)2.3「必定」的語法化過程綜合以上的討論,“必定”的語法化也是一種融合現象,其語法化過程可以圖示如下:

圖二:「必定」的語法化過程

由圖二與圖一的對照可知,“必定”的語法化途徑與“一定”頗為類似。3.「一定」、「必定」的語義競爭  整理部份歷史文獻中,「一定」和「必定」的用法如下二表。表四:部份文獻中「一定」的用法

75

Page 79: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

現代 紅樓夢

金瓶梅

水滸傳

元雜劇

朱子語類

敦煌變文

史記 淮南子

詞組 3 7 1

推斷 adv ☆ 38 10 12 3

要求 adv (☆) 1

意願 adv ☆ 6 1

保證 adv ☆ 1 5 2

固定 v 1 11

統一 v 1

統一 adv 3

定語用法

adj ☆ 17 17 3

總計 2000

66 15 16 0 42 0 0 4

表五:部份文獻中「必定」的用法現代 紅樓

夢金瓶梅

水滸傳

元雜劇

朱子語類

敦煌變文

史記 淮南子

管子;韓非子

詞組 1 2

推斷 adv

☆ 44 5 4 3 3 15

要求 adv

☆ 5 1

意願 adv

☆ 4

保證 adv

☆ 3 1

76

Page 80: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

定語用法總計 138 56 6 4 3 5 15 1 0 2  比較表四與表五及上述說明可有以下幾點結論:A.「必定」比「一定」更早連用,且「必定」在《敦煌變文》時就結合成複合詞了,而「一定」到《朱子語類》時才結合成複合詞。

B.就語法特點而言,二者很明顯的不同是「一定」的定語用法到現代仍有許多例子,而「必定」的定語用法只出現過一次;

C.從二者的要求義來看,「必定」已可單獨表示要求義,而「一定」還依賴著「要 2」來表示要求義。

D.在《敦煌變文》以前,「必定」的使用率要比「一定」高,從《朱子語類》開始,「一定」的使用率便高於「必定」了。

這幾點顯示,「必定」語法化的時間較「一定」早,但宋代開始「一定」逐漸取代「必定」的位置。參考書目:羅竹風 主編. 1997. 《漢語大詞典》,東華書局。鄭縈 趙芳玉 2004 〈漢語情態詞「一定」的語法化過程〉,未刊稿,即將於第五屆台灣語言

及其教學國際學術研討會中發表。謝佳玲. 2003.〈華語的情態動詞與情態副詞:語意的分類與歸類〉,《漢語學習》2:1-56–1-

73。謝佳玲. 2002.《漢語的情態動詞》,國立清華大學語言學研究所博士論文。侯學超. 1998.《現代漢語虛詞詞典》,北京大學出版社。柳士鎮 1992.《魏晉南北朝歷史語法》,南京大學出版社。呂叔湘. 2003.《現代漢語八百詞 增訂本》,商務印書館。(1980年 5月第一版)

77

Page 81: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

略论汉语自然语言的型式 (D-Type Theory )陈祖舜 周 强

清华大学计算机系人工智能研究室(czs,zhouq)@s1000e.cs.tsinghua.edu.cn摘要.本文针对汉语初步讨论了建立自然语言数据类型-对象类型(称作型式)的若干基础问题。

1 引言将具有相同的性质的考察对象归属同一类,并进而考察不同类型的对象之间的一定的、

规律性的联系是一种最基本的,也是最初步的研究方法。在自然语言的语义学研究中,比如Montague 语法[11]与 Categorical Grammar [12]中就引入

了语义类型(也就是语义描述语言的句法类型)e(个体)、t(命题)、e → t(一目函子)、e → e → t(结果为一目函子的一目函子),等等,分别对应着自然语言的句法范畴里的NP、S、不及物动词 V1、与二价(及物)动词 V2,等等;可见,这种类型体系是对应语法结构而设的:谓语动词(谓语形容词等其他成分)的语义当作函子,名词短语(或相当成分)的语义当作运算元,句子语义当作函子作用于运算元的结果对待的。Montague 语法把目标语言(自然语言)的句法与语义都处理成多类代数,通过一种翻译函数将句法代数同态(或同构)地映射成语义代数,这就是它的语义分析策略。Categorical Grammar 将上述语义函子进而区分成左乘算子与右乘算子(或如文献中常用的,区分要求左置运算元的与要求右置运算元的算子),从而把句型、句式方面的信息吸收到语义表达式中来。于是可略去上述的句法代数与翻译函数,使语句的语义可以从句子本身“直接读出来”。等等。其间类型概念奠定了方法的基础。

类似的,在情境语义学里也引入了对应于语义表述语言的语法结构的类型机制。比如[2]就引入了 LOC(处所),TIM(时间),IND(个体),RELn (n目关系),SIT(情境),INF(信息元),TYP(类型),PAR(参量),POL(极性元)等九种分别对应于情境表述语言的句法构成的语义类型(与相应的参量)。然而,与此同时情境语义学还赋予类型一种反映/体现“对象所携的信息”的功能。比如

[2]中引入的类型抽象(与参量)机制,其着眼点就是相应的参量“所携带的信息”25。它是[1][3]中引用的事件/情境的类型的概念的延伸与发展:(按[1][3]等)设 s是个情境,σ是个信息元,如果在情境 s中有信息元 σ陈述的事态,也就是在情境 s中信息 σ是真实的,我们用关系s⊨σ表示这一情况,并且说情境 s 是/属于 σ陈述的那种情境类型;容易看出,这种着眼于信息内容的结构(相应给情境分类)的类型概念与前面的针对(语义表述语言的)句法的结构分类的类型概念是有差异的。前者有点像语义分类体系(thesaurus)中的义类(sort,class),后者则是语义描述语言中的句法类,两者分属完全不同目标的两个范畴,有着不相同的研究目的。在相关的文献中,对前者,思考与讨论的问题是,比如,义类的剖分与组织问题,诸如,信息内容的上下位继承机制问题,等等;而对后者则关心,比如,相应类型的语法功能 —— 相当于格位、论旨(case, theme)定位问题,等等。混同两者常会使问题的表述遇到困难,至少是无端地变得繁重起来(请见,比如,[2])。我们主张分开它们,把对应于语义描述语言的句法结构的类型仍叫做类型(G-type,语法类

型),把关涉对象的信息结构的类型叫做型式(D-type/O-type,数据类型/对象类型)(见[7])。 本文(与后续文章)是[7]的续篇,论述如何组织那种在情境中定义/描述的概念([7]),以便

在言语交际、思维推理中调用它们。意即建立数据类型/对象类型体系。在此我们借鉴了人工语言,特别是计算机科学中的程序设计语言、逻辑学语言,的语义学研究的经验。数据类型是组25或用我们在[7]中的说法,“类型是对象所具有的共同的信息结构的一个抽象”

78

Page 82: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

织对象、支撑相应演算,包括具体运算的概念工具。数据类型由其所承受的运算(指所满足的公理)一义确定。数据类型功效/要决有三:一是充当概念-对象间的信息继承关系网的支撑点(逻辑的格);二是实现内化、体现对象间的上述的相应的运算的实体(所谓封装技术,外部只见引用的接口);三是提供提炼/建立/表述局部共性的属性的基础。三者之中头两项效用突出、意义重大,后一项相对较弱,也开发不足,局限在支持相同运算上的研究。这也许是因为程序语言、逻辑语言的主要使命就是支持各种格式演算与运算的缘故。自然语言的主要使命是编码承载信息,其基础,也是其独特之处,是自然语言内在地建有

一个“与时俱增”的概念体系,能定义、吸收与组织新概念。据此,自然语言的对象/数据类型至少也要有三项功效。一,支持信息继承;二,内蕴本类型专有的属性、关系与函数;三,成为提供提炼局部共性的基础。当然三项功能是相联系的。本文尝试初步建立自然语言(汉语)的数据类型-对象类型的概念框架。限于篇幅,本文侧重概念的组织功能,主要涉及上述的一,兼及二与三。以下是下面各节内容的安排。§2.世界,它的基本构成要素;说明在一个世界作为数学模型,要涉及的各种量。顺带阐明型式的要义;§3. 型式体系.讨论信息量多寡的序关系,及伴生的若干事项;§4.关于信息元、情境的信息量序的问题(未定名). 主要讨论先是给出型式的有限近似的问题;§5.结束语.若干回顾。2.世界,它的基本构成要素(大略)从交际的角度来看,一个世界不光是它所具有的人与物,它里面发生了的事,它们的状态、它们之间的关系等等,还必须有从认知目的把握这些人、物、事、状态、关系等等对象而产生的概念与概念结构,以及相应的符号化结果:词语与词汇体系,包括概念结合的规则与词语结合的方式。

2.1 常量、参量、变量在一个世界中,哪怕是虚构的、或真实的世界中虚拟的,我们用常量表示实际存在的人、

物、具体的时间与空间、具体/实际发生了的事、存在过的状态、关系等各种量。根据常量的内涵可以将它们归入各种不同的类,叫做型式。这里,所谓型式乃是对象的内涵的共性的一个抽象。与常量是具体量、实在量相对,参量与变量是所谓抽象量、潜在量[7]。参量在情境语义学中是概念的化身,是概念内涵的一种抽象的体现者:恰含相应内涵的抽

象个体。理论上它提供了一种“显式引入所需型式量”的枢纽(见§4)。变量则是函数抽象所必需的。变量只用在 l抽象里。与参量不同的是,变量只是形式量。

它的作用是在函数式中给空位(俗称作目)取名、标号。相反 ,参量尽管是抽象的、虚拟的,却是一种真实的(尽管是潜在的)量。

强调一点,参量、变量都有其专属型式,常量则没有。常量所属的型式是无上限的。2.2 信息元、情境、及其它(大略)

信息元是信息的基本构成要素,其基本形式如:《r,l:Loc,I1,…,In;p》. 用信息元可以组成情境。为了简化,本文只考虑最简单的一种情境形式:信息元的集合。它表示这些信息元的联立,即同时成立之意。由情境可定义出新的个体、关系、时空等概念。特别值得一提的是,所有这些有结构的量都可引作常量与参量,也可标示成变量。

将情境等的表达式中的变量/参量代换成相应的常量的函数叫锚定。除了锚定外,还有各种代换函数,代表各类各种抽象-具体、概括-实例化等思维。

小结. 一个世界是由简单常量、参量和由情境、情境生成的各类表达式、以及上述诸量之间的关系、等诸多要素表示的所谓有结构的常量与参量做成的一个数学模型。常量用来表示

79

Page 83: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

世界中存在的人、物、事、状态与态势、以及它们之间的各种联系/关系、等;参量用来表示认知过程中生成的各种“预制件”,即各种概念;变量不是世界自身具有的对象,它只是一种技术手段,主要用来给关系与函数的变目/空位命名。参量是作为具体对象的共性的化身型式的典型代表出现的。在此,型式既是描述上述的诸因素的概念工具,又是将其组织成整体理论模型的“逻辑格”。3.型式体系

本节考虑型式所携的信息量多寡的序关系,相当于通常的上下位关系。这是诸型式之间最基本、最重要的联系。由它还可导出若干个重要关系。3.1 型式上的序关系我们约定,所有出现的参量、变量都要限定其专属型式。常量虽不存在专属型式,同样要

求它归属一定型式。下面用量泛称常量、参量、与变量。定义 3.1. 设 T1,T2是两个型式。

①如果对任意的量 x,只要有 x : T1,就也有 x : T2,我们就说 T1至少是与 T2等强的型式,并记做 T1≥T2,或等效地记做 T2≤T1.. ② 若同时满足 T1≥T2与 T1≤T2,就叫做等强的、相等的,或同一的,记做 T1=T2. T1=T2的否定(T1=T2)也记做 T1≠T2.

③我们用 T1>T2表示 T1≥T2且 T1≠T2,此式也记做. T2<T1. 称 T1强于 T2. �说明. 型式是共有属性(也即内涵)的抽象。T1>T2反映的是,T1型概念是 T2型概念的下位。也即,T1的内涵比 T2的丰富。T1=T2则表示 T1,与 T2有相同的内涵。也即,T1型概念与

T2型概念是同一的。这就是定义中“强于、等强、相等、同一”等术语的意思。 �我们用 3 记所论世界中的所有型式之集。显然 (3 , ≤)是个偏序集。作为一类对象共有的内涵的抽象,型式应当是自洽的,即作为共性的这种内涵不含矛盾,

有内在的协调性。于是有下述定义。定义 3.2 设 T1,T2是两个型式。如果存在型式 T3,满足 T1 ≤ T3,与 T2 ≤ T3,我们说 T1,T2是相容的,记做 T1↑T2,型式 T3也叫做 T1,T2的上界。

�定义 3.3. 设 T是个型式,我们记↓T≡{Ti | Ti≤T}26,↑T≡{Ti | T≤Ti},分别叫做 T的下集与上集� 显然下集↓T 是个相容集,即,集中的元素两两相容。而且(↓T, ≤ )是一个以 T 为最大

元的定向集。上集↑T有最小元 T,一般讲不是两两相容的。换个角度看,一个属于某型式的参量可能有的“扩充”总强于该型式。于是我们有,

.定义 3.4.设 T1,T2是两个型式。如果存在型式 T3,满足 T3 ≤ T1,与 T3 ≤ T2,我们说 T1,T2是相干的,记做 T1↓T2,型式 T3也叫做 T1,T2的下界。不相干的两个型式也称作互外的,记做 T1#T2.

�注意,相容的型式与不相容的型式都可能是相干的或不相干的。定义 3.5. 设 x是一个量,记 x所属的型式之集 Vx≡{T| x : T},简称作 x的型式集。 �

一个常量的内涵是无法穷尽的。它所属的型式彼此是没有冲突的,而且其中没有最强者。对常量 x而言,Vx是个没有最大元的相容集。这可作为常量的定义!我们总是/也只能是通过其所属型式来描述、认识一个常量。这是一个逼近过程。这种描述的收敛性反映的是该常量的可认识性。收敛的极限实际上就是我们对该常量(所对应的对象)的终极认识。没有最大元就26 我们用≡表示≝

80

Page 84: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

是这种逼近过程永远不会终止。这样,参量就被当成认识、描述常量的工具、手段。对参量或变量 x而言,Vx =↓[x]. 即,参量 x的型式集是一个以 x的专属型式为最大元的相

容集。这是参量与常量根本不同之处。看作描述,参量就是有终止的逼近过程。因此,在一定意义上,参量是一种有限量,而常量则是无限量。而且常量这种无限元素总可以用参量这种有限元素来近似。在这层意思上,我们说参量是信息不完整的量。不断给这种量增加内涵,只要是相容的,就能越来越逼近某个常量。不同的增加方式可能得出不同的常量。这就是前面说的,参量是不确定的量的含义。偏序集(3 ,≤)上可以定义与≤相容的部分二元结合与,加上适当的条件可使它们成为完

全的二元结合,且可拓广成有限集的结合。等等。这是通常的推演路线。不过我们所面临的型式体系非常简单, 是可有限构造/生成的体系。不必沿此途径行进。(略。)3.2 基本型式与基本结合

我们假定有几个基本型式 A1,A2,…,An. 它们所特有的专有属性是已知的27,其余所需的型式可由它们构造而得。参照[9],比如,我们暂时取[m_人]、[m_物]、[m_事]、[m_时空]、[m_属性]、[m_事态]、[m_行为]、[m_量]、[m_质]这几项做基本型式。选择这几项是因为它们比较基本,又常用。正如[9] 从‘事’里分出‘行为’来一样,我们从‘物’里分出‘人’来,就是因为它常用,且内涵又丰富。

从基本型式出发,运用一些结合运算可以得出更一般的型式。下面的结合是常规的。定义 3.6. `设 T1,T2是两个型式,我们定义四个型式 T1×T2,T1 ⊙T2,T1+T2,T1T2如下:①参量 : T1×T2,是说存在有 a1 : T1,与 a2 : T2 使 =<a1,a2>,反之亦然;②参量 : T1⊙T2,是说存在有 a1 : T1,与 a2 : T2 使 ={a1,a2},反之亦然;③参量 : T1 + T2,是说 : T1 或 : T2,反之亦然。其中<a1,a2>表示序偶,{a1,a2}表示集合;④参量 : T1 T2,是说,若( : T1), 则 : T2./*即, : T1,否则 : T2. */ �

很容易推广到任意有限个型式的情况:T1×T2×…×Tn,T1⊙T2⊙…⊙Tn,T1T2… Tn ,T1+ T2+…+ Tn.分别叫做型式 T1,T2,…,Tn的卡氏积(有序积)、无序积、有序和与无序和。

对卡氏积与无序积,其典型参量容易得出。实际可有下述结论:① 若参量 :: T1×T2,则有 a1 :: T1,与 a2 :: T2 使 =<a1,a2>,反之亦然;② 若参量 :: T1⊙T2,则有 a1 :: T1,与 a2 :: T2 使 ={a1,a2},反之亦然;③ 设 T1,T2 ,T’1,T’2 四个型式满足 T1≤T’1, T2 ≤T’2,我们有 T1×T2 ≤T’1×T’2,T1⊙T2≤T’⊙T’2, T1+ T2 ≤T’1+ T’2与 T1 G T2 ≤T’1 G T’2.等等。

�注意,由于引入了型式的卡氏积,我们往往把 n目关系也称作 n阶卡氏积的属性:属性抽象 gT 当 T = T1×T2×…×Tn时,也叫关系抽象,得到的是型式 T1×T2×…×Tn上的 n目关系;按27这种做法是常用的。比如,Jackendoff在其概念语义学[9]中就引入了八种基本语义范畴:事物、事件、状态(事态)、行为、时空、路由、性质、总量。

81

Page 85: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

照习惯说法,一目关系常称作属性/性质。往后我们就用关系统称它们。若 T=T1⊙T2⊙ … ⊙Tm, 则 gT表示由分别属于 Ti(i=1,…,m)的m元无序组的关系-属性;而若

T=T1 + T2+ … + Tk,gT是某个 Tk的属性 gT。由此可定义 gT1 + gT2+ … + gTk, 使有 gT=gT1 + gT2+ … + gTk,若 T=T1 G T2 G … G Tk,gT是某个 Tk的属性 gT。由此可定义 gT1 G gT2 G … G gTk, 使有 gT=gT1 G gT2 G … G gTk.只要适当地定义关系的相应结合运算即可。等等。(从略)。

此外,函数的型式也是传统的:定义 3.7. 设 T1,T2是两个型式。我们用型式 T1 → T2表示具有“映 T1型的量为 T2型的量”的函数对象的抽象。换言之,若有函数 f :T1 → T2,若 f:a b,就有 a:T1 与 b:T2. �

函数型式也有序关系。对它们的讨论放在下面介绍函数与关系的一小节来说。3.3 有结构的型式型式抽象是情境语义学引进的一种新的产生/定义新型式的有效的途径,特别是与有结构的参量联合使用时。通常是,根据需要定义一个参量,有结构的参量,即给出它的信息结构的描述。再用型式抽象得出它的专属型式。该参量就是该型式的典型代表(请见[7])。在[7]中描述了几种常用的有结构的参量形式,下面来看它们对应的型式抽象。也就是,几

种产生新型式的结合方式。①含参对象. 一个含有参量的对象本身看成是一个参量,是一种有结构的参量。我们遇到得最多的是情境与信息元这两种含参对象。一个情境(°)28,其中参量° 要求满足:°:T;作为整体,情境(°)是一种有结构的参

量,其型式为(T),此处情境头 理解成一类特殊的常量,函数常量,其型式为 T→(T).如前所说,常量没有专属型式。或者讲,属于它的专属型式的只有它独自一个量(此时是该常量本身)。因此可以不严格地把它也当作是它所属的类29,即, = [].这种约定(下一小节将说明其原因)也是为了顺应日常用法,比如我们可把踢球情境作为一种参量 c_踢球(T),需要引入踢球型式:[c_踢球(T)],这里未明确给出的型式 T,比如可有 T=[m_时间]×[m_处所]×set[m_人]×set[m_人]等,叫做 的型。为了表明它,可记作 _T. 一个信息元可表作 =《r,;p》, 中的关系符 r与个体符列之间要求型式上要相配30::

T, 型式 T是 r要求的,叫做 r的型,记做 R_T(r)31,也记做 Tr. 该式的直觉意义是: r是个“关系-属性”量,它要求与型式为 T = R_T(r)的个体列相配(T叫做 r的型。)这句话也表示成:r是型式 T上的关系32。

中 r,,p 都可能是参量,可把它们显式地表示出来,比如写成,(r°, °;p°)的形式;此时 的型式为 D([r]×T×P), 这里 P 为定值元 p的型式,这是一种还没有认真研究的量。D(…)表28 我们用加上标 ° 方式,比如 °,表示该量是参量。29 我们只对常函数、常关系、常属性这样约定。因为和其它个体概念不一样,常函数、常关系不仅固定,常用,又含义明确,且数量很有限。30 我们暂时忽略定值元域的选取问题。一律取用四值格{0,1,⊥,⊤}(请见[7]),因为这方面的情况还不很清楚。31这里,符号 R_T是个特殊的型式,表示“关系-属性”的型,附标_T提醒:该关系适用型式为 T的量。32 注意,我们忽略了研究尚不够的定值元的型式的要求,因为暂时只有一种定值元型式。

82

Page 86: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

示一个“信息元”型式,可简化成D(r×T×P)33。与常函数一样地,我们也要引用常关系-常属性。同样常关系的型式也可不严格地当作是常

关系它自己(下小节有说明)。与 R_T(r)表示关系 r的型相应,我们也用符号 R_T表示任意的(也即未限定型的)关系-

属性。R_T=Σ(R_T(r)|r:REL)= Σ(Tr|r:REL),式中 r:REL34表示:r是关系量,Σ表示任意的无序和。②复合参量. 我们只遇到一种复合参量,就是当上述的含参情境它的情境头也是参量,而不是常量时,出现的一种嵌套式的复合结构,叫复合参量。经常需要引用复合参量。比如我们要表述足球运动是一种球类运动、后者又是一种体育运动,在古代它还是一种军事竞赛运动,等等。应该说类似这种情境类的从属关系的情形是经常出现。一个情境参量可表示成°(°),这是一个复合参量。如果已有 °::T1(请见下一小节),则 °(°)的型式为[°](T)=T1(T).如同用 R_T,R_T(r)表示“属性-关系”的型一样,我们用符号 F_T()表示函数 要求的“

变元”的型式,叫做该函数的型。F_T()也记作 T. 我们用 F_T泛指“函数”型:F_T=Σ(F_T()|:FUN35)=Σ(T|:FUN)

③条件参量. 形如 x|(Σ,I)的参量叫条件参量。其中 Σ是情境表达式,I是信息元表达式(参见[7])。本文只考察最简单的情形:Σ是情境的集合;I是信息元的集合。因为我们已约定只考虑情境是信息元的集合这一最简单的情形,加上上述两条约定,事情就确实是极大的简化了,但却是最常见的情况。

我们记条件 C=(Σ,I),则 C的专属型式 TC可表示成TC=T1⊙T2⊙…⊙Tm⊙D(T’1)⊙D(T’2)⊙…⊙D(T’n)

(#)式中 T1,T2,…,Tm 对应着 Σ中的诸情境, D(T’1),D(T’2),…,D(T’n ) 对应着 I中的诸信息元。设参量 x的专属型式为 T,则条件参量 x|(Σ,I)的专属型式[x|(Σ,I)] = T|TC,其中 TC如式(#)所示。条件参量是很重要的结构参量。许多复杂的概念可用它表示。[7]中曾给出若干例子。这里

再给出用条件参量表述上述几种结合运算如下:引入条件参量 x|C,于是可引入型式[x|C].取条件 C = {《gT1,x1;1》,《gT2,x2;1》},x=〈x1,x2〉;于是有[x1,x2|C]= T1×T2, 及[bag36(x1,x2|C)]= T1⊙T2;取条件 C = {《gT1,x;1》or《gT2,x;1》}, 于是有[x|C]= T1+ T2;而取 C = {if《gT1,x;0》then《gT2,x;1》}, 于是有[x|C]= T1G T2当然,后两个条件式已经越出了本文对情境表达式的约定,就不谈了37。

④过程化可能又要引入一类新的型式表达式,还需再研究。(暂缺。)有了型式的结合就能从基本型式衍生出许多结构复杂的型式来。我们提醒一点,,函数与关系不论是常量还是参量,关系与函数都没有明晰的“型式-

个例”的界限38。它们的型式只含一个典型参量(或常量)这是很独特的39。33 参见下一小节关于函数与关系的讨论。34 REL是关系类型,属句法类型量,见下面类型一节。35 FUN是函数类型,属句法类型量,见下面类型一节。36 Bag表示多重集合(multi-set),即,计元素出现的重数的集合。37 不过,引入它们意在暗示:有必要引入“个体对象上的结合运算。” 此是后话。38 Jackendoff [9]就曾论述道:“性质”与“总量”没有明晰的“类型与个例”的区分。39如果我们人为地引入常量的型式,把常量型式当作只含该常量一个个例的特殊型式(就以该常量为它的典型代表),那末,对关系与函数而言,参量与常量的界限、型式与个例的界限就模糊了。它们都是只有一个典型代表。它们的区分只在:属于常量型式的量只有一个,就是该常量,而属于参量型式的量

83

Page 87: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

于是关系量 r与函数量 可以与它们的型式[r],[]混同:r=[r], =[].下面的定义中就这麽混用。

定义 3.8.(型式抽象引入的型式结合)设 T是个型式。① 若 是个函数量(常量或参量40),其型满足 T≤T,则 (T)是个型式,此式也记做

(T);同时,的型式[]也记为:=T → (T),或简作:=T → ( T);② 若 r是个关系量(常量或参量),其型满足 Tr ≤ T,则D(r×T×P)是个型式。其中 P 为定

值元型式。目前讲,它视为一定死的。下面将该式简记作D(T’).③ 若已知有型式 1(T1),…, m(Tm), D(T1’),…,D(Tn’), T是任意型式,则 1(T1)⊙…

⊙m(Tm)⊙D(T1’)⊙…⊙D(Tn’), 与 T|1(T1)⊙…⊙m(Tm)⊙D(T1’)⊙…⊙D(Tn’)都是型式。�下面是关于它们的序关系的若干命题。

① 设 是情境头函数,T1,T2是两个型式,满足 T ()≤T1≤T2,则有 (T1)≤(T2);其中的等号只在T1=T2时才成立;

② 设 1,2, 是两个情境头函数,满足 1<241, T是个型式,满足 F_T(1) ≤T,与 F_T(2) ≤T,

于是有 1 (T)< 2 (T);③ 设 1,2是两个情境头函数,如果 F_T(1) ≤ F_T(2), 同时还有 1(F_T(1)) ≤2(F_T(2))我们说[1] ≤ [2](即 1≤ 2).④ 容易看出,对任意量 x及条件 C,总有[x]≤[x|C]; 下面是它的另一种说法:

对任意型式 T与型式 1(T1),…, m(Tm), D(T1’),…,D(Tn’),总成立:T≤ T|1(T1)⊙…⊙m(Tm)⊙D(T1’)⊙…⊙D(Tn’)

�几点说明:1 我们将含参对象与复合参量纳入到同一个框架中来处理。①②中的 与 1, ,既可是常量也可是参量,但 2必然是参量.2 注意,③中函数型式的序关系与通常的不一样。这相当于说:设 T1,T2 ,T1’,T2’ 四个型式满足 T1≤T1’, T2 ≤T2’,我们有 T1 → T2 ≤ T1’ → T2’.这不同于类型理论中的公理。但从下面的例子看,我们的结论似乎是合理的。 “考试<升学考试、选拔考试<升学考试”,“体育运动<球类运动<足球运动”3 我们还没有讨论信息元的型式的序,因为信息元所携带的信息的强弱还要依赖于定值元

的取值,情况较复杂,我们将在下一节略加说明。4 信息元的强弱直接影响了条件参量的型式的强弱。因此在④中我们也没有提出条件式 C

的强弱问题,也得等到下面一节论述过后。�

3.4 型式内蕴的信息Devlin在其[2]中已经论述过,任何命题均可等价地转换成形如 x :T 的型式归属命题。

关系式 x : T可用信息元《gT,x ;1》陈述。同样, (x : T)可用《gT,x ;0》来陈述。因此可有下述定义:定义 4. 约定,如果有 T1 T2,则也有 gT1 gT2,其中 {≥,>,<,≤,=,≠}.反之亦然。 �

如果我们还有信息元上的序关系(下面定义只是它的一部分)的约定,那末就能把型式间强弱的序关系归于它的属性间强弱的序关系(的陈述了)。此是后话。却有许多(目前知道的是只有有限个)。40 此处参量未表明其上标。41 目前讲,我们有 F_T(1)=F_T(2),但进一步的讨论将取消此限制。

84

Page 88: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

定义 5. 设 r1,r2是两个关系符,满足 r1 r2,我们约定相关的信息元有《r1,x;1》《r2,x;1》与《r2,x;0》《r1,x;0》,其中 {≥,>,<,≤,=,≠}.假定所论的信息元是有意义的,即个体符 x 对关系符 r1,r2是适定的。 (可用作公理!)

�(限于篇幅,略。本节与以下各节内容概从略)3.5 代换与概括等(尝试关于“具体”、“抽象”、“隐喻”等转换/变换的数学表述)4.(由此导出的关于信息元、情境等对象的信息量的序)(主要目的是讨论显式的给出型式的有限近似的问题)5. 结束语.从初步讨论看,自然语言语义学需要考虑建立它的数据/对象的类型理论。型式是信息内容与结构的抽象,是展开待开发的理论的核心概念。信息量的序关系简单合用。参考文献[1]Barwise,J.,J.Perry. Situations & Attitude, MIT Press, 1983; Re-issued by CSLI Publications, 1999[2]Devlin,K., Logic and Information, Cambridge University Press, 1991[3]Jon Barwise, Recent Developments in Situation Semantics, in Language and Artificial Intelligence, M. Nagao (ed.) 1987[4]Shalom Lappin, The Handbook of Contemporary Semantic Theory, Blackwell Publishers Ltd 1996, 1997[5] Cooper, Robin, The Role of Situations in Generalized Quantifiers, in S. Lappin[4][6]Hideki Tsuiki, A Domain-Theoretic Theory of Lax Generic Functions, Theor. Compt. Scien.v.294 (2003) 307

– 331[7]陈祖舜、周强、赵强,“情境 ─ 组织/存放词汇语义知识的恰当框架”,CLCLPv.7,No.2 (Aug.2002.),

pp.1-36[8]Cooper, Robin, Three Lectures on Situation Theoretic Grammar, in Natural Language Processing, EAIA’90,2nd Advanced School in Artificial Intelligence(Guarda, Portugal, October 1990)Proceedings(102-140)[9]Jackendoff, Ray, Semantic Structures, Cambridge: The MIT Press,1990[10]卡纳普,世界的逻辑构造, 陈启伟译,上海,上海译文出版社,1999 (原著:Carnap, Rudolf, Der Logische Aufbau der Welt)[11]Montaque, Universal Grammar, in Formal Philosophy : selected papers of Richard Montague, Originally published in Theoria 36:373-98(1970)[12]Jacobson, Pauline, The Syntax/Semantics Interface in Categorical Grammar, in S. Lappin[4]

85

Page 89: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「別」的語義演變新竹師院台語所 . 靜宜大學中文所

林盈秀 . 鄭 縈[email protected][email protected]

關鍵字:語義演變、語法化、分化摘要

「別」本為分解義動詞,之後引申為分開、另外等義,並進而虛化為副詞,本文從語法化的相關機制著手探討「別」的語義演變。1.現代漢語「別」的用法關於「別」的來源有種種的推測,卻也只是冰山之一角,迄今尚無全面的討論。

而目前所見的討論中,多數集中在「不要」與「另外」二義,且都歸入副詞,如下表所示:

書名義項 虛詞使用通釋 現代漢語虛詞

例釋現代漢語虛詞辭典

現代漢語八百詞

不要 副詞42 副詞 副詞 副詞另外 副詞 副詞 副詞 ×其他 形容詞 × 代詞 *43

區別 × × 名詞 ×離開 × × 動詞 ×卡住 × × 動詞 ×

表(1)四家對「別」字討論的比較由表(1)可知,學者對現代漢語「別」字的研究偏重在虛詞用法上,這應該與其現代漢語使用頻率的多寡有關。所以我們進一步檢視中央研究院現代漢語平衡語料庫中「別」字的 920筆語料,發現其中副詞用法竟超過七成,而具有實質意義的動詞和名詞,卻不到一成,如以下表(2)所示:

詞性 語義 句數 佔所有語義之比例

動詞離開 16 1.7﹪

扭轉 1 0.1﹪

區分 4 0.4﹪

插、揣 2 0.2﹪

名詞 區別 29 3.2﹪

形容詞 其他 191 20.8﹪

副詞 另外 17 1.8﹪

不要 660 71.7﹪

42 此書作者僅指出白話中有此一語義,但未清楚標示其詞類,我們根據其他書的分類暫時歸入副詞。43 此書僅討論詞組「別的」屬於指示代名詞,用以修飾名詞,並未單獨討論「別」之詞類。

86

Page 90: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

表(2)「別」字用法的統計劉堅等 (1995 )認為虛詞一般是由實詞轉變來的。他認為轉變的原因是「某個實詞因句法位置的變化而造成詞義的演變,或因詞義的變化而引起句法位置的組合功能改變」,因為句法位置改變、詞義變化,最終使詞彙失去原來的意義,在語句中只具有某種語法意義,變成了虛詞。這種過程稱之為「語法化」。張誼生(2000)指出,副詞可能從名詞、動詞或形容詞語法化而來,接下來我們將分別探討「別」字的語法化途徑。2. 「別」字的語法化途徑

周緒全、王澄愚(1991)指出,《說文解字》:“分解也。從骨從刀”。段玉裁注:“骨(剃人肉,置其骨)者,分解之貌;刀者,所分解也。”即「別」的本義是分解。而分解便是要把一個整體分開,因此,引申為分開、區別之意。《論語.子張》:“譬如草木,區以別矣。”而相聚的人要分開就是離別,故由分開引申為離別、告別。杜甫《石壕吏》:“天明登前途,獨與老翁別。”分開以後就成為另外的事物了,所以由分開又引申為另外。白居易《琵琶行》:“別有幽愁暗恨生,此時無聲勝有聲。”44 我們可將周、王所述「別」字的衍化途徑簡化如下:

┌→離別、告別別:分解 → 分開 → │ └→另外

然而,周、王僅提到四個「別」的詞義,其餘尚未提及且並無深入討論。所以本文將以語法化的角度來探討《漢語大辭典》中所列的詞義。2.1 語義變化分開是在分解詞義的基礎上派生出來的新詞義,把從屍體、土地、性別到社會階

層、意識型態和價值觀等事物一分為二、一分為多。我們可以看到「別」詞義的適用範圍從具體的物到抽象的事,詞所包含的詞義擴大且產生泛化作用,例如:(1)男女行者別於塗;塗不拾遺。(新校本史記三家注/新校本史記/世家/卷四十七 孔子世

家第十七)(2)布善用兵,民素畏之。且兵法,諸侯戰其地為散地。今別為三,彼敗吾一軍,餘皆走,安能相救!(新校本史記三家注/新校本史記/列傳/卷九十一 黥布列傳第三十一)而人、事、物的一經劃分會導致正與偏、主與從的關係產生,如此一來,被劃分

開的個體便與主體之間產生了一種特殊隸屬關係。被劃分開來的人、事、物對於主體雖有隸屬關係,本質上是同屬一個來源,但是實質上卻有些微差異因而與主體有所不同才被「區分」開來,例如:(3)二宣子曰:「自郤稱以別三傳矣。」(春秋左傳/昭公/傳三年)

高增霞(2003)指出語法化過程常常伴隨著主觀化的過程。所以,原本是以客觀的角度來看待事物間因差異而有所區分,變成由人主觀去區分事物的不同,例如: (4)子游問孝。子曰:「今之孝者,是謂能養。至於犬馬,皆能有養;不敬,何44 參見《古漢語常用詞源流辭典》,P.21-22。

87

Page 91: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

以別乎?」(論語/第一卷/第二篇 為政) (5)目不別五色之章為昧。(春秋左傳/僖公/傳二十四年) (6)三子之才能誰最賢哉?辨治者當能別之。(新校本史記三家注/新校本史記/列傳/卷

一百二十六 滑稽列傳第六十六)事物因為有差異而被「區分」開來,換句話說,事物的「區分」乃因其事物間有所差異,所以產生兼類詞「區分」的名詞用法,例如: (7)今男女同贄,是無別也,男女之別,國之大節也。(春秋左傳/莊公/傳二十四年) (8)其別有三:在天之鬼神,陰陽造化是也。(朱子語類/朱子語類大全/朱子語類門目/鬼

神)再者, 在一個主體之下因為區分後所產生的結果,出現了所謂相對於主體的「分支」和不同的「類別」,若用於指稱河流便是分支,指稱學術便是流別、派別。句(9)中,「別」所指稱的便是晉國所屬的一個縣邑。(9)南伐晉別,北滅黑姑。(新校本史記三家注/新校本史記/世家/卷四十三 趙世家第十

三)而這些分支與類別對於不同事物的主體而言,稱呼也就各異,例如:「別子」 乃指長子以外的兒子;「別派」另一支裔;「別名」本名以外的異名;「別集」乃同總集相對而言;「別體」指書法的變體;「別室」本宅外另建的園林遊息處所,也稱別業、別館。(10)晉之別縣,不唯州,誰獲治之。(春秋左傳/昭公/傳三年)(11)始皇可其議,收去詩書百家之語以愚百姓,使天下無以古非今。明法度,定律令,皆以始皇起。同文書,治離宮別館。(新校本史記三家注/新校本史記/列傳/卷八十七 李斯列傳第二十七)

2.2 認知心理張誼生(2000)認為「隱喻」是從一個認知域到另一個認知域的投射,也就是一

種用一個具體概念來理解一個抽象概念的認知方式。所以,具體事物的「分開」漸被隱喻成人的「離開」,而在「分開」的詞義基礎上派生出新的詞彙意義,例如: (12)項王歸漢王父母妻子,軍中皆呼萬歲,乃歸而別去。(新校本史記三家注/新校本

史記/本紀/卷八 高祖本紀第八) (13)假便恩愛久共處,時至命盡會別離。見此無常須臾間,是故我今求解脫。

(祖堂集/卷一/第七釋迦牟尼佛)而人的「離開」言下之意便是指分離的人走不同的方向,在這個詞義的基礎上,「隱喻」的作用繼續發揮,進而在投射出不同的概念來指稱人部位動作的不一致,也就是「扭轉」:(14)問:「如何是問?」師云:「不与摩來問。」「如何是答?」師云:「向你道什摩?」進曰:「不問不答時如何?」師云:「你亦須別頭好。」(祖堂集/卷第十三/招慶和尚)

(15)宋江低了頭不做聲。婆子看女兒時,也別轉了臉。(水滸全傳/第二十一回 虔婆醉打唐牛兒 宋江怒殺閻婆惜)「離開」既是背道而馳,投射到抽象的行為標準上,便成了「違背」的詞義:

88

Page 92: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(16)不別巢父意,由忻許氏能。(祖堂集/卷第十二/禾山和尚) (17)你等不開與我看,回到朝廷,先奏你們道士阻當宣詔,違別聖旨,不令我見

天師的罪犯。(水滸全傳/第一回 張天師祈禳瘟疫 洪太尉誤走妖魔)2.3 結構形式要瞭解實詞的虛化機制,必須先從結構關係和句法位置的改變來著手。根據檢索

到的語料看來,我們認為「別」的虛化是從「連動結構」中發生變化的。也就是說連動結構中的兩個動詞本來都是主要動詞,隨著表意重點經常落在後面的動詞上,導致連動結構轉向狀中結構,前面的動詞因而趨向虛化。(18)居數月,北攻亢父,救東阿,破秦軍。齊軍歸,楚獨追北,使沛公、項羽

別攻城陽,屠之。(新校本史記三家注/新校本史記/本紀/卷八 高祖本紀第八)由一個主要軍隊分出其中一部分軍隊去攻打,經過重新分析,這一部分軍隊既被分出,行動自與主軍不同,意義轉為另外行動。如此一來,使得「分開」逐漸引申虛化為副詞「另外」了。而在實詞虛化為副詞的過程中,因為語境的不同,造成副詞之間的功能差異,而又分化出另一個副詞義「各自」。一件事被劃分開來由眾人來完成,語義重點仍是後移至完成某事的動作,便可以重新分析成每個人「各自」完成自己的工作,進而導致「分開」虛化為副詞「各自」,例如: (19)魏王豹反,以假左丞相別與韓信東攻魏將軍孫遫東張。(新校本史記三家注/新

校本史記/世家/卷五十四 曹相國世家第二十四) (20)於是使樂毅約趙惠文王,別使連楚、魏,令趙嚪說秦以伐齊之利。(新校本史

記三家注/新校本史記/列傳/卷八十 樂毅列傳第二十)2.4 轉借太田辰夫(1957)認為表禁止的副詞「別」在明代就有一些,但用得較多是在清

代。在我們檢索的明代文獻《水滸傳》中並無此一詞義,但在清代《紅樓夢》則大量出現,超越其他詞義的用法。江藍生(1991)認為北京話裡的禁止詞「別」是「不要」的合音。所以「別」是通過讀音形式的相近,被借用為否定副詞「不要」,跟語義演變並無直接關係。 (21)寶釵道:「你別聽他的話,沒有什麼字。」(紅樓夢校注/第八回 比通靈金鶯微露

意 探寶釵黛玉半含酸) (22)且別說那不成詩,便是成詩,我們的筆墨也不該傳到外頭去。(紅樓夢校注/第

四十八回 濫情人情誤思游藝 慕雅女雅集苦吟詩)2.5小結

《漢語大辭典》對「別」的解釋45有以下 16種:1. 分開;離析。《書.禹貢》:“禹別九州。”2. 區別;辨別。孔傳:“言當識別頑民之善惡。”3. 差別;不同。宋 辛棄疾《念奴嬌.贈夏成玉》詞:“雪裏疏梅,霜頭寒菊,迥與餘花別。”

4. 離別。《楚辭.離騷》:“余既不難夫離別兮,傷靈脩之數化。”5. 分支。《書.禹貢》:“岷山導江,東別為沱。”

45 參見《漢語大辭典》第二卷,P.623-624。

89

Page 93: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

6. 類別。《後漢書.儒林傳贊》:“斯文未陵,亦各有承。塗分流別,專門並興”

7. 另外的。《史記.項羽本記》:“項梁前使項羽別攻襄城,襄城堅守不下。”8. 各自。《新唐書.來濟傳》:“於時山東役丁,歲別數萬人。”9. 特別;格外。宋 嚴羽《滄浪詩話.詩辨》“夫詩有別材,非關書也;詩有別趣,

非關理也。”10. 扭轉。《醒世恒言.兩縣令竟義婚孤女》:“賈昌哪裡肯要他拜,別轉了頭,忙教老婆扶起。”

11. 不要;莫。《紅樓夢》第九十四回:“這是哪裡的話,玩是玩,笑是笑,這個事非同兒戲,你可別混說。”

12. 違背。元無名氏《合同文字》第一折:“你若得長大成人呵,你是必休別了父母遺言。”

13. 用別針將東西附著在另一物體上或固定在一起。茹志鵑《高高的白楊樹.魚污邊》:“二喜胸前別了一個校徽,戴著紅領巾。”

14. 插;揣。李劼人《死水微瀾》第一部分五:“纂心扎的是粉紅頭繩,別了跟碧玉簪子。”

15. 脫落。《金瓶梅詞話》第四六回:“只落下蘭香在後邊了,別了鞋趕不上,罵道:‘你們都搶棺材奔命哩,把人的鞋都別了白穿不上。’”

16. 表示揣測。聞一多《罪過》詩:“老頭兒你別是病了罷,你怎麼直楞著不說話?”

所以,我們根據上述所討論的語義演變和《漢語大辭典》的詞義解釋再進一步歸納整理如下表(3):

詞類 語義 相 關 語 義

動詞

分開 脫落46

離別區別 差別;不同扭轉違背插;揣 用別針將東西附著在另一物體上或固定在一起

名詞 區別分支 類別

形容詞 特別47

其他副詞 另外

各自46把一個完整的東西「分開」,被「分開」的東西換而言之便從一個完整的東西「脫落」了。47 本文檢索的文獻當中並無出現「特別」的別字義,在《紅樓夢》中出現的十一筆語料是複合詞「別緻」,本文不另外討論複合詞。

90

Page 94: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

不要表(3)歷史語料詞義歸納表張博(2003)認為實詞的衍化大致可以分為三種情況:(1)引申,在原有詞彙

意義的基礎上派生出新的詞彙意義;(2)分化,在原有詞彙意義的基礎上派生出新的詞彙意義或原意脫離原詞位獨立成詞;(3)虛化,原有的詞彙意義逐漸弱化或消失,轉而表現抽象的語法意義。而關於「別」衍化的三種情況,我們認為由泛化和隱喻所派生出的詞彙意義是由基礎義「引申」而來;而由重新分析所產生的結構變化使得別「虛化」為副詞;而在虛化的過程中,另外又「分化」出二個同形的副詞。於是我們將上述討論的演化途徑如下所示:

泛 化 分支區分

其他 泛 化 隱 喻 移轉別:分解 分開 離開

違背 結構變化 另外 各自3. 「別」字歷代用法的統計我們將「別」字歷代用法的初步統計結果整理如下表(4)所示:

先秦 漢代 唐代 宋代 明代 清代左傳 尚書 論語 史記

祖堂集

朱子語類48

水滸傳

紅樓夢

動詞分開 1 2 0 11 0 0 0 0離別 0 0 0 2 21 0 208 77區別 2 0 2 14 26 72 11 0扭轉 0 0 0 0 1 0 7 0違背 0 0 0 0 1 0 1 0

名詞 區別 7 0 0 15 22 51 1 11分支 0 1 0 2 1 0 0 0

形容詞

特別 0 0 0 0 0 2 0 11其他 1 0 0 24 58 65 130 528

副詞另外 0 3 0 34 51 57 85 11各自 0 0 0 6 1 0 0 0不要 0 0 0 0 0 049 0 594

48 在中研院漢籍電子文獻中檢索到 1510筆語料,今僅取其中 248筆語料。49有權。今學者且須理會正。如娶妻必告父母,學者所當守。至於不告而娶,自是不是,到此處別理會

91

Page 95: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

小 計 : 單 位(筆) 11 6 2 108 182 247 443 1233

表(4)「別」字歷代用法的統計於表(4)中,我們清楚發現漢代是一個實詞與虛詞相互消長的關鍵時期,不可諱言的,漢代也是實詞虛化的分水嶺,大抵「別」的語義基礎在漢代已經發展完備。參考書目1. 增修辭源 台灣商務印書館發行2. 中文詞源 藍燈文化事業股份有限公司3. 許世瑛編著 1975 常用虛詞用法淺釋 復興書局4. 林尹高明主編 中文大辭典 1980 中國文化大學出版部 臺北5. 于右任編 虛字使用通釋 1985 惠文出版社6. 周緒全、王澄愚編著 1991 古漢語常用源流辭典 重慶出版社7. 漢語大辭典 1994 漢語大辭典出版社 上海8. 北京大學中文系 1955、1957級語言班編 1996 現代漢語虛詞例釋 商務印書館9. 張斌主編 2001 現代漢語虛詞辭典 商務印書館 北京10. 呂淑湘 2002 現代漢語八百詞 商務印書館 北京11. 太田辰夫 1987 中國語歷史文法 蔣紹愚、徐昌華譯 北京大學出版社12. 江藍生 1991 禁止詞“別”考源 語文研究13. 劉堅、曹廣順、吳福祥 1995 論誘發漢語詞彙語法化的若干要素 中國語文14. 張誼生 2000 論與漢語副詞相關的虛化機制—兼論現代漢語副詞的性質、分類與範圍 中國語文

15. 高增霞 2003 漢語擔心—認識情態詞“怕”“看”“別”的語法化 中國社會科學院研究生院學報

16. 張博 2003 漢語實詞相應虛化的語義條件 中國語言學報

如事君匡救其惡,是正理。(朱子語類/卷第十五 大學二/經下)此句之「別」疑為否定副詞「不要」,唯在摘取的 283筆語料當中僅出現一例,尚有待全面之檢索才能無誤確定此句「別」之詞義。

92

Page 96: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Using WordNet and SUMO to Determine Source Domains of Conceptual Metaphors

Siaw-Fong ChungGraduate Institute of

Linguistics National Taiwan University

No. 1, Sec. 4, Roosevelt RoadTaipei, 106 Taiwan

[email protected]

Kathleen AhrensGraduate Institute of Linguistics

National Taiwan UniversityNo. 1, Sec. 4, Roosevelt Road

Taipei, 106 [email protected]

Chu-Ren HuangGraduate Institute of Linguistics

Academia SinicaNo.128, Sec. 2, Academia

Road, Nankang Taipei, 115 Taiwan

[email protected]

Abstract In previous work by Ahrens et al. (2003) and Chung et al. (2003a, 2003b), the extraction of conceptual metaphors was carried out based on prototypicality. Based on this view, the most prototypical mappings of source to target domains in the corpora help determining the Mapping Principle of the conceptual metaphors (Ahrens 2002). However, this approach is limited in the aspect that the identification of source domains must be manually determined. Therefore, the purpose of this paper is to suggest a way to reduce the manual work required for the determination of the source domain as well as to operationalize the steps to define different source domains. This paper incorporates the WordNet lexical representation and SUMO ontology in the identification of the related nodes to a group of linguistics expressions. The lexicons in the WordNet and SUMO are linked through works such as Niles and Pease (2003).

1 Introduction

The Conceptual Mapping (CM) Model (Ahrens 2002) proposed that a specific Mapping Principle can be generated through observing the source and target domain mappings in conceptual metaphors. For instance, the list of words in Table 1 below were suggested by Ahrens, Chung & Huang (2003) to be related to the source domain of PERSON. They extracted a total of 2000 instances from the Academic Sinica Balanced Corpus of Mandarin Chinese. From these instances, they extracted metaphorical expressions through observing the source-target domain mappings. For instance, chengzhang ‘growth’ below shows a mapping between the concrete source domain of PERSON and the abstract domain of ECONOMY. The analyses were carried out manually.

Table 1: ECONOMY IS A PERSON 成長 (growth) 衰退 (dysfunction) 成長期 (growth period) 病狀 (symptoms) 命脈 (lifeblood) 衰頹(weakness and degeneration) 成長 (grow) 衰退 (to become dysfunctional) 復甦 (regain consciousness) 惡化 (deteriorate) 恢復 (recover)

Ahrens, Chung and Huang (2003) then counted the number of instances of which these expressions occurred. Based on the most frequent (i.e., the most prototypical) mappings, the Mapping Principles (MP) were suggested. For instance, the MP for ECONOMY IS A PERSON in Table 1 is ‘economy is person because people have a life cycle and economy has growth cycle.’ In this paper, we further extend the work of Ahrens et al. (2003) but minimize the manual work required when determining the source domains. We suggest that the identification of source domains can be solidified through examining a) the WordNet senses and explanations

93

Page 97: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

and b) the SUMO nodes and their definitions. By doing so, we propose a way to operationalize the steps in defining source domains. This extension of the CM Model is aided by studies linking the lexicon in WordNet and SUMO such as in Niles and Pease (2003). After the links were established, the ontological nodes in SUMO were provided hyperlinks to their semantic definitions by WordNet. Also facilitating this analysis is the work of Huang (2004) in which all the nodes in SUMO are available in both Chinese and English through the Academia Sinica Bilingual Ontological WordNet (BOW; available at http://bow.sinica.edu.tw).

2 Methodology

Our methodology involves two major steps, i.e., extracting metaphorical instances from the corpus and examining the WordNet explanation and SUMO nodes. For the corpus search, a total of 1062 instances of shiye事業 ‘career’ were extracted from the Academia Balance Corpus of Mandarin Chinese. All metaphorical instances were manually marked. A metaphorical mapping occurred when there was a mapping from the source (such as PERSON) to the target domain (CAREER). For instance, in the phrase shiye youhuan yishi 事業憂患意識 ‘ the worried consciousness of career,’ the abstract target domain CAREER is mapped onto the consciousness of PERSON. What makes this paper different is that we did not categorize all the expressions according to source domains at this stage. We used WordNet and SUMO instead to determine the categorization of the metaphorical expressions found.

3 Results

For the A total of 59 types (84 tokens) of metaphorical expressions were found. These instances are listed in Table 2 on the next page. Upon keying in the target word such as yishi ‘consciousness’ (highlighted in the Table 2) into Sinica BOW, there were a list of senses suggested by the WordNet lexical knowledge database. The most concrete sense was pulled out from the list to further search for their related SUMO nodes (which were provided after the explanation of each WordNet sense).

Table 2 : Metaphorical expressions related to shiye ‘career’Conceptual Metaphors Tokens Conceptual

Metaphors Tokens Conceptual Metaphors Tokens

新創 1 紮實 1 溶進...之中 1

創造 5 起(步) 1 收起來 1

開創 1 (走)向 2 投身...中 1

共創 1 第一(步) 1 基礎 5

再創 2 闖 2 追求 4

挑戰 1 關 5 風險 1

策略 2 關卡 1 供輸 1

趨勢 3 過程 1 賭 1

(幕後)功臣 1 前途 2 投向 1

異(軍)突起 1 前程 1 投下 1

改革 1 競爭 1 衝刺 1

兵符 1 抗爭 1 角色 1

憂患意識 1 打拚 1 大舞台 2

搖身一變 1 掙 1 階梯 1

創傷 1 拼 1 登上...位子 1

94

Page 98: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

躍進 1 軌道 1 投入 1

放手 1 轟轟烈烈 2 玩掉 1

生命力 1 走(上) 1 包袱 1

壯大 1 火車頭 1 開發 1

成長 1 退出 2

Table 3 shows the example of yishi ‘consciousness’ as well as other examples taken from Table 2 in which their related WordNet senses and SUMO nodes are listed.

Table 3: Defining Source Domains through WordNet and SUMOExpressions WordNet

Senses Explanations SUMO Nodes

憂患(意識) 1: consciousness an alert cognitive state in which you are aware of yourself and your situation Awake ( 清醒 )

挑戰 4: challenge a call to engage in a contest or fight Requesting ( 請求 )

策略 6: ambush the act of concealing yourself and lying in wait to attack by surprise

ViolentContest( 暴力性的競爭 )

基礎 1: foundation lowest supporting part of a structure Region( 區域 ) 軌道 2: track a pair of parallel rails providing a

runway for wheelsTransportationDevice( 運輸工具 )

For the expressions in Table 3, we first searched for their WordNet senses and examined their WordNet explanations. The shaded words in Table 3 above provided the cue to which source domains these expressions belong. For instance, the concept of cognitive state might refer to a PERSON; contest and attack to WAR whereas rails and wheels to VEHICLE. However, the sorting of source domains using the WordNet alone was not enough. For instance, the WordNet explanation regarding jichu ‘foundation’基礎 in Table 2 yielded the idea structure. An analysis using the WordNet alone cannot identify whether it is referring to the structure of an artifact or any other object. Hence, the second step involved examining the related SUMO nodes. All WordNet senses are linked to the related SUMO nodes, which are listed on the rightmost column of Table 2. Through examining the SUMO nodes, we decide whether a group of expressions belongs to the same concept, i.e, the concept of the source domain onto which the target term CAREER was mapped. In order to display more specifically which ontological nodes correspond to one another, this paper shows the mechanisms through using the instances from CAREER IS A PERSON

4 Defining the Source Domain of PERSON

In this section, we unfold how the source domain of PERSON was obtained. The expressions in (1) below were found related to the source domain of PERSON.

(1) 憂患(意識) ‘ the worried consciousness’創傷 ‘wound’放手 ‘let go’生命力 ‘the force to live’成長 ‘grow’起(步) ‘start a step’(走)向 ‘walk towards’第一(步) ‘first step’

For these expressions, the search in WordNet and SUMO produced the explanations in Table 4:

95

Page 99: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Table 4: CAREER IS A PERSON and its related WordNet senses and SUMO NodesExpressions WordNet

Senses Explanations SUMO Nodes

憂患(意識) 1: consciousness an alert cognitive state in which you are aware of yourself and your situation Awake ( 清醒 )

創傷 1: trauma an emotional wound or shock often having long-lasting effects EmotionalState ( 情緒狀態 )

放手 1: let_go be relaxed EmotionalState ( 情緒狀態 )

生命力 1: life_form any living entity Organism ( 生物體 )

成長 3: mature develop and reach maturity; undergo maturation Growth ( 生長 )

起(步) 1: pace a step in walking or running Walking ( 行走 )

(走)向 1: foot informal or colloquial synonyms of 'walk' Walking ( 行走 )

第一(步) 1: pace a step in walking or running Walking( 行走 )

From Table 3, all the metaphorical expressions are related to the following five nodes:

(2) (a) Awake ( 清醒 ) (b) EmotionalState ( 情緒狀態 ) (c) Organism ( 生物體 ) (d) Growth ( 生長 ) (e) Walking ( 行走 )

Although no obvious pattern was found among the nodes in (2), when their definitions were searched for in SUMO, these nodes showed linkage to one another, as in (3). The linking concept, i.e., ‘Organism,’ is shaded in all the definitions in (3).

(3) (a) Awake: Attribute applies to Organisms that are neither Unconscious nor Asleep.(b) EmotionalState: The Class of Attributes that denote emotional states of Organisms.

(c) Organism: Generally, a living individual, including all Plants and Animals. (d) Growth: The Process of biological development in which an Organism or part of

an Organism changes its form or its size.

(e) Walking : Any BodyMotion which is accomplished by means of the legs of an Organism on

land for the purpose of moving from one point to another.

From investigating the SUMO definitions, all the expressions in Table 4 were found related to ‘Organism’ in one way or another. Among these five SUMO nodes in (3), 3(a) and (b) are related to the upper node of ‘State of mind’ or a psychological process. 3(c) and (d) are linked to the ‘Organism’ and the ‘Organism Process’ or biological process. ‘Walking’ in which (3e) is related ‘Body motion’ in SUMO. What can be concluded from this discussion is that there were overlaps between all the expressions in Table 4 which were identified through the CM Model. The linking concept between them is ‘Organism.’ However, the concept of ‘Organism’ is too broad because it comprises all living things, including all plants and animals. For the conceptual metaphors, we are looking for source domains that are in contact with human conceptualization, i.e., more concrete concepts which human can easily recall when describing the abstract idea. Furthermore, we are not only looking for any organisms which have the abilities to grow and to walk, but one with a state of mind and emotional state. Based on these attributes, we rule out the possibility of PLANT and ANIMAL, but suggested that these expressions are related

96

Page 100: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

to HUMAN or PERSON.

5 PERSON in other Metaphor

In order to verify our findings regarding CAREER IS A PERSON, this paper also carried out the same procedures with the target domain of CULTURE. A total of 2000 instances was extracted from the Academia Balance Corpus of Mandarin Chinese. From these 2000 instances, 335 metaphorical expressions were extracted manually. From these 335 instances, 88 were found related to the source domain of PERSON. These instances constituted the following related WordNet senses and SUMO nodes (See Table 5).

Table 5: CULTURE IS A PERSON and its related WordNet senses and SUMO NodesExpressions WordNet

Senses Explanations SUMO Nodes

生命 3: life the organic phenomenon that distinguishes living organisms from nonliving ones Living ( 活的 )

思想 2: thought the organized beliefs of a period or group or individual Proposition ( 命題 )

成長 6: growth

the process of an individual organism growing organically; a purely biological unfolding of events involved in an organism changing gradually from a simple to a more complex level

Growth ( 生長 )

反省 3: introspectiveness thoughtfulness about your own situation and feelings

TraitAttribute( 人格特質 )

生命力 1: animation the property of being able to survive and grow Living ( 活的 )

氣質 1: temperamentexcessive emotionalism or irritability and excitability (especially when displayed openly)

PsychologicalAttribute( 心理屬性 )

命脈 1: lifeblood the blood considered as the seat of vitality Blood ( 血液 )

心靈 2: soul the immaterial part of a person; the actuating cause of an individual life Human ( 人類 )

(走) 向(v) 1: foot informal or colloquial synonyms of 'walk' " Walking ( 行走 )

決定 3: decide reach, make, or come to a decision about something

IntentionalPsychologicalProcess( 意向性心理歷程 )

行為 4: behavior manner of acting or conducting oneself BodyMotion ( 身體的移動 )

滅絕 1: die_out become extinct Death ( 死亡 )

From Table 5, the SUMO nodes in the rightmost columns were found related to HUMAN (or PERSON). These nodes have the following definitions in SUMO, all of which are related to Organism in one way or another:

(4) (a) Living ( 活的 ) : This Attribute applies to Organisms that are alive.(b) Proposition ( 命題 ) :Propositions are Abstract entities that express a complete

thought or a set of such thoughts.(c) Growth ( 生長 ) : The Process of biological development in which an Organism or

part of an Organism changes its form or its size. (d) TraitAttribute ( 人格特質 ) : Attributes that indicate the behavior/personality traits

97

Page 101: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

of an Organism.(e) PsychologicalAttribute ( 心理屬性 ) : Attributes that characterize the mental or

behavioral life of an Organism.(f) Blood ( 血液 ) : A fluid present in Animals that transports Nutrients to and waste

products away from various BodyParts.

(g) Human( 人類 ) : Modern man, the only remaining species of the Homo genus.(h) Walking( 行走 ) : Any BodyMotion which is accomplished by means of the legs of

an Organism on land for the purpose of moving from one point to another.

(i) IntentionalPsychologicalProcess( 意向性心理歷程 ) : An IntentionalProcess that can be realized entirely within the mind or brain of an Organism.

(j) BodyMotion( 身體的移動 ) : Any Motion where the agent is an Organism and the patient is a BodyPart.

(k) Death( 死亡 ) : The Process of dying.

The target domain of CULTURE produced more instances than the CAREER metaphor. Therefore, a comparison can be made. From the information in Table 5, the first decision that the source domain could be PERSON was observed through the SUMO nodes, all of which can be related to HUMAN. The further investigation of their SUMO definitions in (4) found that these nodes are related to ‘Organism’ by possessing ‘thoughts,’ ‘biological development,’ ‘animals,’ ‘body parts,’ ‘modern man,’ ‘Homo genus,’ ‘body motion,’ ‘mind or brain’ and ‘the process of dying.’ In other words, the analysis showed that there is a connectivity from the beginning linguistic expressions (metaphorical instances) to the WordNet explanations and SUMO nodes (Table 5) and lastly to the explanation of the SUMO nodes (example (4) above). The connectivity can be drawn by first defining the linguistic expressions within a source domain, as shown in Figure 1:

PERSON Organism CULTURE 反省 TraitAttribute( 人格特質 )

生命 Living( 活的 ) 生產力 BiologicalAttribute( 生物屬性 )

成長 氣質 PsychologicalAttribute( 心理屬 性 ) 意識 (走)向 生命力 Growth( 生長 ) 創傷 Walking( 行走 ) Organism( 生物體 ) CAREER

98

Page 102: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

EmotionalState( 情緒狀 態 )

(a) (b)

Figure 1: Representations of the Metaphorical Instances According to Source and Target Domians and their Relationship with WordNet and SUMO

The overlapping area between CULTURE and CAREER in Figure 1(a) constitutes lexical items that are more lexicalized as they can apply to more target domains than the other items. In other words, lexical items within several overlapping source domains (such as chengzhang 成長 ‘growth’ and zouxiang (走)向 ‘walk towards’) tend to be lexicalized faster than the other lexical items. All the lexical items in 1(a) can be mapped onto the ontological concepts of SUMO in 1(b).

6 Conclusion

The results from the WordNet lexical representation and SUMO searches prove two major points: First, the manual analysis made using the CM Model in previous studies can be made more automatized. Second, there is conceptual connectivity between the expressions found within a source domain. This connectivity can be established through observing the overlapped concepts in all the expressions within the same source domain. The approach proposed by this paper takes a linguistic perspective in which instances are first analyzed based on a linguistic model of metaphors. In order to computerized the process of extracting source domain from the instances, a large amount of data has to be collected. The project has covered numerous source domains with corpora instances of metaphorical examples. When these instances are fully coded with the linguistic information, a computerized program can be designed for the extraction purposes. From the perspective of the linguists, this analysis provides the evidence to pinpoint at which level of knowledge conceptual metaphors occur. From the perspective of anthropology and language processing, this study provides the linguistic evidence to understand the mental representation of human when expressing metaphors.

AcknowledgementsWe would like to thank the CLSW-5 reviewers for their comments on this paper.

References Ahrens, Kathleen. 2002. “When Love is Not Digested: Underlying Reasons for Source to Target Domain

Pairings in the Contemporary Theory of Metaphor.” In Yuchau E. Hsiao (ed.). Proceedings of the First Cognitive Linguistics Conference. Cheng-Chi University, 273-302.

Ahrens, Kathleen, Chung Siaw-Fong, Huang Chu-Ren. 2003. “Conceptual Metaphors: Ontology-based Representation and Corpora Driven Mapping Principles.” In the Proceedings of the ACL Workshop on the Lexicon and Figurative Language. pp. 35-41.

Chung, Siaw Fong, Kathleen Ahrens and Huang Chu-Ren. 2003a. “ECONOMY IS A PERSON: A Chinese-English Corpora and Ontological-based Comparison Using the Conceptual Mapping Model.” Proceedings of the 15th ROCLING Conference, National Tsing-Hwa University, Taiwan.

Chung, Siaw Fong, Kathleen Ahrens and Huang Chu-Ren. 2003b. “ECONOMY IS A TRANSPORTATION_DEVICE: Contrastive Representation of Source Domain Knowledge in English and Chinese.” Proceedings of the special session of UONLP, 2003 International Conference on Natural Language Processing and Knowledge Engineering (NLP-KE), Beijing.

99

Page 103: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Huang, Chu-Ren, Ru-Ying Chang, Shiang-Bin Lee. 2004 “Sinica BOW (Bilingual Ontological Wordnet): Integration of Bilingual WordNet and SUMO.” To appear in the Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004). Lisbon. Portugal. 26-28 May, 2004.

Lakoff, George and Mark Johnson. 1980. Metaphors We Live By. Chicago: The University of Chicago Press. Niles, I. and Pease, A. 2003 “Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper

Merged Ontology.”  In Proceedings of the 2003 International Conference on Information and Knowledge Engineering,, Las Vegas, Nevada.

100

Page 104: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

From Lexical Semantics to Conceptual Metaphors: Mapping Principle Verification with WordNet and SUMO

Kathleen AhrensNational Taiwan University

No. 1, Sec. 4, Roosevelt RoadTaipei, 106 [email protected]

Siaw-Fong ChungNational Taiwan University

No. 1, Sec. 4, Roosevelt RoadTaipei, 106 Taiwan

[email protected]

Chu-Ren HuangAcademia Sinica

No.128, Sec. 2, Academia Road, Nankang

Taipei, 115 Taiwan [email protected]

Abstract The goal of this paper is to further develop methods for verifying Mapping Principles between source and target domain pairings of conceptual metaphors. Previous work (Ahrens, Chung & Huang, 2003) integrated the Conceptual Mapping Model with an ontology-based knowledge representation (i.e. SUMO) in order to demonstrate that conceptual metaphor analysis could be restricted and eventually, automated. However, that study relied on an operational definition that required a large number of instances of source-target domain pairings in order to determine the most frequent mapping. In this study, we further operationalize the frequency-based definition and examine the possibility of using information derived from WordNet and SUMO to verify Mapping Principles for source-target domain pairings that do not occur frequently enough (if at all) in a corpus.

1 Introduction

Lexical resources are central to any natural language processing system and the plethora of multi-lingual resources such as EuroWordNet (EWN) and Academia Sinica’s Bilingual Ontological WordNet (BOW) are based firmly in the lexicon. Recent work in figurative language processing, however, has pointed out shortcomings of these resources for processing of conceptual metaphor. Veale (2003), for example, points out that determining the aptness is dependent upon parameters that are, as yet, hidden. Lonneker (2003) decries the lack of relationship between literal and figurative synsets in WordNet, while Alonge and Castelli (2003) suggest that the EWN Top Ontology needs to be extended with more concepts in order to deal with figurative language, since at this point in time it only notes general semantic distinctions. Ahrens (2002), taking an intuition-based approach, proposed that the linguistic expressions that are used metaphorically can be analyzed in terms of the entities, qualities and functions that can map between a source and a target domain. When these conventionalized metaphorical expressions have been analyzed, an underlying reason for these mappings can then be postulated. This study relied on native speaker intuition regarding what is mapped conceptually from the source to the target domain. For example, in the four examples from the metaphor LOVE IS PLANT, given below, the Mapping Principle (MP) of “Love is understood as plant because plants involve physical growth and love involves emotional growth” was extracted based on the fact that all the examples in some way had to do with growth.

1. (a) liang ren de ai miao zuijin cai gang mengya two people MOD love seedling lately just recently sprout ‘Their love just begins to sprout lately.’

(b) wo dui tade ai-yi jianjian zizhang I for his love gradually grow ‘My love for him has grown gradually.’

101

Page 105: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(c) aiqing xuyao xinqin de quanqai love need industriously water

‘Love needs to be watered industriously.’

Ahrens, Chung & Huang (2003), followed up on this study and presented a corpus-based approach to determining the systematicity between source and target domain pairings (i.e. Mapping Principles (MPs)). They propose that each source-target domain pairing will have a prototypical instance of mapping as indicated by a lexical item that is frequently mapped, as compared with other mappings. In addition they use the Suggested-Upper-Merged-Ontology (SUMO) to delimit the source domain knowledge. SUMO has the advantages of being able to be used to infer knowledge through automatic reasoning as well as to constrain the falsifiability of the MP. For example, when they looked at the metaphor ECONOMY IS A BUILDING, they find 102 instances (in their randomly extracted corpora of 2000 instances from Sinica Corpus) of this source-target domain pairing. Of these instances, 39 are mapped with the lexical item jianshe ‘construction’, and the suggested Mapping Principle is therefore: Economy is a building because buildings involve a (physical) structure and economy involves an (abstract) structure (p. 38).” However, clear numerical criteria for determining the minimal number of tokens necessary, as well as the percentage of tokens necessary to reach consensus for a mapping principle was not established. In addition, if enough conventional metaphor examples cannot be found in the corpora, there is currently no way to verify the intuition-based mapping principle. Thus, the determination of mapping principles by means of frequency needs to be researched further. In this paper, then, we will create guidelines for determining when MPs can be established on the basis of frequency, as well as extend Ahrens et al.’s (2003) scope and examine the possibility of using information derived from WordNet and SUMO to verify MPs for source-target domain pairings that do not occur frequently enough in a corpus.

2 Using Frequency to Verify Mapping Principles

In this section, we attempt to determine frequency criteria for verifying MPs (Table 1). Two thousand examples were extracted for ECONOMY metaphors from the Academia Sinica Balanced Corpus (http://www.sinica.edu.tw/SinicaCorpus/), and then manually sorted into metaphorical and literal examples. In addition, we also look at data on STOCK MARKET extracted from on-line newspapers in Taiwan (Chung, Ahrens & Sung 2003).

Table 1: Total Number of Metaphorical Instances Extracted from 2000 SamplesMetaphor Total # of

Tokens Most Frequent Percentage MPs matchECONOMY IS A PERSON 121 88 72% YesECONOMY IS BUILDING 102 39 38% YesSTOCK MARKET IS OCEAN WATER 58 53 91.00% YesECONOMY IS COMPETITION 40 14 35% YesSTOCK MARKET IS WAR 25 2 8% Not clearSTOCK MARKET IS A BALL 24 17 71.00% YesECONOMY IS WAR 23 5 21% Not clearSTOCK MARKET IS A PERSON 19 2 10% Not clear

STOCK MARKET IS EARTHQUAKE 17 16 94.12% YesSTOCK MARKET IS DISASTER 16 11 68.75% YesECONOMY AS JOURNEY 15 5 33% YesECONOMY IS AN AEROPLANE 10 8 80% Yes

102

Page 106: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

The second column in Table 1 lists the total number of metaphorical examples found for each source domain. Next, examples with the same lexical item were counted. For example, in ECONOMY IS A PERSON, ‘chengzhang’ growth is found 88 times or in 72% of the data. In ECONOMY IS A BUILDING, ‘jianshe’ construction occurs 39 times (or in 38% of the data). In both these cases (and in all the shaded cases in the table) the most frequent lexical item is related to what was originally postulated as a Mapping Principle on the basis of linguistic intuition. However, in the three non-shaded cases, the relationship between the frequency of the lexical items and the Mapping Principle is not straightforward. For example, in STOCK MARKET IS WAR, no one lexical item receives priority in terms of frequency. In ECONOMY IS WAR, there are five instances of ‘gua-shuai’ to take position of the commander in the army, but this does not clearly relate to the MP of “Economy is war because war involves a violent contest for territorial gain and the economy involves a vigorous contest for financial gain.” Therefore, we propose that the following two conditions be met for a frequency-based account to be valid: First, at least 10 tokens must found and, in addition, at least 30% of these tokens must be of one particular lexical item.

3 Using WordNet and SUMO to Verify Mapping Principles

In the cases where there are fewer than 10 instances found in the corpora, or in cases where the percentage of a single lexical item is less than 3o%, we need to find another method to verify MPs. Our goal is aided by studies linking the lexicon in WordNet and SUMO (http://ontology.teknowledge.com, Niles & Pease, 2003). After the links are established, the ontological nodes in SUMO provide hyperlinks to their semantic definitions by WordNet. Also facilitating this analysis is the work of Huang (2004) in which all the nodes in SUMO are available in both Chinese and English through the Academia Sinica Bilingual Ontological WordNet (http://bow.sinica.edu.tw). We examine two instances here: LOVE IS A PLANT (Table 2) and LOVE IS FOOD (Table 3).

Table 2: LOVE IS PLANT Definitions from WordNet and SUMOItems WordNet

Senses Explanation SUMO Category

萌芽 2: sprout grow sprouts, of a plant Growth ( 生長 )

苗 1: seedling young plant or tree grown from a seed FloweringPlant ( 開花植物 )

長 1: grow come to have, of physical features and attributes Growth ( 生長 )

灌溉 1: water pour water on Wetting( 濕潤 ) 開花 1: bloom produce or yield flowers Growth ( 生長 )

Ahrens (2002) proposes the following MP for LOVE IS A PLANT: “Love is understood as plant because plants involve physical growth and love involves emotional growth.” Since corpora searches do not come up with any instances of this metaphor, it is difficult to ascertain the validity of this principle. We therefore propose looking at the 1) WordNet sense, 2) the WordNet definition, and the 3) SUMO node for the WordNet sense (Niles & Pease 2003) for the intuition-based examples in order to see if there are any semantic overlaps within, or between, these three types of information. Table 2 shows that the word “Growth” appears three times in the SUMO category, out of the five examples. “Grow” also appears three times in the sense and definition columns from WordNet. Thus, the combination of WordNet information and the SUMO representation agrees with the MP originally given. In another example that has less than ten corpora examples, LOVE IS FOOD (Table 3), both the WordNet information and the SUMO information again matches up with the Mapping Principle suggested in Ahrens (2002), that “Love is understood as food because food

103

Page 107: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

has different tastes as love involves different feelings.” Table 3 shows that taste is mentioned five times in the WordNet sense and definition, and three out of four times in the SUMO category. Thus, determining the number of overlapping lexical items in WordNet definitions and SUMO categories to verify Mapping Principles seems to hold promise for instances where there are not enough exemplars to make a judgment based on frequency alone.

Table 3: LOVE IS FOOD: Definitions from WordNet and SUMOItems WordNet

Senses Explanation SUMO Nodes

滋味 1: taste distinguishing a taste by means of the taste buds Tasting ( 嚐 )

苦 1: bitter one of the four basic taste sensations; sharp and disagreeable; like the taste of quinine

TasteAttribute ( 味覺屬性 )

味道 1: taste distinguishing a taste by means of the taste buds Tasting ( 嚐 )

吃 1: eating the act of consuming food Eating( 吃 )

4 Testing the Verification Principle

In Section 2, we pointed out that there were three instances in the STOCK MARKET and ECONOMY metaphors that did not meet the 30% criteria. We look at these three metaphors below in order to determine if WN and SUMO can be used to verify the MPs.

Table 4: ECONOMY IS WAR: Definitions from WordNet and SUMOItems WordNet

Senses Explanation SUMO Nodes侵略 4:

invasion the act of invading; the act of an army that invades for conquest or plunder

ViolentContest ( 暴力性的競爭 ) 戰 1: war the waging of armed conflict against an

enemy War ( 戰爭 ) 老兵 1: veteran a serviceman who has seen considerable

active serviceSocialRole ( 社會角色 ) 攻防戰 x策略 6:

ambush the act of concealing yourself and lying in wait to attack by surprise

ViolentContest ( 暴力性的競爭 ) 大權 x千瘡百孔 全力(衝刺) x

掛帥 x大權…操在…的手上 x

犧牲 1: sacrifice kill or destroy Killing( 殺害 )

犧牲品 1: sacrifice

personnel that are sacrificed (e.g., surrendered or lost in order to gain an objective) Human( 人類 )

Table 4 shows that there are three instances of the concept of ‘Invasion’ found in the WN definitions, but they are all in the same definition. An alternate hypothesis is that ‘ViolentContest’ is the critical issue since it occurs in the SUMO nodes of two different words. (The blank cells indicate that this word was not found in BOW and so does not have a

104

Page 108: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

listed sense or associated SUMO node.) In addition, Ahrens et al. (2003) noted that ECONOMY IS WAR is a subset of the ECONOMY IS CONTEST metaphor, with the MP of ‘Economy is war because war involves a violent contest for territorial gain and the economy involves a vigorous contest for financial gain.’ Moreover, the SUMO node of WAR is linked to ViolentContest. This example demonstrates that not only do we need to have an expansion of the SinicaBow to link to more items in WordNet, we also need to expand our notion of semantic space to include related Sumo nodes. In sum, our current analysis suggests that the previous MP was correct. Table 5 gives instances of STOCK MARKET IS WAR. Although different lexical items are mapped as compared with ECONOMY IS WAR, the mapping of the concept of ‘contest’ is the same.

105

Page 109: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Table 5: STOCK MARKET IS WAR: Definitions from WordNet and SUMOItems WordNet

Senses Explanation SUMO Nodes

戰 1: war the waging of armed conflict against an enemy War ( 戰爭 )

策略 6: ambush the act of concealing yourself and lying in wait to attack by surprise

ViolentContest ( 暴力性的競爭 ) 焦土 x

地雷 1: land_mine

an explosive mine hidden underground; explodes when stepped on or driven over Weapon ( 武器 )

攻勢 x

關卡 1: checkpoint

a place (as at a frontier) where travellers are stopped for inspection and clearance LandArea ( 陸地 )

大關 x防衛 2: defend be on the defensive; act against an attack Contest ( 競爭 ) 功臣 x全軍覆沒 x殺空 x撤出 x殺出 x

上(攻) 1: attack take the initiative and go on the offensive: "The Serbs attacked the village at night" Contest ( 競爭 )

挑戰 4: challenge a call to engage in a contest or fight Requesting ( 請求 )

撤離 1: evacuation

the act of evacuating; leaving a place in an orderly fashion; esp. for protection Motion ( 移動 )

Thus, the proposed MP is the same; ‘Stock market is war because war involves a violent contest for territorial gain and the stock market involves a vigorous contest for financial gain.’ Note that this does not violate the Mapping Principle Constraint proposed in Ahrens (2002) since two different target domains are recruiting the same source domain for the same reason. The Mapping Principle Constraint says that ‘A target domain will select only source domains that involve unique mapping principles.’ This constraint applies to the source domains that are selected by a single target domain.

The last metaphor in our study that does not meet the frequency requirement of 30% is STOCK MARKET IS A PERSON. Although no one lexeme predominates, variants of the word ‘life’ occur several times. It is interesting to note that although in the previous examples a case could be made for looking solely at the SUMO nodes (cf. Tables 2-5 above), in this instance, only the words used in the WN definition are found to coalesce around a concept. In this instance, we suggest that the MP is: Stock market is a person because people have varying degrees of physical activity (liveliness) and the stock market has varying degrees of financial activity. It may also be beneficial to look at whether analyzing the relationship between the words given in the definitions (i.e. if some words are near-synonyms) would aid in determining the underlying reason for the source-target domain pairing. However, another possibility is that this source domain is too broad or not clearly delimited. In fact, one step that needs to be taken in this regard is to incorporate the steps that Chung, Ahrens and Huang (2004) take to delimit source domains before analyzing MPs.

106

Page 110: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Table 6: STOCK MARKET IS A PERSON: Definitions from WordNet and SUMOItems WordNet

Senses Explanation SUMO Nodes

活力 4: pep liveliness and energy BiologicalAttribute ( 生 物屬性 ) 創傷 2: wound any break in the skin or an organ caused by

violence or surgical incision Injuring( 傷害 )

瀕 (死) 的 2: die pass from physical life and lose all bodily attributes and functions necessary to sustain life

Death( 死亡 )

敏感的 x疲軟 x

激勵 12: spur give heart or courage to

IntentionalPsychological Process ( 意向性心理歷程 ) 輸血 x

起死回生 1: resurrect cause to become alive again OrganismProcess ( 生命 歷程 )

變 (臉) 1: face the front of the head from the forehead to the chin and ear to ear BodyPart ( 軀體部件 )

應聲倒地, 應聲而倒 x

復甦 1: come_to

return to consciousness: "The patient came to quickly"

BiologicalProcess ( 生物 歷程 ) 失血 x

5 Conclusion

We propose the following steps to determine Mapping Principles: First, if the number of tokens of a conceptual metaphor is greater than 10, and the highest number of tokens mapped is greater than 30% of all tokens, then this lexical item is the basis for the MP. Second, if either the first or second criteria are not met, determine the sense of each item in WordNet (extracted through SinicaBow) and the associated SUMO category for that particular sense. Next calculate the number of times that a particular lexical item is used in the WN sense, explanation, or linked SUMO category and determine if that lexical item is related to what intuitively seems to be mapped between the source and target domains in the example sentences. Further research will focus on examining whether it is necessary to extend the parameters of the second step to include synonyms, thus expanding the semantic space by which a MP can be determined. In addition, the biggest hurdle this type of account faces is that the WN sense must currently be stipulated manually, although we hope that the implementation of semantic tagging can overcome this problem in the future. We hope that the line of research discussed herein will stimulate more research in how a computational approach can help set parameters for determining metaphorical sense and point the way to the application of creating a systematic relationship between literal and figurative synsets in WordNet.

AcknowledgementsWe would like to thank the CLSW-5 reviewers for their comments on this paper and NSC grant #NSC92-2411-H-002-076-ME for supporting the research discussed herein. Any remaining errors are the sole responsibility of the authors.

107

Page 111: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

References Ahrens, Kathleen. 2002. “When Love is Not Digested: Underlying Reasons for Source to Target Domain

Pairings in the Contemporary Theory of Metaphor.” In Yuchau E. Hsiao (ed.). Proceedings of the First Cognitive Linguistics Conference. Cheng-Chi University, 273-302.

Ahrens, Kathleen, Chung Siaw-Fong, Huang Chu-Ren. 2003. “Conceptual Metaphors: Ontology-based Representation and Corpora Driven Mapping Principles.” In Proceedings of the ACL Workshop on the Lexicon & Figurative Language. pp. 35-41.

Alonge, Antonietta & Margherita Castelli. 2003. “Encoding Information on Metaphoric Expressions in WordNet-like Resources.” In Proceedings of the ACL Workshop on the Lexicon and Figurative Language. pp. 10-17.

Chung, Siaw-Fong, Kathleen Ahrens and Chu-Ren Huang. 2004. “Using WordNet and SUMO to Determine Source Domains of Conceptual Metaphors.” In Proceedings of the 5th Chinese Lexical Semantics Workshop (CLSW-5), Singapore. June 14-15.

Chung, Siaw Fong, Kathleen Ahrens and Sung Yahui. 2003. “STOCK MARKETS AS OCEAN WATER: A Corpus-based, Comparative Study in Mandarin Chinese, English and Spanish.” In the Proceedings of the 17th Pacific Asia Conference on Language, Information and Computation (PACLIC), Singapore. pp. 124-133.

Lonneker, Birte. 2003. “Is There a Way to Represent Metaphors in WordNets? Insights from the Hamburg Metaphor Database.” In the Proceedings of the ACL Workshop on the Lexicon and Figurative Language. pp. 18-26.

Huang, Chu-Ren, Chang, Ru-Yng, Lee, Shiang-Bin. (2004) Sinica BOW (Bilingual Ontological Wordnet): Integration of Bilingual WordNet and SUMO". To be presented at the 4th International Conference on Language Resources and Evaluation (LREC2004). Lisbon. Portugal. May 26-28.

Niles, I. and Pease, A. 2003 “Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged Ontology.”  In Proceedings of the 2003 International Conference on Information and Knowledge Engineering, Las Vegas, Nevada.

Veale, Tony. 2003. “Systematicity and the Lexicon in Creative Metaphor.” In Proceedings of the ACL Workshop on the Lexicon & Figurative Language. pp. 27-34.

108

Page 112: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

基于现代汉语语法信息词典的词语情感评价研究王治敏 朱学锋 俞士汶

北京大学计算语言学研究所 100871 中国[email protected] [email protected]

摘要本文将情感评价属性特征纳入现代汉语语法信息词典的词语属性描述体系,基于人民日报基本标注语料库,探讨以定性和定量相结合的方式对汉语词语的情感标注进行研究。根据真实文本实例的统计、归纳,对词典中词语的情感倾向加以描述,然后在词典中形式化。词语的情感评价属性的计算处理对文本过滤、信息抽取、网页评价等有重要的参考价值。关键词 词语情感评价 语义韵律 搭配规律Research on Word Emotional Evaluation Based on The Grammatical Knowledge-base of Contemporary Chinese

Wang Zhimin Zhu Xuefeng Yu ShiwenInstitute of Computational Linguistics Peking University 100871 China

[email protected] [email protected]

This paper introduces the attributes of emotional evaluation into The Grammatical Knowledge-base of Contemporary Chinese. The word emotions tagging is studied by the approach of using both qualitative and quantitative methodology. Based on the statistics result in People’s Daily tagging corpus, the word emotional trends are described and formulized in our Knowledge-base. Moreover, there are some potential applications of emotions tagging in such related fields as text filtering, information retrieve and webpages’ evaluation. Keywords : evaluation of word emotions semantic prosody collocation regulation

1引言随着中文信息处理领域“信息检索、文本过滤、自动文摘、网页评价”等技术的不断发展,

研究者开始尝试利用文本中词语所表现出来的情感属性信息来提高实用系统的智能化水平。因此词语表现出来的正面、负面的情感评价属性特征越来越受到学者们的关注。研究发现,词语蕴涵的情感属性对其句子中共现的词语有很大的限制,其共现词语往往也

要求具有统一的情感倾向。例如:以“溃逃”为例,“溃逃”是个贬义词,当它进入句子中与其共现的主语成分大都是含有贬义的坏人。例如:敌军~、匪军~、反动派~、土匪~、坏蛋~、罪犯~、走私犯~。与其共现的状语成分也表示贬义的含义。例如:仓惶~、 狼狈~。也有互为共现的词语表现出不一致的情感倾向。例如:“摆脱”不是贬义词,但通常与表示消极情感倾向的词语共现,如:~困难、~困境、~贫困、~不发达状态、~羞耻和孤独、~危机、~老套套、~束缚、~危险、~制裁、~困扰。虽然后面所带的词语都是表示消极、负面的,但是整个句子却表现一种积极、肯定的情感倾向。由此“摆脱”也带上了积极、正面的色彩。母语是汉语的中国人也许在毫无察觉的情况下下意识地运用词语的情感色彩,而对外国留

学生或计算机则需要学习才会理解。这些规律如果能够从真实语料库中提取,然后对这些规律进行定量的分析,形式化到知识库中,无论对中文信息处理还是对外汉语教学都是很有价值的。

北京大学计算语言学研究所和富士通公司合作开展了汽车领域经济信息评价模型的相关研本研究得到国家 863 项目(2001AA114210,2001AA117010)的支持

109

Page 113: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

究,而对于通用领域的词语情感色彩评价研究,目前还没有人利用大规模文本来做这样的事。北京大学计算语言所长期致力于中文信息基础资源的研究和开发。其重要的研究成果《现代汉语语法信息词典》(简称《语法信息词典》)和人民日报标注语料库为词语情感评价研究提供了非常好的基础资源。目前语法信息词典共计收词 73000多条。该词典在中文信息处理的自动分词、词语标注、机器翻译、信息提取、信息检索、概念词典建设等方面发挥了较大的作用。俞士汶(2003)

这两年北大计算语言所又得到了 863 项目的支持。预期达到的目标是在突破关键技术基础上,研制符合奥运多语言信息服务需求的大规模通用基础资源,并建设综合型语言知识库。语法信息词典的扩充作为其中的一个子任务,要求在 2004年年底增至到 8万词条,利用这次词典扩充的机会,拟将情感评价特征纳入语法信息词典的属性描述体系。 2.情感评价属性的界定

关于词语的情感评价,中国语言学界称之为词语的感情色彩(词的褒贬)。相关的词汇学著作有过论述(符淮青 1985,刘叔新 1990),但他们只是简单地说明词语感情色彩的定义和枚举相应的例子,语法信息词典的情感评价属性描述和传统语言学的词语感情色彩研究有一定区别。为了能够和语言学的感情色彩相区别,我们在以后的描述中使用“情感评价”这一术语。

北大现代汉语教材(1997)指出:感情色彩指词义所附带的表示褒贬态度的色彩。词的感情色彩同词的意义关系密切,词义对客观事物有肯定评价的,一般有褒扬色彩。如:英雄、勇士、悦耳、富饶…,词义对客观事物有否定评价的,一般有贬斥的感情色彩。如:奸贼、赌徒、阴险、平庸…。从上述的定义可以看出词语的褒贬色彩是一种表示程度很高的情感评价,这部分词语在实际语言当中比例并不是很多,大多数词语虽然无法说出它们的褒贬,但在语言环境中可以表现出积极或消极(正面或负面)的情感倾向。这些词语在句子中表现出来的情感倾向和词语共现所表现出来的搭配规律很少有人关注,而这部分信息对于文本过滤,信息安全、网页评价有很重要的应用价值。我们以“陷入”为例,“陷入”在感情色彩方面并无贬义色彩,但是在具体的语言环境中往往要求其共现词语含负面、消极的因素。由此“陷入”也表现出消极、负面的情感倾向,这点我们在下面的例句中得到了验证。陷入(~恶性循环状态、~苦闷边缘、~困境、~金融危机、~金融麻烦、~被动、~僵局、~困扰、~危险、~窘境、~被压迫民族的地位、~恶性循环、~一连串的追杀之中、~彷徨、~庸人的狭小圈子里、~了一个雷区、~衰退、~瘫痪、~混乱、~了地狱、~低潮、~严重的分裂、~孤立状态、~茫然~、一个怪圈,一个误区、~低谷、~恐慌、~重重包围、~沉思、~凝重的沉思)。

“陷入”的使用频率很高,仅仅两个月的人民日报就出现了 33次,表现出负面信息的句子有 32例可以得到确认,只有一例负面评价不好确认,如:~沉思,“沉思”在现汉中是“深思”之义,表示一种中性含义,例句原文如下:“吴书记眉头渐渐锁紧,陷入了沉思。”回到原文就可发现“沉思”所在的语境所表现出来也是一种愁苦的样子,也应该是负面含义。同时还找到了一句“凝重的沉思”,也是表示一种不好的心绪。以此我们可以得出一个结论,“陷入”表示消极、负面的评价。与“陷入”同义的还有“跌入 、陷没、陷落”,它们在句子中的共现词语也同样表示消极、负面的感情色彩。动词短语的中心语动词“陷入”和其后面所共现的名词的情感标注趋于一致,给定了“陷入”和其后面共现词语的情感属性,机器就可以判定关键词所在句子所描述事件的好坏。因此语法信息词典对词语的描述并不限于褒贬的评价,同时还要对词语进行正面、负面或积极、消极不同程度的评价。

110

Page 114: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

语言是动态的,静态词库里的词语在实际的语言应用中会受到其搭配词语的影响,一个本来没有多少褒贬意义的词语在进入句子框架后可能会表现出强烈的情感倾向。这方面的研究,国外已经开始得到重视。他们称之为语义韵律。Partington(1996)将语义韵律定义为“超越单个词语界限的色彩意义的扩展”(Semantic prosody refers to the spreading of connotational coloring beyond single word boundaries) ,语义韵律由音韵学上的“韵律”概念转化而来,音韵学上的韵律现象是用来概括语音研究中切分成分在语流中具有超切分特征。音韵学中的同化、异化、连读都属于韵律的研究范畴。受这种现象的启发,J.Sinclair把韵律加以推广,认为这种现象同样存在语言的词汇层面。J.Sinclair(1987)利用大规模的语料库资源对于词语的韵律进行了搭配意义方面的研究,指出观察词语意义的习惯搭配是揭示语义韵律的最佳途径。综合国内外的研究成果,词语的情感评价应该从两个层面来考虑。一方面应该是静态词汇

层面的研究,即词语在静态词库中所表现出来的褒义、积极、消极、贬义等情感属性,这些属性可以直接在语法信息词典中描述。另一方面词语的情感信息在进入句子框架下会发现情感偏移现象,即词语评价属性的动态句法研究。词语情感评价的动态研究将会有助于发现词语之间的动态搭配规律,同时对于描述语言规律,探求语言认知心理有很好的启示。 3.语法信息词典的评价类别 汉语中的词语具有情感评价的词语并不限于名词、形容词,其它词类的词语也有类似的情感评价倾向。语法信息词典中可以加上情感色彩描述的有 12 类。具体词类如下: 名词(n) ⑴ 春光 慈父 牛市 英雄 勇士 劳模 ⑵ 癌细胞 艾滋病毒 悲歌 弊端 残骸 惨祸 熊市 黑窝 痞子动词(v) ⑴ 锻炼 发明 发扬 防止 奉献 改善 感谢 鼓励 灌溉 激发 奖励 ⑵ 暴虐 爆发 爆炸 贬低 濒临 残杀 挫伤 颠覆 妒忌 讹诈 妨碍形容词(a) ⑴ 美丽 聪颖 恭敬 灿烂 光滑 单纯 ⑵ 傲慢 暴虐 悲凄 憋闷 沉痛 惆怅状态词(z) ⑴ 碧油油 光灿灿 甜丝丝 水汪汪 美滋滋 热热闹闹 ⑵ 悲惨惨 痴呆呆 病歪歪 恶狠狠 疯颠颠 邋里邋遢 区别词(b) ⑴ 锦绣(~中华~风光~前程) 稀世(~珍宝~珍品~之宝~杰作) ⑵ 填鸭式(~教学) 劣质(~食品) 伪劣(~产品) 违禁(~物品)冒牌(~货~产品~开发商) 副词(d)

⑴ 乘兴(~追击) 稳步(~发展~推进~提高~反弹~增长~上扬~升值) 豁然(~开朗) 竭诚(~服务)阔步(~前进) 锐意(~进取) 舍身(~拼搏~救人~为国) 飞速(~前进)

⑵ 大肆(~烧杀~翻供~索要收取钱物~进行分裂祖国的活动~进行盗窃~进行传销) 公然(~对邻国巴基斯坦进行威胁~在巴大肆进行国家恐怖主义活动~敲诈开出天价

~拒绝~纵容其进行制造“两个中国”,~造假,伪造历史文献) 乘机(~捣乱~钻洞而入~发泄~甩包袱) 迟迟(~未察觉~不表态) 不巧(~中国选手来日后多人患感冒~东京的樱花开得早)

111

Page 115: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

不慎(~掉到地上摔成重伤~买了伪劣产品)成心(~把泡菜腌老了)叹词(e) ⑴ 哈哈(~,我鲨胆有救了,胆子还可大一点) 好家伙(~,当时我差点晕过去)

呵呵(~,就来就来)⑵ 呜呼(~!她不死于盗匪之手而死于亲人之口,真是天下第一等大悲了!)

~,如果人心与人心之间都挂着防贼的锁,那单位还有生气吗?)成语(i) ⑴ 百废俱兴 比翼双飞 别具匠心 彬彬有礼 博古通今 赤胆忠心 宠辱不惊 出生入死 ⑵ 暗箭伤人 黯然失色 稗官野史 笨嘴拙舌 遍体鳞伤 不择手段 称王称霸 痴心妄想习用语(l) ⑴ 饱眼福 爆冷门 卖力气 鸣不平 闹新房 上档次 ⑵ 不入流 吃独食 吃哑巴亏 穿小鞋 发善心 鼓倒掌 闷葫芦 上贼船 背包袱 简称(j) ⑴ 五讲四美 双拥 两弹一星 ⑵ 死缓 老弱病残 假冒伪劣 危旧房 代词(r) ⑴ 您 足下 ⑵ 鄙人 吾辈拟声词(o) ⑴ 嘿嘿 哈哈 喳喳 ⑵ 喀嚓 嗡嗡

⑴表示“积极、褒义”的词语,⑵表示“消极、贬义”的词语。语法信息词典的情感属性设定为【褒义|积极|中性|消极|贬义】五个级别,按照程度的高低形成一个情感评价等级序列:

“中性”为缺省项,不需要填写。【褒义、贬义】就是语言学的褒贬,词语的褒贬评价一般从词汇本身就可以看出,而词语的【积极、消极】在表面上不容易判别,得通过和搭配词语的共现而获得某种情感倾向,感情程度比褒贬评价低一些。例如:上面列举的“陷入”。根据这个标准,我们可以把名词⑴⑵可以细分为:【积极】春光【褒义】慈父 牛市 英雄 勇士 劳模【消极】癌细胞 艾滋病毒 悲歌 弊端 残骸 惨祸 【贬义】熊市 黑窝 痞子词语的【褒义、贬义】表现出来的情感倾向比较明显,实际上可以算作【积极、消

112

中性积

消极

贬义

褒义

Page 116: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

极】的特殊形式。对于这两种特殊形式,往往并不适合描述上面列举的全部词语类别。因此在实际填写过程中词类的属性设定也略有差别。例如:拟声词(o)、叹词(e)只设定【积极、消极、中性】三个属性选择,而且个别还要有所调整,比如代词(r)的评价属性定义为【敬语|谦语】。4.基于语法信息词典的词语评价调查

词语情感评价不仅仅涉及到特定词或与其搭配的短语本身,还涉及到两者之间相互作用而产生微妙的情感意义。语义表现出来的正面和负面的感情色彩往往通过直觉发现,但是这种凭直觉发现词语所具有的感情色彩无法验证,而基于千万字量级的汉语基本标注语料库和语法信息词典提供的知识足够使我们把这些现象通过统计揭示出来。例如:语法信息词典提供的常用词汇“有”和“味”都是中性词语,但是它们进入句子框架后却表现出具有明显的情感评价倾向。它们在真实语料中有什么样的情感表现?它所表现的情感倾向的概率是多少?这些问题我们都可以通过千万字量级的人民日报语料库加以验证。统计发现有以下两种情况。

第一种情况,“有味”独立出现,有时后面也加儿化,一共有 12例1、在街道上唱,公园里演,蛮有味儿。2、人安静下来,越看越爱看,越看越有味。3、即使是拈得鸡肋者,也会叫道“食之有味,弃之无礼”。4、听上了广播,日子是越过越有味了5、做到真实可信,亲切有味,引人入胜6、人间有味是清欢———大型画册《中国竹工艺》赏析7、可以化腐朽为神奇,变无味为有味。8、先期读到《雷达散文》的人士,都对雷达的散文评价甚高,认为雷达的散文自然而有味。9、同里人自己则说,同里的桥有韵、有味,桥是同里的性格,10、她们洋溢着自然天成的性情美:自信,进取,活力四射,光彩照人,有为更有味。 11、读书一日,就有一日之益。“读书有味身忘老。”这是读书从“苦读”进到“乐学”境界的表现。

12、乘警巡船时在船舱内闻见气味异常,找到有味车的车主,车主先谎称是食品添加剂,后又称是化工品。

第二种情况又包含两个小类。第一小类“有味”作为固定短语的一部分出现。出现在“津津有味”的例子有 36例,和“津津有味”共现的动词一般都是“听、看、阅读、喝、讲、谈起、品尝、吃、嚼、介绍”等。例如:

1、没想到所有家长都听得津津有味。2、斯图拉普一直捧着一本名为《我心依旧》的小说读得津津有味。3、一边拿着一本竖排的中文书在津津有味地阅读。4、正当我津津有味地瞧着时,忽然传来“当”的一声,5、便情不自禁地坐在摊前,汇入津津有味的食客行列。第二小类,“有味”出现在固定短语“有滋有味”的例子有 28例。“有滋有味”一般在

句子中做补语。与其共现的动词有“看、喝、吃、啃、说、品味、生活、过,觉,唱、当得、干得、打发”。

1、别看不是专业演出,可乡亲们依然看得有滋有味。2、她都坚强地挺过来了,而且生活得有滋有味。

113

Page 117: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3、摆碟花生米,就可以有滋有味地喝起来。4、生活也必然会有滋有味,精精神神,充满无穷乐趣。5、“都都”生活良好,有滋有味地吃了生日蛋糕。还有一句出现在“有情有味”中。例如:7、他的画是有情有味有看头和经得起琢磨的。以上的所有例句来自于一年半的人民日报语料。“有味”这个短语在出现的所有例句中,

76句有 75句带有褒义的感情色彩,约占所有出现例句的 98.7%。整个句子表现出正面的情感倾向,只有一句是表示负面地含义。即:第一种情况中的例 12“…有味车…”。“有味车”中的“有味”是指不好的气味,应该是“有气味”的简写,在所有的语料当中只有一例说的是车上有味的含义,表现出消极的负面评价。而表示正面、褒义情感倾向的“有味”是指“有味道”的含义。我们在语料中找到了 15 个这样的例子。例如:

1、也不论是讲述生动有趣的、与饮食有关的故事,总之得有味道,品出多味的生活。2、但该剧的成功,或说最大的特色,即是台词很有味道,语言精彩。

它们虽然字形相同,但是所表示的意思是不一样的。如何在文本中自动判别“有味”属于哪种类型值得进一步研究。5.计算机的形式化研究

语法信息词典采用成熟的关系数据库技术,词语的评价属性作为原词典的一个扩充项也沿用此种结构描述。目前语法信息词典已经把“津津有味”、“有滋有味”收入词典,而“有味”不作为一个词条。人民日报基本标注语料库却统一看作一个切分单位。在这方面两者是不完全等同的。

1、越/d 看/v 越/d 爱/v 看/v ,/w 越/d 看/v 越/d 有味/a 。/w2、没/d 想到/v 所有/b 家长/n 都/d 听/v 得/u 津津有味/i 。/w3、可/c 乡亲/n 们/k 依然/z 看/v 得/u 有滋有味/l 。根据这种情况,首先把词典含有“有味”的四字短语标注上评价属性。对于“有”和“味|

味儿”。我们采用分别处理。并给出其情感属性概率值。语法信息词典形式化的描述信息如下:(下表中概率数值根据一年半人民日报统计得

到)词语 拼音 词性 静态

评价搭配情感评价

搭配词语 概率津津有味

Jin1jin1you3wei4 i 褒义 褒义积极

听、看、阅读、喝、讲、谈起、品尝、吃、嚼、介绍

1.0

有滋有味

You3zi1you3wei4 l 褒义 褒义积极

看,喝、吃、啃、说、品味、生活、过,觉,唱、当得、干得、打发

1.0

有 You3 v 中性 积极 味、味儿 0.917

114

Page 118: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

味 Wei4 n 中性 积极 有 0.917

当然“有味”也可以当作一个词条收入语法信息词典,这时对“有味”的描述就和“津津有味、有滋有味”相类似。不过现在将“有味”分开处理,就是要从搭配的角度考察词语进入句法环境之后所表现出来的情感变化,从方法论的角度为词语的情感搭配研究提供一种新思路。6.词语情感评价的应用价值

词语的情感评价研究是机器理解汉语的新拓展,让机器真正理解自然语言一直是研究者一个遥远的梦想。很多学者对此都觉得希望渺茫,其中一个十分重要的原因是,机器在自动分析时只是简单的模式匹配,根本谈不上理解,而目前可利用的语义资源也十分有限,词语的情感评价资源将是一个重要的补充。比如当我们听到“经济衰退,股市下滑”的新闻报道时,我们就会由此判断出最近经济不景气,而机器无法判断,但是如果给定 “衰退”和“下滑”具有消极情感倾向的属性特征,我们就可以利用机器预测股市的发展。词语的情感评价研究如果能够利用现有语料库的丰富资源,给出量化和定性分析,不仅对文本过滤,信息安全、网页评价的智能化研究有潜在的应用价值,而且对语言学习者也是一个很重要的信息,它能够帮助学习者在实际语言使用中选择正确、恰当的词语。特别是对于母语非汉语的外国留学生而言,如果不理解词语的情感评价属性信息,就会在实际交际当中出现错误,而这些词语所表现出来的情感倾向一方面通过实际的交流获得,另一方面来源于工具书上的信息。但是影响最大的《现代汉语词典》没有提供这方面的属性。因此语法信息词典的词语情感描述研究也会为外国留学生更深刻地理解汉语词语提供一个重要的语言参考资源。致谢笔者在研究过程中,北京大学计算语言所胡景贺同学、谌贻荣同学、吕学强博士、吴云芳

博士提出了很好的建议,在此向他们表示衷心的感谢。 参考文献Parington ,Alan.1996. Patterns and Meanings :Using Corpus for English Language Research and Teaching.pp:68Palmer,F. ,ed. 1968. Selected Papers of J.R.Firth. Landon:Longman. 1952-1959 Sinclair, J.M.1987.Looking Up.London and Glasgow;William Collins.Sinclair, J.M.1991.Corpus.Concordance,Collocation. Oxford :Oxford University Press.戴维.克里斯特尔[英],沈家煊译,2002,现代语言学词典 商务印书馆 第 4版。俞士汶等,2003,现代汉语语法信息词典详解 清华大学出版社 (第 2版)pp:40-41。应英等,2002,汉语情感意义的机器标注研究初探 中文信息学报 (第 2期)。符淮青,1985,现代汉语词汇 北京大学出版社 pp:28。刘叔新,1990,汉语描述词汇学 商务印书馆 pp:11。北京大学中文系现代汉语教研室,1997,现代汉语 商务印书馆。吕叔湘,1979,汉语语法分析问题,商务印书馆。吕叔湘,1980,现代汉语八百词,商务印书馆。

115

Page 119: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

关于名词多层级分类标注的构想韩蕾 范开泰

(华东师范大学中文系,上海 200062)(上海师范大学人文学院,上海 200234)

0.缘起本课题的提出源于语料库加工实践。目前,上海师范大学正在对“当代汉语语料库(一期)”进行语料深加工工作。在这个过程中,我们迫切地感到,在词语加工阶段,仅仅给词项赋予词类属性还是不够的,如果能够使之带上更丰富的信息,必将为下一步的句法、语义乃至语用加工提供帮助。为此,我们提出对名词进行多层级分类标注(Multiple-level Classifying Tagging,以下简称 MCT)的初步设想,就教于方家。以下先介绍课题的理论依据和当前的工作进展情况,然后对这一方法进行反思,最后展望下一步的工作计划。

1.理论架构1.1背景和依据

汉语语料库主流加工方法,基本流程包括三个环节,即:词语加工、句法加工和语义语用加工。50目前词语加工阶段(分词和词性标注)虽然还遗留着歧义字段、未登录词和兼类词排歧等疑难问题没有解决,但已基本能满足实用的需要。随着信息处理的深入,语义加工的任务已被提上日程,与此相关的汉语语义知识库正处于初期建设阶段。落实到具体词类上,现有研究大多以实词为对象讨论语义范畴的性质,虚词语义知识库尚未涉足。51实词中,又以动词初具规模,名词研究相当薄弱。众所周知,在现代汉语各词类中,名词占有举足轻重的地位。许多研究者的统计数据都表明:名词的数量不但比任何别的词类都多,并且比别的词类加在一块儿还多。52最新的词类频度统计也表明,在词类使用频度上,名词远远超过动词,居于首位。53

这意味着,面对着经过正确词语加工——词语切分和词性标注的汉语语料,我们大多数时间是在跟名词打交道,名词深加工是下一步需要解决的重要问题。可我们知道,“名词研究很重要,但也很难”,54长期以来,名词研究的广度和深度,一直无法跟动词相比。因此,我们的语料库加工工作,打算选择这个薄弱点作为突破,做一些初步的尝试。在此之前,先了解一下现有的研究相关成果。迄今为止,与名词范畴设置相关的、直接服务于汉语自然语言处理的语言知识库建设,在局部已经取得一定的成绩:(1)句法分类:基于结构主义的语法分类为了说明名词的句法功能,主要采用了句法分布的标准。朱德熙在《语法讲义》中,根据名词与量词的关系分出可数名词、不可数名词、集合名词、抽象名词、专有名词 5 类。北京大学俞士汶等的《现代汉语语法信息词典》,在此基础上进一步细化,根据名词与不同量词的搭配关系,将名词划分为个体、物质、集合、专有等8 个子类。55台湾中央研究院黄居仁小组,也是以量词为标准,利用语料库中直接抽取的名—量词搭配实例及统计数据,在深度小于 4的子树中获取 5075种名词子类。56

(2)语义聚合分类:运用语义场理论,依据概念之间的同义(近义)、反义、上下义关系,建立名词层级系统,是十分普遍的作法。现有的代表性义类词典或语义体系有:“九〇五”工程分出事物、时空、属性和运动四大类,采用义素分析法处理跟名词有关的事物、时空等语义类别。57北大计算所的中文概念词典CCD,抽取 Wordnet中名词初始义类概念的上下位关系信息,形成 15 个上下位关系树。58其开发的另一部基于配价的汉语语义词典VCSD,“事物”类的语义深度达到 6层。59

50 参见周强、段慧明《现代汉语语料库加工中的切词与词性标注处理》,《计算语言学文集》第一集。51 参见詹卫东 2004。52 关于这方面的详细统计数字,可参看王珏 2001,1—7页的相关介绍。53 参见俞士汶、段慧明、朱学锋 2001,25页。54 参见陆俭明为储泽祥《名词及其相关结构研究》(湖南人民出版社 2000)一书所做的《前言》。55 可参看王惠、朱学锋 2000的介绍。56 参见黄昌宁、李涓子 2002,205页。57 参见陈小荷 1998,72页。58 参见刘扬、于江生、俞士汶 2003,87页。59 参见詹卫东 2000b,38页。

116

Page 120: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(3)语义组合属性的发现:一是利用格语法、配价语法、语义网络、蒙塔古语法等多种策略,探索性地发现名词的普遍属性。如,973 项目设立性别、年龄、职业、身份、关系、高度、宽度、浓度、形体、场面等语义特征说明名词关联的选择限制。60知网Hownet建立网状关系语义系统,把名词放在N 范畴内描述。61陆汝占基于内涵模型论的语义分析,选取若干单音节名词做类义抽象,借此解释与名词有关的组配。62二是针对相关结构,发现名词的特定属性。如,电子工业部吴蔚天(1999),提出关系语义场理论。他认为词语之间能够组合在于具有相同的关系义素,各自属于一定的分关系语义场,不同的分关系语义场可组合成关系语义场。他根据名名两两组合构成的 160 个关系语义场,对 3000多个名词作了分类。这种分类能同时提供名词所具有的句法语义信息。总起来看,现在面临的问题主要是:(1)如何有机地整合句法分类和语义聚合分类这“两张皮”下的分类结果:无限细化的句法次类要避免流于形式,取决于能否获得合理的深层的语义解释;意义分类要避免成为百科信息类,分类结果必得有形式上的验证。(2)如何把现有研究涉及的、零散的语义组合属性尽可能地系统化。

1.2原则和步骤我们认为,信息处理有意识地区分词法、句法、语义或语用等不同层面来加工语言知识,无非是为了工程实践的便利和技术上的易于实现。但实际上语言作为一个系统,其构成层面的联系是相当紧密的,真正操作起来,时时会感到“牵一发而动全身”,即使是初级层面(如词语加工)的分析也需要配备对其他层面知识的深入了解,这就是人们通常所说的“需求循环”。63如果说,词法和句法等形式知识,凸显的是高度抽象的语法意义;那么,语义和语用知识,则更多要倚重逻辑真值与现实语境获取意义。可见,所谓的词法、句法和语义、语用知识的区别,差别仅在于从抽象到具体概括程度的不同而已。因此,我们比较赞成“只要有办法组织起一套明确的范畴体系,可以尽可能广泛而准确地描述语言成分的搭配知识,就是好的选择。至于所选的范畴是句法的,还是语义的,语用的,或者干脆就是杂糅的,都可以有意无意地淡化”。64因此,当我们需要在大类基础上,对名词做进一步的深加工时,比较倾向采用句法语义一体化的处理策略,给名词标注上句法语义特征,以同时兼顾形式和意义两个方面。此外,之所以遵循这一原则,还考虑了信息处理的现实。从 1.1节的介绍可知,虽然汉语名词现有的语义分类体系林林总总,也有不少。但大都是更为符合自然、社会和思维规律自成一体的世界知识分类体系,强调纵向的“深度分类”,忽略横向的“广度分类”。关心的是诸如“教师”和“老师”在语义分类树上处于哪一个结点,在语义(子)场中的层级和距离之类问题;而并不注意它们在搭配用法上的差别。当然,在这方面,动词的情况要好一些,像正在开发的信息处理用汉语配价词典,就是动词描写得较为完备,名词知识明显不足。65主要原因,就在于名词语义分类与动词语义分类脱节,不能满足计算机形式分析的需要。另外,近年来国外一些有代表性的语义知识库,越来越重视以“语义关系”作为重点描写内容。随着汉语语义知识库建设的深入,国内也有更多的学者呼吁,加强对汉语词语间各种组合语义的发现。66从这层意义上看,我们主张在汉语语料库加工中,先给名词标上关系义素特征,以便说明词语之间“邻接对”和“非邻接对”等的搭配关系,应该说也是恰好顺应这一时代要求的。至于名词组合关系特征的具体实现方式,我们有两个选择:一是用分类的方法。即,选择有限的特征立类,采用分类、分次类、分次次类这样的方式,把这些类不断地细分下去。就每一个名词而言,带上的是“单一标记”。二是用属性标注的方法。即,通过属性特征描述,建立复杂特征集。就每一个名词而言,带上的是“复杂特征标记”。考虑到我们当前尚缺乏《现代汉语语法信息词典》之类的词典作为底层支撑,全面发现并落实词语的复杂特征属性将是一项十分浩大的语言工程。而我们的目的是希望,通过标注最主要的属性,来覆盖实际语料中大多数分布的情况,从而优先发现一批信息处理用规则,同时也便于语言学本体研究的展开。因此我们倾向于用第一种方法把语料中的词类标注得再细一点,67从大类到小类逐级细分的思路正是基于这样的认识而产生的。在上述原则思想的指导之下,我们设计了具体的实现步骤:(1)确定对大多数组合具有普遍解释力的语义特征。通过比较现有各类信息处理用语法信息词典、义类词典,以及传统的语文词典和百科知识词典,提取其“最大公约数”,作为名词的组合特征。有些特征在词典中并未获得广泛认可,但凭借研究者个人语感及语料库调查显示对组构有非常重要影响的,也酌情增补。(2)建立语义特征的层级体系。在我们看来,从词类到语义聚合类,是抽象度渐减、由形式到意义逐渐逼近的过程,而语义组合类是居中衔接的桥梁。在分类深度上不宜太深,一般有 2到 3 个层级就比较合适;在分类广度上也最好能在句法类的简洁与语义聚合类的精细之间取得平衡。按在组构中的重要性,把属性特征分出层级,每个层级标注细度应该不同。

60 参见林杏光 1999。61 参见董振东、董强 2001a,35页。62 参见宋春阳 2003。63 参见陈小荷 1998,71页。64 参见詹卫东 2000a,152页。65 詹卫东 2000b。66 詹卫东 2004。67 任海波、范开泰 2000。

117

Page 121: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(3)确立语义特征的形式识别标准。把带有某一特征的典型成员(prototype member)——其资格认定充分吸收现有研究成果——放到大规模语料库中,观察其在上下文语境中的分布情况,主要寻找邻接性(adjacent)条件,提取出有用的句法框架作为判定规则。事实上,同一组合特征往往会有多种句法表现;不同组合特征也可能会有相同的句法表现。因此,为每一个组合特征制订形式标准时,还需参照概率统计数据,确定规则使用的优先顺序,以尽可能使分类线索明确,便于操作。(4)依据形式标准对名词进行归类。操作时,由《现代汉语词典》释义出发,看义项不同是否造成用法或功能分布(如,对测试框架的适应情况)的差别。综合运用:a、内省法:根据说汉语的本族人语感来识别。b、类推法:选取意义、功能、用法等都典型的词项为样本,把有待明确身份的词项与之进行类比推演,各方面都接近的,可考虑是同类,否则为另一类。c、概率统计法:如果上述方法仍然不能解决问题,就通过统计词语在语料库中用法的概率,决定词语的次(次)类归属。此外,还参考了现有词典的一些作法。上述四个步骤其实是做了两个方面的工作:一是分类(第 1至 3步),即设立名词的范畴属性。二是归类(第 4步),即为每个名词赋予具体的属性值。

2.名词多层级加工实践2.1名词三级加工模式

限于人力、物力和时间,我们当前只选择了《同义词词林》、《现代汉语语法信息词典》(2003年 7月电子版)和知网Hownet,从中筛选出名词共有的、最主要的组合属性。主要原因是,《词林》是一部不可或缺的传统义类词典;后两部机用词典则是目前信息处理界使用广泛、较为成熟的语法、语义词典,或已公开发行、或属免费在线资源,信息的查询、下载或获取相对比较容易。在比较了这些词典后,我们初步确定名词共有的组合属性,并把它们大致分成三级。第一级包括个体、物质、集合、抽象、非量、事件、指人 7 个特征。根据优选语义学,虚词作为标记特征构成的特殊规则要优先于一般规则。我们主要借鉴《现代汉语语法信息词典》,以量词作为最重要的分类标准,并辅之以方位词、介词等。第二级主要吸收现有语法研究成果,通过设置测试框架,把有配价特征的依附性关系名词分出来,包括一价名词、二价名词等。第三级因小类内部句法语义差异而定。比如,在个体非关系名词中设置场所名词、称呼名词、专有名词等。

2.2名词归类实践我们以国家语委、北京大学计算语言学研究所、山西大学计算机应用研究所编制的三份比较有权威性、代表性的词表为蓝本,使用的检索工具是山西大学开发的“中文语料研究软件系统(1.0版本)”,与之配套的语料库已经过分词、词性标注和人工校对,可信度比较高。碰到数据稀疏时,再利用其他语料库,直至用 google 进行网上在线检索,平均搜索语料总字数达2000万字左右。这样,得到按义项和功能分布设立的约 4万个名词项。目前,我们初步提出的名词多级分类标准和词表,已交由山西大学计算机应用研究所算法化后编制成程序输入计算机,正等待实际结果的反馈,以做后续的修订完善。

2.3 多功能名词的处理策略汉语词语在大类层面上的兼类,一直是困扰语言学界的老大难问题。信息处理界除了传统语言学讨论的:a一个词的某一个义项有多个用法。如,“学习”在“从阅读、听讲、研究、实践中获得知识或技能”这个意义上兼动词、名词两种词性。68b多义词的不同义项有不同用法。如,“繁荣”的“充足”与“使充足”分别属于形容词和动词。在处理书面文本时,还把并非同一语言成分的多词性现象统称为兼类,这包括:c同形同音。如,“别”兼副词与动词。d同形异音。如,“他是个好(hǎo)人”与“他好(hào)睡懒觉”中的“好”兼形容词与动词。小类的不断细分是在不同层级上引入了意义因素,必将带来更多的兼类,而且将造成交叉兼类,即有的是兼大类,有的是兼小类,有的是兼而有之。因此,有人主张为了提高自动分析效率,在标注时,不要把小类分得太细。69我们认为,这只是暂时避开了问题,而不能最终解决问题。关于小类细分的重要性,及其对解决大类兼类的作用与局限,本文第 3节将展开详述。这里重点介绍我们在处理名词小类兼类时的一些作法。兼类从理论上讲,是指词语经常地、稳定地具备多种用法。实际操作起来,如何

准确地把握经常性、稳定性这一标准,是问题的关键。信息处理界的概率统计法,无疑为基于主观语感的内省法、类推法,提供了直观的、量化的、可操作的客观衡量或参照标准。如果两种(或多种)用法统计数字悬殊很大时,就归入到统计上占优势的68 释义从《现代汉语词典》1996年修订本。69 这是上海交通大学陆汝占教授的意见,参见靳光瑾等 2003,19页。

118

Page 122: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

一类中去。如,“合同”充当名词和副词的频次分别是 68和 1,低频词性就完全可以看成是一种不稳定的临时用法,而不处理成兼类。70只有两种(或多种)用法统计数字较为接近时,才处理成兼类。但问题的难点在于,数字间从相互接近到差别很大,是一个渐变的过程,一些临界状态有时颇难把握。为此,我们设想,下一步是否可以先把词语用法按频率分出级别,即高频、次高频、中频、次低频、低频等,各频率均给出量化指标。然后,区分高频与低频间的不同等级,分别都予以适当标注,以备计算机优选。对于因受语料限制,难免会发生的某一种用法统计数字为零的情况,再结合语感进行修正。

概率统计法的实质,是以最大可能作为唯一可能。我们认为,为了提高计算机分析的自动效率,在处理小类层面兼类时,仍然需要使用这种方法,这样就可以坚持兼类尽可能少这一总原则,这一点跟处理大类兼类的原则是一样的。按照这一策略,我们运用山西大学开发的软件,解决了大部分问题。例如,把“月老”、“红娘”处理成个体名词,而把“西施”、“诸葛亮”、“包公”、“牛郎”算作专有名词。另一方面,从长远角度考虑,为了最终提高计算机分析的精确性,对小类在统计学意义上不同等级的非高频用法,下一步其实也需予以适当关注。这样,概率统计与规则的方法就可以配合起来,互校互证,对深入解决兼类问题也许会更好一些。

3.对 MCT 法的理论反思3.1作用与价值

自然语言理解,归根结底是意义的理解,语义分析在整个环节中占有核心地位。可当前的语义分类尚不足以给词法、句法分析提供足够强有力的保障。因此,为了避免对意义的过分依赖,以形式分析为基点的主流加工模式,大多依靠统计和低层面的语言知识。可即使这样,在词语加工层面,一些极其重要的语义信息,也已显示出不容忽视的倾向。比如,北京大学给《人民日报》语料做分词和词性标注时,除了标出名词这一语法属性外,还对指人名词这一极其重要的语义小类同时做了标注。可以说,MCT法正是顺应这一需求,在传统的词性标注与句法标注间,增加了小类标注这一环节。而带有小类信息的语料库,概言之有以下作用:首先,可以为汉语的本体研究提供直接帮助。当前,语言学本体研究进行的范畴与次范畴研究日渐深入,获取一定数量的、经过加工的熟语料已成为研究者的迫切需求。71限于目前的实际情况,我们没有必要也没有可能等语言学研究成果相当成熟以后,再来开始我们的语料库建设。我们完全可以采用边研究本体边加工语料的思路,以语义粗加工语料满足研究的实用需要,再以研究成果修正现有的标注规范集,实现两者的良性互动。从这个意义上看,我们的语料库加工不可能是一蹴而就的事情,而带有很强的实验性。具体到现阶段的名词加工,我们所设计的不同层级小类标记集,为了减少标记的长度,在技术实现上,并不在一个平面上同时展开。不同的研究者可根据不同的需要,有选择地点击进入,从而获取名词所负载的不同级别的语义次类信息,掌握语料库中不同深度和细度的熟语料,灵活地开展相关研究。其次,可以为中文信息处理研究提供基础资源,有助于:(1)信息处理用名词标记集的制订。《信息处理用现代汉语词类标记集规范》的研制者指出,名词“由于数量多,小类也显得很庞杂。如何标记名词小类是一个颇费脑筋的问题”。比如,对专有名词的范围,大家的看法就不完全一致。常见的小类有人名、地名、机构名、品牌名、事件名、菜名等。根据专家意见,“回族、斯拉夫民族”等不少族名并不能当地名用,于是又增补了族名这一小类。72可见,名词小类标记之所以成为让人头痛的问题,正在于其内部各类间的细致差别没有搞清楚。因此,尽可能地发现名词内部可能有的类别,并在语料库多层次加工中给予细致标记,有助于词语大类、小类等标记的确定。(2)揭示词项在不同层面的兼类规律。

70 这里的统计数字采用范开泰、由丽萍(2003),《面向信息处理的现代汉语兼类词表的构建》(未刊稿)。71 在上海师范大学语料库建设过程中,相当数量的语言学者要求提供已标注上语义范畴的语料供研究之用。对此,我们总是半开玩笑地要求对方先提供加工规范。可见,解决语料库加工与语言学研究之间的“需求循环”,也是一个很现实的问题。72 这是北京大学陆俭明和南开大学马庆株教授的意见,参见靳光瑾等 2003,19页。

119

Page 123: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

信息处理讨论的兼类,其实是一种广义的同形异义异构现象。小类的细分有助于加深对不同层面兼类的理解:一是大类兼类。词性差别已初步反映了大的语法范畴意义的不同,再结合小类标记,就便于发现大类兼类背后更深层的语义原因。譬如,动词、名词兼类是汉语各种兼类中比重最高的,如果语料库中,两大范畴内部都标上细致、准确的小类,就能统计出制约动名兼类的语义优先因素。进而言之,对特殊语义造成的动名两用现象,就有可能立足于整个系统做出更为妥贴的处理。比如,“长跑、冬泳、合唱、摔跤”等兼有名词性用法的动词数量很大,是算作兼类、名动词、动名词,还是动词中的一个特类?看法不一。据统计,这类词的动名用法概率比较接近,宜处理为兼类。不过,跟一般兼类不同的是,当它们为名词用法时,语义上并不转指跟动作行为有关的事物,而是自指动作行为本身,属特殊的、可受动量词修饰的事件名词小类。二是小类兼类。从小类到小小类,由分布确定的类别与语义的联系越来越紧。因此,类分得越细,跟义项的关系就越直接,兼类现象也就越多。如,“大爷”在我们现有的名词多级分类系统中,第一小类级别上是指人名词,并不兼类;而在第二、三小类级别上兼属关系名词、称呼名词等。三是既兼大类,也兼小类。像“调查、报告”等词,在大的类别上,既表动作,也表事物,属动名兼类。在名词内部,既可受名量词修饰,属个体名词;又可受动量词修饰,属事件名词。总之,兼类具有相对性。从大类到小类类别的增加及交叉兼类,反映了类别分化跟意义细密化之间存在必然的有机联系。(3)词语义项的自动标注和排歧。词义标注,是要给文本中的每个词语标上具体的义项。汉语常用词普遍存在着一词多义现象,要从其众多义项中筛选出正确的、符合上下文的词义解释,并不是一件容易的事情。根据现代语义学,义项是由义素构成的,义素也就是区别性语义特征。而我们所标注的小类,实际上就是词的句法语义特征。因此,在多义词排歧时,如果能有事先标注好的语义特征标记作为参照提示,必将加快义项自动识别的过程。如,“同学”在以下三例中若分别标上“动作”、“指人(关系)”、“指人(称呼)”这些特征,其各自所属的三个义项也就很容易确定了:我们同学过三年。这是我的老同学。同学,请问到故宫怎么走?(4)信息处理用组合规则的提取。词语再分类可以说明词项组合的相互制约条件,从句法加工的实际需要看,“动+名”、“形+名”、“名+名”等任意两个成分的结构规则都值得深入描写。我们曾利用经句法标注过的语料库,抽取指人名词构成的双名词语串,得到双名组构模块。这样,在没有词典支撑的前提下,借助小类细分先以简驭繁地提取出一批组合规则,以区别不同句法关系,供结构内部排歧使用。比如,“名 1+名 2”要构成同位短语,就需满足“指人专有名词+指人称呼名词”等语义限制。73

3.2 缺点与局限名词分类的理想境界,应该是以完备的类别、恰到好处的概括度,描写出词项间所有可能的细碎区别。显然,这需要以名词属性特征的充分发掘为前提。迄今为止,动词属性特征的发掘相对来说已比较深入,这就使精细的分类成为可能。像法国语言学家发现了法语动词 100 个左右的配价特征,以此把 3000 个动词分成 2000 个小类,每一小类平均只有 1.5 个动词。74

而汉语名词的研究还远远不够,以致于这一理想目前尚无法实现。在这种背景下我们所采取的细类标注法,就是一个折衷的办法。其实质是突出对组构有重大影响的句法语义属性,对此做纵深挖掘,并在语料库中优先进行标注。王惠(2003)指出,名词义项单位的划分与确立,是靠名词的组合分布决定的。每一个不同的义项,在形式上都会表现出句法分布环境的互补差异。很容易由此推测,真正精细的类别,是与义项息息相关的。可以想像,兼顾句法分布和语义差别的类,如果无穷尽地细分下去,最后的结果就是,每一个义项就代表了一个类。与这个终极目标相比,我们当前所谓的细类标注,显然远远顾及不到这么细微的句法语义差别。从为计算机全面配备词项功能信息这一总体目标来看,组合属性类的标注也仅是其中的一个有机部分。因此,类别细分本身并不是自足的,除此之外,还要辅之以复杂属性特征描述、义项标注等多种手段。另外,我们目前所设立的这批名词分级属性特征,融句法语义于一身,对大多数组合按理应有较强的解释力。但在属性特征的发现过程中,难免会出现遗漏和偏差,还需要做进一步的调整。退一步,即使能够确保这些特征的确是对组构有普遍影响的优先重要因素,在面对真实文本中的非优势组合时——此时有可能是,被忽略的非重要特征可能上升为首要制约因素,标注好的优势特征对这一特定组合反而不起作用——因此,更广泛组合特征的发现,调用系统存贮的语义聚合分类知识,以有效地参与到语句的生成和理解中来,仍然是必不可少的。

73 参见韩蕾《面向信息处理的现代汉语双名词语串研究》,上海师范大学 2001年博士学位论文。74 参见袁毓林《汉语动词的配价研究》第一章《配价语法面面观》,江西教育出版社(1998)第 32页。

120

Page 124: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

4.结语本文初步提出,在语料库加工过程中,对名词做多层级分类标注(MCT)处理的

设想。我们主要利用现有的较为成熟的信息处理用语法和语义词典,从中筛选出一系列重要的跟名词相关的句法语义特征,并通过系统的形式手段来界定这些语义范畴。在此基础上,对大量名词做了组合特征的尝试性标注实践。“特征即关系”,事实已经证明,名词组合属性的细致标注,对揭示双名直接组合模式与搭配规则已经起到较好的作用。我们有理由相信,它们对潜在地说明远距离非线性共现序列也将起到应有的作用。我们下一步的工作计划是,根据语料库实际反馈结果,对现已设置的特征范畴做进一步的优化,对名词词项的分立再做调整,以更好更直接地为自然语言处理服务。

参考文献:陈小荷. 一个面向工程的语义分析体系[J].语言文字应用,1998,(2).董振东 董强. 知网和汉语研究[J].当代语言学,2001a,(1).董振东 董强. 面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001b,(3).黄昌宁、李涓子. 语料库语言学[M].北京:商务印书馆,2002.靳光瑾 郭曙纶 肖航 章云帆. 语料库加工中的规范问题[J].语言文字应用,2003,(4).林杏光. 词汇语义和计算语言学[M].北京:语文出版社,1999.刘扬 于江生 俞士汶. CCD构造模型及VACOL辅助软件的设计与实现[J].语言文字应用,2003,(1).任海波 范开泰. 现代汉语真实文本短语标注的若干问题[J].语言文字应用,2000,(1).宋春阳. 面向信息处理的“名+名”逻辑语义研究.上海师范大学博士学位论文,2003.王惠 朱学锋. 现代汉语名词的子类划分及定量研究[A].面临新世纪挑战的现代汉语语法研究[C].济南:山东教育出版社,2000.王惠. 从组合特征看现代汉语名词词义单位划分[A].语言学论丛(27辑)[C].北京:商务印书馆,2003.王珏. 现代汉语名词研究[M].上海:华东师范大学出版社,2001.吴蔚天. 汉语计算语义学——关系、关系语义场和形式分析[M].电子工业出版社,1999.俞士汶 段慧明 朱学锋. 汉语词的概率语法属性描述[J].语言文字应用,2001,(3).俞士汶 朱学锋. 计算语言学文集.内部资料.(1—4 集)詹卫东. 面向中文信息处理的现代汉语短语结构规则研究[M].清华大学出版社,2000a.詹卫东. 基于配价的汉语语义词典[J].语言文字应用,2000b,(1).詹卫东. 面向自然语言处理的大规模语义知识库研究述要.http://ccl.pku.edu.cn/doubtfire/Course,2004.朱德熙. 语法讲义[M].北京:商务印书馆,1982.

121

Page 125: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

基于数据库的汉语语义构词法初探 亢世勇 侯伟玲 张文华 孙茂松

烟台师范学院中文系 清华大学智能技术与系统国家重点实验室中国烟台(264025) 中国北京(100084)[email protected] [email protected]

内容摘要:本文介绍了汉语语义构词研究的总体思路,含 52366 个双音合成词的《汉语语义构词数据库》的实现,在该数据库基础上经过分类统计得出的字位在汉语构词中的分布状况、字义与词义的关系类型及汉语语义构词的具体规则,最后讨论了语义构词规则的特点。关键词:汉语语义构词法,词汇语义学,数据库,中文信息处理

The research on Chinese semantic word-formationbased on a semantically annotated lexicon

Kang Shiyong Hou Weiling Zhang Wenhua Sun Maosong

Department of Chinese, National Key Lab.of Intelligent Tech. & Systems,Yantai Normal University, Tsinghua University,

Yantai 264025, China Beijing 100084, China [email protected] [email protected]

Abstract: This paper at first presents the general idea of the research on Chinese semantic word-formation, then introcuduces the relevant aspects regarding the realization of a Chinese semantic word-formation database with 52366 disyllabic compound words, the distribution of characters from semantic point of view, the types of relationships between character senses and word senses, and the rules of semantic word-formation, based on the database. The characteristics of semantic word-formation rules are further discussed at last.Key words: Chinese semantic word-formation, lexical semantics, database, Chinese information processing

1 引言汉语构词法是汉语词汇学、语法学长期以来关注的问题,取得了丰硕成果。近年来随

着汉语信息处理的发展,汉语构词法的研究又有了更加实际的意义和需求,又取得了很多有价值的研究成果。综观这些研究成果,主要是从语法形式入手研究构词法,关注并揭示词的结构类型、构词的语素类型与词性之间的关系等。这些成果丰富和发展了词汇学、语法学理论,同时,也为汉语信息处理词语的识别与理解提供了基本依据。基于语义的汉语构词法研究才刚刚起步,目前所能见到的比较有影响的成果有周荐、葛本仪、鲁川、傅爱平等先生的有关研究,这些成果有的提出了研究的思路、有的粗略地分析了双音复合词两个语素之间的语义关系、有的从理论上总结“意合”构词研究与实际应用上的不足。总的来说,这些成果是比较粗略的,限制了其在计算机语言信息处理当中的应用。面向信息处理的基于大规模标注语料库的汉语语义构词规则的深入细致的研究总结势在必行。

2 汉语语义构词研究的总体思路语素义与词义的关系一直是词汇语义学关心的理论问题,进入信息时代,其实际意义尤为

122

Page 126: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

重要。搞清楚语素(字)义经过整合转化为词义的规则,不仅对人(尤其是留学生)望文(字)生(词)义识读新词语具有重要的指导作用,而且是计算机语言信息处理当中未登录词语的识别以及语义理解的重要依据。随着信息时代的到来,现代汉语词汇迅速发展,“新词”激增,而“汉字”却未增,“这就证明了:汉族人既有用旧字造新词的创造能力,又有看旧字懂新词的领悟力。”“我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。这就应促使‘汉语基因工程’上马,即把字符当作汉语的‘基因’,构建各级‘意序模式库’,阐明造字、造词和造句的‘意合规则’。”这样,计算机就可以利用这些规则去识别那些越来越多的未登录词语,同时“也有助于对外汉语教学,要教外国学生也像汉族人一样,有看旧字懂新词的领悟力和把新知识‘意译’为汉语时有用旧字造新词的创造力” [1]。如何研究由字义整合转化为词义的规律,即汉语语义构词规则?我们认为拟分三步走。第

一步按照一个统一的语义分类体系,分别建立现代汉语字、词的语义分类信息库,尽可能获得全面、系统的字、词的语义分布信息。正是在这种思想指导下,我们本着人机两用的研究理念,引入“字位”的观念(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义),遵循“一字一条、一义一条、意义与语法功能结合、非语素字单独立条”等原则将“国标 GB2312”所定义的 6763 个汉字衍生为 17430 个字位,按照《同义词词林》的语义分类体系给每个字位归了类,录入数据库,建成了大型的《汉字义类信息库》[2]。第二步,在字、词语义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间的对应关系,为进一步进行语义构词规律的研究提供一个理论基础。经过比较研究,我们发现:(1)字的义类体系和词的义类体系基本一致。(2)字、词在各个义类中的分布比例基本一致。(3)从大类到每个小类,除了个别的类外,字、词的绝对数量多少是一致的,即除了个别类外,绝大部分类字最多、词也是最多的,相反,如果字最少、词也是最少的。可见,字与词在义类上有对应关系,大部分词的意义是在字义的基础上整合而成的。第三步,进行语义构词规律的研究。选取一定数量的双音合成词,利用“汉字义类信息库”对构成双音合成词的每个字进行语义标注[3],建成大型的《汉语语义构词数据库》,在此基础上进行统计归纳,总结出由字义整合成词义的具体规律[4]。前面两步工作已经完成,本文介绍的是第三步工作的一个初步结果。3《汉语语义构词数据库》的实现以《同义词词林》为基础,结合《现代汉语词典》《新词语大词典》[5]选取了 52366个双

音合成词,然后将《汉字义类信息库》的信息用计算机给这些合成词中的每个字标注义类标记和简单释义,经过人工校对,建成大型的《汉语语义构词数据库》。数据库中所用的语义类标记大类有:A人、B物、C时间与空间、D抽象事物、E 特征、F 动作、G心理活动、H 活动、I 现象与状态、J 关联、K助语、L 敬语。数据库样例如下:

ID 合成词 合成词的语义类 前字 后字 字、词语义关系类型2 力争 Je12 Ka19,尽力,努力 Ha02,争夺 6

3 联邦 Di02 Ie09,连接,联合 DI02,国 6

4 联播 Hh03 Ie09,连接,联合 Hh03,传播 6

5 联电 Hi11 Ie09,连接,联合 Bg04,有电荷存在和电荷变化现象 6

6 联合 Ie08 Ie09,连接,联合 Hj30,合并 6

8 联结 Ie08 Ie09,连接,联合 Ie02,发生某种关系,结合 6

123

Page 127: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

ID 合成词 合成词的语义类 前字 后字 字、词语义关系类型9 联军 Di11 Ie09,连接,联合 DI11,军队 6

10 联盟 Di02 Ie09,连接,联合 Ed60,结拜的 6

11 联盟 Hi63 Ie09,连接,联合 Ed60,结拜的 6

12 联赛 Hh07 Ie09,连接,联合 Hh07,比赛 5

13 联系 Ie02 Ie09,连接,联合 Je01,联结,联系(多用于抽象的事物) 6

14 联想 Gb01 Ie09,连接,联合 Gb03,推测 6

15 联姻 Hj51 Ie09,连接,联合 Da01,婚姻 6

16 联翩 Ka11 Ie09,连接,联合 Fd01,很快地飞 4

4字位在构词中的总体分布经过对《汉语语义构词数据库》的统计,17430 个字位约有 13972 个字位在双音合

成词中出现,占 80.17%。这些字位对 5万多个双音合成词的覆盖范围如下:字位频度序列(从高到低)

100 500 1000 2000 3000 4000 5000 6000 7000 8000 9250

覆盖范围(%) 11.31 29.87 43.43 60.40 71.16 78.62 83.95 87.96 90.88 92.97 95.33

前 100 个字位是:子Kd06、大 Ea03、人Aa01、不Ka18、心(心思)Df02、车 Bo21、事Da01、水 Bg01、军DI11、白 Ec04、然Kd06、小 Ea03、手 Bk08、酒 Br12、门 Bn04、身(身体)Bk01、体(身体)Bk01、火 Bg03、风 Bf02、家(家庭、家族)DI05、电 Bg04、女 Eb35、长Ea01、头(名词后缀、方位词后缀)Kd06、内 Cb05、眼 Bk03、口 Bk04、山 Be04、出Hj64、地Bn12、田 Bn12、草 Bh03、民Aa01、无Ka18、书 Dk20、道 Bn11、路 Bn11、儿(名词后缀,少数动词后缀)Kd06、春 Ca19、鱼 BI14、国 DI02、房 Bn01、船 Bo22、金(金属)Bm01、开(开始、开拔)Ig01、分Hj30、场 Cb28、红 Ec01、兵Ae10、冷 Eb26、文(文章)Dk19、老 Eb36、音Bg07、物 Ba01、意(意思)Df12、初Dn04、美 Eb30、处(地方)Cb08、色 Bg06、待HI07、数Dn03、话Dk11、光 Bg03、力De04、自(自己)Aa05、刀 Bo09、头 Bk02、别(分离)Ie09、级(等级)DI16、病Dl01、情(感情)Df04、灯 Bp01、衣 Bq03、地(地面)Bn05、后(未来的)Ca12、油Br08、查Hc18、黄 Ec01、加 Ih05、江 Be05、水 Be05、大(程度深)Ka01、实 Ed01、价 Dj02、气(人的精神状态)De03、声 Bg07、年 Ca18、动 Ih01、工(工人、工程)Ae02、称(名字、名称)Dd15、定(确定)Ie06、花 Bh11、入 Hj64、传 Ie01、木 Bm03、石 Bm04、法(法律)DI25、死 Ib03、评Hc20、天(天空)Cb07。这些字位在构成 5万多个双音合成词中出现的次数、数量与所占比例如下:

出现次数

627 458 318 213-268

100-193 90-99 80-89 70-79

字位数量

1 1 1 3 36 14 20 42

比例(%)

0.007 0.007 0.007 0.021 0.25 0.098 0.14 0.29

出现次数

60-69 50-59 40-49 30-39 20-29 10-19 9 8

124

Page 128: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

字位数量

45 101 136 183 608 1641 296 365

比例(%)

0.32 0.71 0.95 1.28 4.26 11.51 2.08 2.56

出现次数

7 6 5 4 3 2 1

字位数量

419 552 639 851 1135 2049 5010

比例(%)

2.93 3.87 4.48 5.97 7.96 14.37 35.13

出现在双音合成词前面的字位有 8931 个,出现在后面的字位 10647 个,前后两个位置上都有的字位有 5606 个,只出现在前面的有 3325 个,只出现在后面的有 5041 个。可见大部分字位在构词时位置是比较固定的。这也可以作为未登录词识别的一个有利条件。

5字义与词义关系类型经过对《汉语语义构词数据库》中 5万多个合成词的意义与构成合成词的两个字位的意义

之间的关系的考察,我们把字义与词义的关系归纳为以下八种类型(此处 A、B代表构成合成词中的前后两个字位)。(1)A+B=A=B (2)A+B=A (3)A+B=B (4)A+B=C(5)A+B=A+B (6)A+B=A+B+D (7)A+B=A+D (8)A+B=D+B第一种方式是指A、B是同义的,词义就是其中的一个字位义;第二种方式是指词义只保

留了字位A的意义,B的意义已经不存在了,即带有后缀的词以及一些偏义复词;第三种方式是指词义是字位 B的意义,而字位A已经不存在了,即带有前缀的词以及一些偏义复词;第四种是指词义和字位义之间没有任何明显的联系,AB 组合后产生了新的意义,词的引申义和比喻义也属于此类;第五种是指词义是由A、B 两个字位义相加而成。第六种是指词义包含了A、B 两个字位义,但是又加上了其他的意义(D),主要包括改变词性、前一个字位义与后一个字位义有领属关系、某个字位改变词性、带有某种陪义;第七种是指字位 B的意义已经变成了其他意义(D),词义由A、D 两个字位义构成,有的又加上了其他的意义;第八种是指字位A的意义已经变成其他意义(D),词义由D、B 两个字位义构成,有的又加上了其他的意义。各种类型包含的合成词的数量与所占比例如下:类型 1 2 3 4 5 6 7 8

合成词数量 4035 1031 297 4201 14455 23562 2780 1886

比例(%)

7.71 1.97 0.57 8.02 27.60 44.99 5.31 3.60

在这八种类型中只有第四种(A+B=C)看不出字义与词义的关系,其他 7种字义与词义都有明显的关系,第四种只占 8.02%,而其他七种加起来占 91.98%,数据表明,字义与词义有密切的关系,可以由字义推知词义。造成每类当中A、B 两个字位与词义关系的具体情况,我们

125

Page 129: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

将进一步研究。6双音合成词语义构词的具体规则通过对《汉语语义构词数据库》的分类、归纳、统计,从语义大类着眼,初步归纳了汉语

双音合成词语义构词的具体规则,并将这些规则进一步归纳为四个大的类型。下列规则中“A、B、C、D、E、F、G、H、I、J、K、L”为语义类大类的标记,具体规则中“AB”表示双音合成词中前一个字位的语义类为 A 类、后一个字位的语义类为 B 类,其他类推。6.1同类规则构成双音合成词的两个字位属于同一个语义类,所构成的词的语义类与其基本相同。AA

的词义 100%为 A 类,BB的词义 88.89%为 B 类,CC的词义 83.82%为 C 类,DD的词义 86. 83%为 D 类,EE的词义 84.98%为 E 类,FF的词义 68.03%为 F 类,GG的词义 84.5%为 G 类,HH的词义 88.41%为 H 类,II的词义 74.12%为 I 类,JJ的词义 74.72%为 J 类,KK的词义82.08%为 K 类,LL的词义 60%为 L 类。可见,除了 II、JJ、LL三类外,其他类构成的词义与其同类的都在 80%以上。属于同类构成的双音合成词共有 17565 个,占33.54%。6.2 后向型规则构成双音合成词的两个字位属于不同的语义类,所构成的词的语义类与后一个字位的语义

类相同。属于这一类的有(后面的数字为占该类的百分比):AB 类 63.63%,AC 类 60%,AD类 63.46%,AH 类 49.49%,BC 类 60.73%,BD 类 69.84%,BH 类 65.84%,BI 类 51.23%,BJ类 48%,CA 类 79.07%,CB 类 71.95%,CD 类 65.77%,CH 类 62.33%,CI 类 41.43%,DA 类88. 22%,DB 类 62. 54%,DC 类 56.18%,DH 类 50.13%,EA 类 91.08%,EB 类 77.30%,EC类 72.2%,ED 类 71.6 %,EF 类 52.09%,EH 类 56.05%,FA 类 74.47%,FH 类 55.93%,HA 类59.55%,HD 类 51.16%,HE 类 53.49%,IA 类 58.2%,IH 类 57. 6%,JG 类51.06%,KA 类 73.27%,KE 类 56.54%,KG 类 54.29%,KH 类 57.27%,KI 类52.73%,LE 类 50%,LH 类 71.43%。可见,这些类构成的词的语义类 50%以上的都与后一字位的语义类相同,多数在 60%以上。与后一字位语义类不同的那些词语多数分布在很多类中,但也有个别的几个类比例高达 20%。属于后向型规则构成的双音合成词共有 18020 个,占 34.41%。后向型的语义重点落在双音合成词的后一个字位上,主要包括语法构词上的两种形式即偏正式结构和加前缀式。6.3前向型规则构成双音合成词的两个字位属于不同的语义类,所构成的词语义类与前一个字位的语义类

相同。属于这一类的有(后面的数字为占该类的百分比):AE 类 59.15%,AF 类 75%,AG 类56.25%, AK 类 87.5%,BA 类 86.25%,BK 类 85.46%,CK 类 72. 38%,DK 类 65.68%,EK 类47.23%,FJ 类 51.72%,FK 类 51.95%,GJ 类 50%,GK 类 54.46%,HF 类 60.22%,HG 类53.97%,HJ 类 55.98%,HK 类 53.85%,HL 类 100%,IK 类 45.52%,JK 类 46.97%。可见,这些类构成的词的语义类 50%以上属于前一个字位的语义类,个别类的百分比在50%以下,该类构成的其他词的语义类分布在比较多的类里,比例都很小。属于前向型构成的双音合成词共有 1984 个,占 0.39%。前向型的语义重点落在双音合成词的前一个字位上,主要原因是后一个字位是意义比较虚灵的后缀或类后缀,整个词语的意义由前一个具有实在意义的字位决定。

126

Page 130: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

6.4无向型规则构成双音合成词的两个字位的语义类不同,所构成的词的语义类比较多,但其中有一些主

要的类比例比较高。这些类有:AI 类词义为 A、D、I 类的分别占31.81%、22.73%、18.18%,BE 类词义为 B、E 类的分别占 35.60%、43.69%,BG 类词义为A、D、G 类的分别占 10.71%、25%、39.29%,CE 类词义为 A、C、E 类的分别占13.64%、27.28%、32.95%,CF 类词义为 C、F、H 类的分别占 11. 76%、35. 29%、35. 29%,CG 类词义为 D、G 类的分别占 21. 43%、42.86%,CJ 类词义为 C、D、E 类的分别占25%、16.67%、16.67%,DE 类词义为 A、D、E 类的分别占 13. 21%、39. 15%、36. 79%,DF类词义为 D、F、H 类的分别占 28%、20%、28%,DG 类词义为 D、G 类的分别占42.59%、39.81%,DI 类词义为 D、I 类分别占 35.54%、40.50%,DJ 类词义为 D、J 类的分别占35.71%、28. 57%,EG 类词义为 E、G 类的分别占 36.75%、43.59%,EI 类词义为 E、I 类的分别占 30.75%、48.06%,EJ 类词义为 E、J 类的 40.23%、27.59%,FB 类词义为 B、F、H 类的分别占 27.71%、33.19%、22.34%,FC 类词义为 C、D、F 类的分分别占 32%、20%、20%,FD类词义为 D、F、H的分别占 34.25%、19.34%、24.86%,FE 类词义为 E、F 类的分别占26.67%、56%,FG 类词义为 F、G 类的分别占 34.69%、30.61%,FI 类词义为 F、I 类的分别占46.56%、37.02%,GA 类词义为 A、E、G的分别占 48.21%、21.43%、19.64%,GB 类词义为B、G 类的分别占 37.88%、27.27%,GD 类词义为 D、G 类的分别占 37.99%、32.52%,GE 类词义为 E、G 类的分别占 42.11%、41.35%,GF 类词义为 F、G 类的分别占40.98%、27.87%,GH 类词义为 G、H 类的分别占 30.28%、46.79%,GI 类词义为 G、I类的分别占 27.72%、49. 5%,HB 类词义为 B、H 类的分别占 34.27%、47%,HC 类词义为 C、H 类的分别占 28.3%、44.74%,HI 类词义为 H、I 类的分别占48.37%、33.1%,IB 类词义为 B、I 类的分别占 37.1%、30.67%,IC 类词义为 C、I 类的分别占 32.18%、33.17%,ID 类词义为 D、H、I 类的分别占35.82%、20.28%、31.84%,IE 类词义为 E、I 类的分别占 38.01%、41.58%,IF 类词义为 F、I 类的分别占 31.3%、41.3%,IG 类词义为 G、I 类的分别占 39.73%、23.29%,IJ类词义为 I、J 类的分别占 42.14%、26.43%,JA 类词义为 A、J 类的分别占38.71%、24.73%,JB 类词义为 B、H、J 类的分别占 16.49%、22.34%、23.37%,JC 类词义为 C、J 类的分别占 38.6%、18.81%,JD 类词义为 D、H、I、J 类的分别占25.09%、15.57%、15.93%、14.84%,JE 类词义为 E、I、J 类的分别占35.39%、21.93%、15.73%,JH 类词义为 H、J 类的分别占 49.36%、24.04%,JI 类词义为 I、J 类的分别占 45.57%、30.77%,KB 类词义为 B、K 类的分别占37.25%、16.34%,KC 类词义为 C、K 类的分别占 37.58%、22.93%,KD 类词义为D、K的分别占 40.11% 、21.39%,KF 类词义为 F、H 类的分别占 44.26%、14.75%,KJ 类词义为 J、K 类的分别占 49.26%、24.40%。由此可见,这些规则构成的词义所属的语义类的确比较多,既有前向的,也有后向的,还有其他的,但仔细比较我们列出的类及其数据,不难发现,这些类中词的义类尽管比较多,但都和构成该词的前后两个字位密切相关,即和前后两个字位同类的最多,将与前后两个字位同类的加起来多数都在60%以上,有的能够达到 80%以上,从这一点看,我们可以将这一类概括为前后向的,其中有的稍偏前向、有的稍偏后向、有的干脆是对半。属于无向型构成的双音合成词

127

Page 131: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

有 14797 个,占 28.27%。这一类具体规则最复杂,但构成的双音合成词相对较少。7 汉语语义构词规则的特点通过对具体规则的归纳统计,我们发现语义构词规则大致具有以下特点。

7.1以上四个类型的规则覆盖范围不同,大致构成如下不等式:后向型规则>同类规则>无向型规则>前向规则,后向型规则比例最高。这四个类型的规则在分布上是互补的。7.2从这些具体规则,我们可以看到,尽管两个语义类的字位组合在一起构成的合成词语义类比较复杂,几乎每一种都可以构成多个语义类的词语,但我们也看到,其中数量最多的类还是和构成双音合成词的字位的语义类相同的语义类,即AA 类全部为 A 类,AB 类最多的是A 类、B 类,AD 类最多的是A 类、D 类,等等。根据字位与词义的亲近度,四个类型的规则可以构成如下不等式:同类规则> 后向型规则> 前向规则>无向型规则。同类规则构成的词语义类和字位的语义类相同的最多。总之,四类规则共同的特点是词义都和前后两个字位有密切的关系,可以通过两个字位在一定程度上推出词的语义类,这个比例能够达到 60%以上。7.3 语义构词规则从照理论上来说应该有 144种,实际只有 130种,其中 14种没有。这 130种按实际包含词语数量构成了下列不等式,括号中为合成词的数量。BB(5004)>HH(3509)>EE(2609)>DD(2556)>EB(2530)>ED(2105)>HD(1979)>HB(1381)>BD(1041)>IB(1026)>II(966)>FB(912)>DB(842)>EA(822)>EH(794)>ID(770)>CC(719)>IH(711)>AA(670)>HI(578)>CB(573)>BK(572)>GG(560)>JD(539)>KH(470)>DA(469)>BC(466)>HE(453)>HA(446)>CD(444)>FF(442)>EI(437)>FH(395)>IE(390)>HJ(389)>DH(377)>KD(375)>HC(365)>DC(344)>GD(331)>BE(309)>AD(301)>JB(289)>KE(284)>HF(279)>JK(279)>EC(272)>EK(267)>KK(264)>FI(263)>EL(262)>JJ(261)>HK(258)>BH(243)>BA(240)>HG(239)>EG(234)>IF(229)>GH(215)>KJ(208)>DE(208)>IC(203)>BI(203)>EF(202)>KI(199)>FD(179)>JE(175)>EJ(174)>JI(167)>KG(167)>DK(159)>KC(158)>FK(155)>KB(153)>FE(151)>CH(144)>IJ(138)>IK(134)>GE(130)>IA(121)>DI(120)>DG(108)>GK(107)>KA(102)>JC(100)>AH(99)>AB(99)>GI(95)>JG(93)>JA(91)>FJ(88)>CA(86)>CE(86)>AK(80)>FC(74)>IG(72)>AE(71)>CI(67)>GJ(66)>KF(64)>GB(64)>GA(56)>DH(55)>GF(54)>AC(50)>FG(48)>FA(46)>JF(40)>BG(28)>BJ(25)>DF(25)>CJ(24)>AI(23)>GC(19)>CF(17)>AG(16)、AJ(16)>CG(14)>LK(6)>LL(5)>LE(4)、HL(4)、AF(4)>LD(3)>KL(2)、LG(2)>GL(1)、LJ(1)、IL(1)、LI(1)。可见,BB、HH、EE、DD构词能力最强,构成的词最多。

7.4每个义类的字位构词能力不尽相同,按照构词频率构成下列不等式,括号里的数字是频度。B物(21189)>H活动(17242)>D抽象事物(16025)>E特征(15685)>I 现象与状态(7928)>K助语(5381)>C时间与空间(5281)>A人(4604)>F 动作(4223)>J 关联(3634)>G心理活动(3339)>L敬语(56),可见,这 12 类中,B物类构词能力最强,L敬语类构词能力最差。这个不等式序列和各类字位数量多少构成的不等式序列一致,说明每类构词能力的强弱决定于该类字位的多少。其更深层的原因是物体、活动是宇宙世界的主体,词汇是反映主客观世界的,由物体、活动产生的词汇占绝对多数。7.5每个义类字位在双音合成词前后两个位置上出现的多少也不相同。出现在双音合成词前一

128

Page 132: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

个位置上的义类根据频度构成下列不等式,括号里的数字是频度。E特征(10763)>H活动(9928)>B物(8267)>D抽象事物(5325)>I 现象与状态(4788)>K助语(2808)>F 动作(2750)>C心理活动(2296)>J 关联(2176)>G心理活动(1735)>A人(1433)>L敬语(37)。这个不等式和 7.4的不等式不同,E特征类由原来的第四位提前到第一位,这是因为汉语偏正式构词数量最多,E特征类往往充当偏正式构词中偏的成分,所以出现在双音合成词前一个位置上的较多。出现在双音合成词后一个位置上的义类根据频度构成下列不等式,括号里的数字是频度。B物(12916)> D抽象事物(10697)> H活动(7314)>E特征(4918)>A人(3167)>I 现象与状态(3139)>C心理活动(2985)>K助语(2573)>F 动作(1473)>J关联(1458)>G心理活动(1604)>L敬语(19)。这个不等式序列和 7.4里各义类构词频度构成的不等式序列大体是一致的,和前一个位置上义类构成的不等式序列形成一个互补。B物、D抽象事物、H活动、E特征、A人在双音合成词后一个位置上出现的频率更高。这是我们从语义类上得出的结论。这个结论可以从注重形式的语法构词中得到验证。因为汉语构词中定中式偏正结构占 53%以上、联合结构占 27%以上、动宾结构占 13%以上,这三种构词方式的总和在 92%以上,而这些结构中处在后一个位置上的大多都是事物和人一类的,因为人和事物是宇宙世界的主体,其他都是由此而生发的,在词汇发展的过程中也遵循了以人和事物为中心附加其他属性而生成新词语的规则。7.6几乎每一条规则都可以构成属于 A 类(人)的词语,说明了多数字位都与人相关。注释:[1]鲁 川.2003.汉语的根字和字族——面向知识处理的汉语基因工程.汉语学习,(3):1-10[2]亢世勇、孙茂松等.2002.《汉字义类信息库》的研究与实现.汉语语言与计算学报,7(2):129-142[3]语义类代码采用《同义词词林》的代码。[4] 亢世勇、孙茂松.2002.现代汉语字、词义类分布统计研究.第三届中文词汇语义学术研讨会论文集.台湾中研院语言所[5]《现代汉语词典(1996版)》,中国社会科学院语言所词典室编,商务印书馆,1996年;《新词语大词典》,亢世勇主编,上海辞书出版社,2003年。参考文献:戴昭铭.1988.现代汉语合成词的内部结构与外部功能的关系.语文研究,(4)符淮青.1996.词义的分析和描写.北京:语文出版社葛本仪.2001.现代汉语词汇学.济南:山东人民出版社刘叔新.1985.汉语复合词内部形式的特点与类别.中国语文,(3)刘叔新.1985.汉语描写词汇学.北京:商务印书馆苑春法等.1998.基于语素数据库的汉语语素及构词研究.世界汉语教学,(2)苑春法.2000.汉语构词研究.语言文字应用,(1)郑家恒.2001.二字词词义组合推理方法的研究.中文信息学报,(6)周 荐.1991.复合词词素间的意义结构关系.语言研究论丛(第六辑).天津:天津教育出版社周 荐.1995.复合词构成语素的选择.中国语言学报,(7)周 荐.1999.双字组合与词典收条.中国语文,(4)

129

Page 133: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

论词的语义网络中语义成分的动态性100083 北京语言大学外国语学院 司富珍

[email protected]

每一种语言的词语系统都是一个涵义关系的网络。要想详细地说明一个词的意义,必须把它放置在它所居处的语义网络中才有可能。一、汉语词语内部语义成分的动态性这里所说的语义成分(semantic component)指的是语义学用来分析词的涵义的不

可再分的特征。有的著作把它称之为义素(sememe)。语义成分分析法或词汇分解法是 20世纪 50年代从一些美国人类学家设计的亲属词汇的分析法发展而来的。主张用这种方法分析词汇语义的人认为,所有的词项(lexeme)都可以用一批有限的语义成分(semantic component)、语义标志(semantic marker )、义素(sememe) 或语义特征(semantic feature)来分析,而这些语义特征应当是具有普遍性的。

词汇分解的早期代表人物是雅可布逊(Jakobson)和叶尔姆斯列夫(Hjelmsev )。而Katz ,Lakoff, McCwley ,Ross 等人也都在这方面做过大量的工作。而Dowty则在蒙太古语义学的框架内对词汇分解理论做了新的贡献。方立(2000)对此也有专门的论述和评介。

举例来说,按照词汇分解的方法,“张三杀了李四”可以分析为: SCause Zhangsan S Become S Not S Alive Lisi

SCause Zhangsan S Become S Not alive Lisi

SCause Zhangsan S Become Not alive Lisi

S

Cause become not alive zhangsan Lisi

这一过程是通过谓词提升实现的。而这时可以用KILL去取代第一个节点下的语义成分组合于是得到

130

Page 134: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

S

KILL ZHANGSAN LISI

而这一过程之所以实现正是基于对 KILL 进行词汇分解的原理。而且从中我们可以看到KILL和(BECOME)DEAD及(BECOME NOT) ALIVE之间的语义网络关系。生成语义学家在这方面做过很多不少工作。麦考莱 1968就是一个代表。不过,词

汇分解要考虑哪些词汇更为基本,还在在派生中什么时候进行词汇插入工作,这些方面生成语义学家们都未达到过一致。运用语义成分分析的好处在于:一可以寻找语义上共性的东西,如

human,adult,male等这些语义特征是所有的语言中都有的。不同只在于不同的语言中有不同的组合方式,二是可以用语义成分来衡量一个短语是否有意义或是否可以接受,三是分析构成短语或句子的各个单词的语义成分可以推知整个短语或句子的意义。有的语义学家对此也提出的疑问。比如说有人认为到目前为止还不能断定是否能

够分析出一整套适合于分析任何语言的“语义成分”来。再是有不少词除了正常的用法外,还有一些其他的用法。如说“愤怒”一词,包含有“有生”这样的语义成分,它只能和一个表示有生命的物体的词连用。可以说愤怒的人,愤怒的狮子,但不能说愤怒的桌子。但实际上我们却可以在文学作品中看到“愤怒的葡萄”这样的说法。事实上,有的人不止于对这种方法进行批评,而是进一步探讨词的语义网络中的

结构问题。结果有许多有趣的发现。:1) 语义干涉和义素的脱落、添加和合并王艾录、司富珍(2002)认为,在语词的语义网络中,存在着一种义素的脱落、添

加和合并现象,而这些现象可以用特征分析的方法得到说明。特征分析的方法发端于结构主义语言学关于语音的分析。一些语义学家将这种方法运用于语义分析中,从而产生了义素分析的方法。如“父亲”一词的义素分析为:[+人类、+直系的、+亲代、+男性、+长辈]“妻子”可作如下的义素分析:[+已婚的、+女性的、+男子的配偶]

义素分析进行到这一步,只是对孤立的词进行了特征的描述。而在句法结构的动态环境中,这些特征还需要进行相互的匹配、协同和核查,这与不同的机器零件组配到一起时要经过磨合才能正常运转是一个道理。在磨合过程中,带有强特征的一方可能会根据需要改造特征较弱的一方,以达到结构的稳定。当带有各自不同的特征的词语合并在一起,它们之间所带的义素特征可能相容,也可能相互抵触。对于语言学家来说,可能更感兴趣的是那些特征相互抵触的词语之间是如何核查而后协同、整合(converge)的。在我国有的学者敏锐地观察到了这一内部构造现象,为探究人类语言的普遍规律作出了贡献。语义干涉和义素的脱落理论的提出就是其中的一个代表性例子。这种理论认为,在汉语词汇中存在着这样一些“语义的异常组合”:它们是超越常规、违反逻辑的搭配,有趣的是这些搭配并不总是让人感觉

131

Page 135: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

荒谬不可接受的,相反,有许多表面看来特征冲突的词语或词语构件竟会在语言使用中畅通无阻,而说话者却总是习焉不察。例如:未婚妻:其中“妻”如上所述,带有[+已婚]的语义特征,因而与“未婚”之核心语义特征相矛盾。这时“未婚”带的[+尚未结婚]的语义特征是一个强的特征,核查程序检测出这一冲突后,修正程序对“妻”中与之矛盾的弱特征[+已婚]干涉、改造,致使这一特征脱落,从而使整个结构达到了平衡、自稳。

动词性的短语中也有不少这样的例子。如:“干洗”一词中,洗=[+用水,+去污],而干=[+无水]。而这两个

组件合并时,[+用水]的语义特征和[+无水]的语义特征发生冲突,但语言自组织本身是能力对付它的,这两个特征磨合,[+无水]的特征是强特征,改造了与之相对的组件的语义特征,使其中的弱特征脱落。

还有并列结构的:“各位来宾、女士们、先生们”:“各位来宾”+女士们(-宾客)+先生们(-宾客)。同类的如:党员和干部、团员和青年、江总书记和全体中央领导、裁判员运动

员和广大体育工作者、中国和世界、鸡鸭鱼肉。语义干涉引起义素的添加、脱落或合并有时是暂时的现象,有的则已经固化。比如:镜子:中国古代没有玻璃镜,镜子是用铜制的。因此没有必要叫它铜镜。

正如没有必要把“人”叫“长鼻子的人”一样。[+铜制的]本身就是镜子的一个必有的义素或语义成分。但是在引进玻璃加工工艺有了玻璃镜产生了“玻璃镜”的词语,这时“玻璃镜”里“镜”的[+铜制的]的语义成分脱落。经长期固化后,当需要指称古代中国人使用的镜子时必须添加一个“铜”字以填补因义素脱落后造成的语义的空缺,于是又有了“铜镜”的词语。这时“镜”的地位提高,成了“铜镜”和“玻璃镜”的上位义词。同样的例子还如:电视:黑白电视、彩色电视。洗:水洗、干洗。电脑:台式电脑、手提式电脑电话:有线电话、无绳电话

这些都是核查和修正的原理作用的结果。语义特征的核查和修正并不止于单词内部的组合,句法平面的词语语义特征匹

配也遵循同样的道理。以“妻子”一词的词汇分解为例,以往所做的只是将它分析为诸如以下的一些语

义成分:[+已婚的、+女性的、+男子的配偶]

词汇分解进行到这一步,只是对孤立的词进行了特征描述,而在句法结构的动态环境中,这些特征还需要进行相互的匹配、协同和核查,这与不同的机器零件组配到一起时要经过磨合才能正常运转是一个道理。在磨合过程中,带有强特征的一方可能会根据需要改造特征较弱的一方,以达到结构的稳定。当带有各自不同的特

132

Page 136: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

征的词语合并在一起,它们之间所带的义素特征可能相容,也可能相互抵触。对于语言学家来说,可能更感兴趣的是那些特征相互抵触的词语之间是如何核查而后协同、整合(converge)的。譬如上面举到的“愤怒的葡萄”,“愤怒”的[+有生]的特征与“葡萄”的[+无生]的特征是相冲突的,二者的结合是如何实现的?类似的例子有很多。

2.句子层面语义成分的动态性语义成分的动态性和语义特征的核查和修正并不止于单词内部的组合,短语结

构平面的语义特征匹配也遵循同样的道理。众所周知,乔姆斯基(1957)在《句法结构》里提到的那个经典的例子并非他

本人所杜撰,而是出自一部文学作品:无色的绿色的思想在愤怒地睡觉(Colorless green idea sleeps

furiously)。乍一看来,这是一个荒谬不经的句子,而给它以一定的语境,竟会让人将之视

为正常的句子来看待。这就是语义特征的相互干涉和影响在起作用。我们不妨将这个句子拆成一个个小的组件,对其工作原理进行考察:先看“无色的绿色的思想”:“绿色的”中[+绿、+属于一种颜色、+往往用

于象征怪诞的东西]这一义素分析与“无色”的语义特征相互干涉,从而脱落了[+绿+属于一种颜色]的特征,留下的[+象征怪诞的东西]的特征及“无色的”所带的强特征与“思想”相匹配就不再是难于理解和不可捉摸的了。“愤怒地睡觉”也是一样的道理。很多超常搭配的结构其语义解释都可以从语义成分的动态性上得到说明。

3.语义成分计算的动态性和自然语言信息处理陆俭明(2000)曾提出一个有意思的问题:汉语中存在这样三种类型的短语:

a中国 1 日本 2 瑞士 3 1-2-3 联合关系 b中国 1 山东 ( 3 ) 湖北 ( 4 ) 2 1-2修饰关系,3-4联合关系c中国 3 山东 4 济南 1-2修饰关系,3-4修饰关系 1 2表面看来都是由不同地名组成的三个短语却有着迥然不同的三种结构切分。

那么,如何才能让计算机识别在什么情况下三个处所名词构成 a 类关系,什么条件下构成 b 类关系,什么条件下构成 c 类关系?本文作者认为可以尝试使用特征核查的方法来处理对其作出形式化的描写。例如可以首先对每个词进行语义特征分析:中国=[+国家、+东方的、+发展中的…]日本=[+国家、+东方的、+发达的…]瑞士=[+国家、+西方的、+发达的…]

133

Page 137: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

山东=[+省、+∈{中国}、+沿海的…]湖北=[+省、+∈{中国}…]济南=[+城市、+∈{中国}、+∈{山东}…]然后用这些词语组成高一级的短语,方法是通过合并,合并时特征要进行核

对,不同的核对方式显示不同的句法结构关系。我们可以从中得出规则,找到其形式化的规律,而后设置一些规则以使计算机识别各自不同的结构关系。

“中国 日本 瑞士”可以分析为:{中国} {日本}{瑞士}=[+国家、+东方的、+发展中的…][+国家、+东方的、+发 达的…]

[+国家、+ 西方的、+发达的…] (核查)=[+国家]([+东方的、+发展中的…][+东方的、+发达的…][+

西方的、+发达的…]) (提取公因素)(引入并列规则:三个或三个以上的词构成并列关系,当且仅当它们有一个

公因素可以提取) {中国} ∧{日本}∧{瑞士} ( 三个词之间是并列关系)“中国 山东 湖北”可以分析为:{中国} {山东}{湖北}=[+国家、+东方的、+发展中的…][+省、+∈{中国}、+沿海的…]

[+省、+∈{中国}…] (特征核查)=[+国家、+东方的、发展中的…]([+省][+∈{中国}])([+沿

海的…]∧[-非沿海的…]) (提取公因素)={中国} ([+省][+∈{中国}])([+沿海的…]∧[-非沿海的…

]) (并列规则)(引入偏正规则:a与 b构成偏正关系,当且仅当 b中含有[+∈a]的义素。) {中国} ({山东}∧{湖北})“中国 山东 济南”可以分析为:{中国} {山东}{济南}=[+国家、+东方的、发展中的…][+省、+∈{中国}、+沿海的…][

+城市、+∈{山东}…] 核查 1 结果:非并列关系 (并列规则)={中国}[+省、+∈{中国}、+沿海的…][+城市、+∈{山东}…]={中国} {山东}{济南} (偏正规则)

参考文献方立,2000,《逻辑语义学》,北京语言文化大学出版社。

134

Page 138: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

陆俭明,2000,语言文字应用面面观,《语言文字应用》第二期。王艾录、司富珍,2002,《语言理据研究》,北京:中国社会科学出版社。周建民, 1996年,文学作品语言对书面语习得与普通话习得的影响,《语言文字

应用》第 1 期。另见语言文字网,http://yywz.jhun.edu.cn/xide.htm。

135

Page 139: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Feature Representations and Logical Compatibility between Temporal Adverbs and Aspects

Shih-Min Li, Su-Chu Lin, Keh-Jiann ChenCKIP, Institute of Information Science, Academia Sinica, Taipei{shihmin, jess} @hp.iis.sinica.edu.tw ; [email protected]

Abstract In this paper, we propose clear-cut definitions to distinct temporal adverbs and provide descriptive features for each class of temporal adverbs. By adopting the corpus-based approach and measuring time points in temporal axis, the temporal adverbs listed in Lu & Ma 1999 are revised and reclassified into four main classes namely, time, frequency, duration, and time manner. The descriptive features suffice to discriminate temporal relations and to predict logical compatibility between temporal adverbs and aspects.

1 IntroductionThere are about 130 temporal adverbs in Mandarin Chinese. Lu & Ma classify the temporal adverbs into two groups, speaking-time related adverbs (abbr: ST-related adverbs, 定時時間副詞) and reference-time related adverbs (abbr: RT-related adverbs, 不定時時間副詞). The ST-related adverbs consist of 27 temporal adverbs, which are subdivided into three subclasses. In the class of RT-related adverbs, 104 temporal adverbs are listed and subdivided into 18 subclasses. Lu and Ma’s subdivision of temporal adverbs based upon aspects of situations. However, the subdivision is vague and the definition is ambiguous. For example, cengjing 曾經, ceng 曾, yeyi 業已 and yejing 業經 are grouped into two different subclasses of ST-related adverbs. The former two cengjing and ceng are grouped into the same subclass, which express the actions or situations have been existed or happened before speaking time. The later two yeyi and yejing are grouped into the same subclass, which indicate the actions or situations have been completed or occurred. In fact, it is difficult to differentiate the actions or situations that have been ‘happened’ from those ‘completed’, especially when the situation type is achievement with SHORTLY-PRECEDE(t1,t2) or NEARLY-EQUAL (t1,t2).75 Moreover, temporal adverbs may not have the same syntactic behaviour even though they are classified into the same subclass. For instance, the ST-related adverbs cong 從, conglai 從來, zhijin 至今, xianglai 向來, sulai 素來, lilai 歷來, su 素, and yixiang 一向 are grouped into the same subclass. When co-occurring with aspect markers le 了, guo 過 and zhe 著, cong, conglai and zhijin are incompatible with le and zhe; however, xianglai, sulai, lilai, su and yixiang are incompatible with le and guo. The cause of the difference in the compatibility of temporal adverbs with aspects will be also under discussion.

In this paper, we propose clear-cut definitions and provide descriptive features for each

75 The terms SHORTLY-PRECEDE(t1,t2) and NEARLY-EQUAL(t1,t2) are mentioned by Yang & Bateman (2002: 1130-31). The predicate SHORTLY-PRECEDE(t1,t2) indicates that the time point t1 only shortly precedes the time point t2. The predicated NEARLY-EQUAL(t1,t2) indicates that the time point t1 lies close to the time point t2. Applying the terms to the explanation of achievements, t1 can be treated as Yang & Bateman’s ti, the event initial time, and as Smith’s (1991) I, initial points, and t2 can be regarded as Yang & Bateman’s tf, the event finishing time, and as Smith’s F, final points. Yang & Bateman’s expression of the predicates used to express temporal relations are altered from Allen 1984.

136

Page 140: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

subclass of temporal adverbs. The descriptive features help to define temporal relations and to predict the compatibilities between temporal adverbs and aspect markers.

2 Literature Review and MethodologyTo make a clear-cut differentiation, we use the Academia Sinica Balanced Corpus (Sinica Corpus) and adopt the corpus-based approach to analyze Mandarin Chinese temporal adverbs. Time points in temporal axis will be used to define the temporal relations of the temporal adverbs in Lu & Ma 1999.

Smith (1991) discusses aspectual systems in language. She illustrates each situation type and viewpoint type with temporal schema. Below are the temporal schemata of Mandarin Chinese aspectual markers le, guo and zhe, which are represented by symbols I, F, F+1, …. and /.76

(1) Temporal schema fore the –le Perfective (Smith 1991: 348)77

I F

/ / (RVC)

(2) The Mandarin –guo perfective viewpoint (Smith 1991: 353)I ….F F+1

/ /

(3) The –zhe viewpoint (Smith 1991: 363)I….….

////State

Klein (1994) points out five temporal features and notes TT, TU and TSit. TT, topic time, is the time span to which the speaker’s claim on the occasion is confined. TU is time of utterance, which is the time at which the utterance is made. TSit is time of situation, which presents the time at which event occurs.

In addition to Smith’s and Klein’s temporal terminology of time points and time interval, the event modules in the framework MARVS (Module-Attribute Representation of Verbal Semantics) proposed by Huang et al (2000) can be also applied to analyze temporal relations of temporal adverbs. Event modules are the basic building blocks of the event contour. Five event modules stand alone or in combination, including Boundary, Punctuality, Process, State and Stage. The event module Boundary is defined as an event module that can be identified with a temporal point and must be regarded as a whole (including complete Event), which is adopted in this paper to define the notion of Boundary Point.

Yang & Bateman further discuss the semantic temporal relations of aspect system and propose principled semantic conditions for aspect combination. In their opinion, Chinese aspect system is actually composed of both aspect morphemes (-le, -zhe, -guo4, etc.) and aspect adverbials. Moreover, they propose that the Chinese aspect system has basically seventeen simple primary aspect forms. These simple primary aspect forms belong to the three subsystems of perfective, imperfective or future-existing according to the semantic properties in individual cases. Some simple primary aspect forms can combine to form an aspect of secondary type if their temporal attributes are in harmony. The temporal relation of

76 I and F indicate initial and final points. F+1 indicates a stage distinct from the final stage. The dots indicate internal stages and the slashes indicate the interval process.77 RVC is the abbreviation of Resultative Verb Complements.

137

Page 141: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

the combination is represented graphically by time point ti, tf, tr and ts78.

In this paper, we adopt the terms proposed in the research above to help us clarify the temporal relation of each subclass of the temporal adverbs listed in Lu & Ma. We use the notations of ST, RT, ET, BP, Start and End to define temporal relations. Each respectively denotes the speaking time, the reference time, the event time, the boundary point, the start point of the event, and the end point of the event. For instances, the temporal features for le, guo and zhe are defined as follows in our system which are compatible with the notions of (Smith 1991).

le: BP≦ST, which means the prominent boundary point of the referred event precedes the speaking time.

guo: End<ST, which means the end point of the referred event precedes the speaking time.

zhe: ET=RT, which means the referred event time overlaps with the speaking time.

3 Temporal Relations and Compatibilities between Temporal Adverbs and Aspects

Temporal adverbs in Lu and Ma are divided into two classes, ST-related adverbs and RT-related adverbs, according to the time point of the situation referred to. The ST-related adverbs establish constraints between event time (ET) and speaking time (ST), but the RT-related adverbs establish constraints between ET and reference time (RT). For example, the ST-related adverb cengjing only denotes events or situations happened or existed before ST. Precisely speaking, the end points of events are prior to ST. For example, the sentence wo shangci cengjing jieshao guo 我上次曾經介紹過 ‘I have introduced it last time.’ is grammatical; however, *wo xiaci/mingtien cengjing jieshao guo 我 *下次/明天 曾經介紹過 ‘*I have introduced it next time/tomorrow.’ is ungrammatical. The RT-related adverb yijing 已經 is used to refer to events happened or existed before either a certain specific time, an event or ST. For instance, the sentences shang libaiwu wo yijing chuguo le 上禮拜五我已經出國了 ‘I have gone abroad last Friday.’ and xia libaiwu wo yijing chuguo le 下禮拜五我已經出國了 ‘I have been abroad next Friday.’ are both grammatical even though xia libaiwu is a future specific time.

Lu & Ma divide ST-related adverbs into three subclasses and RT-related adverbs into eighteen subclasses. Three subclasses of ST-related adverbs are subdivided into nine sub-subclasses. Eighteen subclasses of RT-related adverbs are subdivided into thirty sub-subclasses. By looking up Sinica Corpus, we find some RT-related adverbs in Lu & Ma’s classification behave like ST-related adverbs. Some temporal adverbs denote the order of events, which establish constraints only between ET. Furthermore, some temporal adverbs refer to habitual situations, which are not concerned with temporal relations. Therefore, our classification of temporal adverbs is somewhat different and revised from that of Lu & Ma’s. In this paper, temporal adverbs are divided into four classes according to temporal relations. More detailed sub-classification will be introduced in the sections below.

78 As the second footnote mentions, ti is the event initial time and tf, is the event finishing time. The symbols tr and ts is the reference time and the speaking time respectively.

138

Page 142: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3.1 Temporal Relations and Compatibilities between ST-related Adverbs and Aspects

In our classification, ST-related adverbs are classified into eleven subclasses. Each subclass is characterized and represented by its temporal features and is assigned one semantic type of Time, Duration, or Frequency. Table 1 shows the temporal features of each subclass.

Temporal Adverbs Temporal Relation

Semantic Role

cengjing 曾經, ceng 曾 End<ST time

yeyi業已, yejing業經 End≦ST time

zhongyu終於, bijing畢竟, daodi到底 End≦ST time

xianxing先行 Start<ST time

zaori 早日, jizao及早, chenzao趁早 ST<Start time

zhongjiang終將, zhongjiu終久, zhonggui終歸, zonggu總歸, bijiang必將, chizao遲早, zaowan 早晚

ST<BP time

zhongjiu終究 End≦ST time

cong從, conglai從來, zhijin至今, xianglai向來, sulai素來, lilai 歷來, su素, yixiang一向

Start<ST duration

zhan暫, zhanqie暫且, guqie姑且, quanqie權且, qie且

ET=ST duration

yongyuan永遠, yong永, shizhong始終, zhi直 ET=ST duration

yidu一度 BP<ST frequency

Table 1 Temporal Relation and Semantic Role of Each Subclass of ST-related Adverbs

For instance, cengjing and ceng are grouped into the same subclass of ST-related adverbs. Since they denote the actions or situations that have been existed or happened before ST, the end points of the situations will precede ST. Thus the temporal relation of cengjing and ceng is defined as End<ST.

The temporal features clearly point out the relations among these ST-related adverbs. Furthermore, these temporal features can predict and verify correctness of co-occurrences of temporal adverbs and aspectual markers, le, guo and zhe, by unifying the temporal features of them. The temporal features of le, guo and zhe are BP≦ST, End<ST, and ET=RT respectively. If the corpus data shows the sentence is grammatical after combination, its combination of temporal relation will be in harmony; otherwise, there may be something wrong with the temporal relations or some other essential factors bringing out the incompatibility. Vice versa, we assume that by detecting the harmony of the combination of temporal relations between temporal adverbs and aspects, we can predicate whether the temporal adverb is compatible with le, guo and zhe or not. Here we take example by cengjing and ceng. The corpus data in Sinica Corpus shows the combination of cengjing with le, guo

139

Page 143: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

and zhe as below:

(4) ceng jing co-occurs with le, guo and zhe

a. 我們的通信曾經給了她很大的快樂 women de tongxin cengjing gei ta henda de kuaile

She had been very happy while we lettered each other.

b. 我們曾經提過 women cengjing ti guo

we had mentioned before

c. 曾經提著小包袱 cengjing ti zhe xiao baofu

ever carried little backpack

The combination of cengjing with le, guo and zhe is grammatical so that we conclude the temporal relation of cengjing is correct and assign the semantic role of time, not frequency nor duration, to the subclass of cengjing and ceng. Vice versa, from the observation of the temporal relations of le, guo, zhe and cengjing, the temporal relation of cengjing is compatible with that of le, guo and zhe respectively. Thus before looking the corpus data up in Sinica Corpus, we predict the co-occurrence of cengjing with le, guo and zhe respectively is grammatical. The grammatical sentences 4a, 4b and 4c prove our hypothesis and prediction correct.

Temporal adverbs classified into the same subclass with the same temporal relation may not have the same syntactic behaviours. For instance, cong, conglai, zhijin, xianglai, sulai, lilai, su, and yixiang are grouped into the same subclass and assigned the semantic role of duration. The temporal relation of these temporal adverbs is defined as Start<ST. We find cong, conglai and zhijin are incompatible with le and zhe; however, xianglai, sulai, lilai, su and yixiang are incompatible with le and guo. Although this subclass of ST-related adverbs has the same temporal relation, their compatibility with aspectual markers is somewhat different. The Sinica Corpus sentences below reveal that cong, conglai and zhijin are usually in negative sentences. The feature [+NEG] brings about the different syntactic behaviours.

(5) 好像這件事從沒發生過hoaxing zhejian shicong mei fasheng guo

It seems this thing haven’t happened before.

(6) 從來不會逃避conglai buhui taobi

never evade

(7) 至今尚未出現在他生命中zhijin shangwei chuxian zai ta shengming zhong

haven’t appeared in his life

Temporal adverbs usually co-occur with aspects. The compatibility of temporal adverbs with aspect markers can testify the correctness of temporal relations. Therefore, not only

140

Page 144: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

temporal feature representations of temporal adverbs and aspects are discussed but also the co-relations between temporal adverbs and aspects are our concerns. Below is the reversion of Table 1, including the compatibility of temporal adverbs with aspects. The symbol asterisk stands for ungrammaticality.

Semantic Role

Temporal Adverbs Temporal Relation

Compatibility with le, guo and zhe

time cengjing 曾經, ceng 曾 End<ST le guo zhe

time yeyi業已, yejing業經 End≦ST le guo zhe

time zhongyu終於, bijing畢竟, daodi到底

End≦ST le guo zhe

time xianxing先行 BP<ST le guo *zhe

time zaori 早日, jizao及早, chenzao趁早

ST<Start *le *guo *zhe

time zhongjiang終將, zhongjiu終久, zhonggui終歸, zonggu總歸, bijiang必將, chizao遲早, zaowan早晚

ST<BP *le *guo *zhe

time zhongjiu 終究 End≦ST le guo zhe

duration cong從(+NEG), conglai從來(+NEG), zhijin至今(+NEG), xianglai向來, sulai素來, lilai 歷來, su素, yixiang一向

Start<ST +NEG:

*le guo *zhe

others:

*le *guo zhe

duration zhan暫, zhanqie暫且, guqie姑且, quanqie權且, qie且

ET=ST le *guo zhe

duration yongyuan永遠, yong永, shizhong始終, zhi直

ET=ST le *guo zhe

frequency yidu一度 BP<ST le guo *zhe

Table 2 Temporal Relation and Compatibility between ST-related Adverbs and Aspects

3.2 Temporal Relations and Compatibilities between RT-related Adverbs and Aspects

By adopting the corpus-based approach and applying the analysis of time points in temporal axis, Table 3 is the sub-classification of RT-related adverbs.

Semantic Temporal Adverbs Temporal Compatibility

141

Page 145: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Role Relation with le, guo and zhe

time yijing已經, yi已, zaoyi 早已, zaojiu 早就, dou都

BP<RT le guo zhe

time gang剛, ganggang剛剛, cai才 BP≦RT le guo zhe

time xian先, yuxian預先, shixian事先 BP≦RT le guo zhe

time jijiang即將, jiangyao將要, jiuyao就要, kuai快, xingjiang行將

ST<RT<Start *le *guo *zhe

time like立刻, liji立即, jike即刻, mashang馬上, ganjin趕緊, gankuai趕快, ganmang趕忙, lianmang 連忙, jimang急忙, jiu就, bian 便, dangji當即

RT≦Start le *guo zhe

time dunshi頓時, dengshi登時, shashi霎時, lishi立時, yixia(zi)一下(子)

RT≦Start le *guo zhe

time turan(jian)突然(間), zouran驟然, mengran(jian)猛然(間), mengdi猛地, modi驀地

RT≦Start le *guo zhe

duration zheng 正, zhengzai正在, zai在 ET=RT *le *guo zhe

duration hai還, haishi還是, reng仍, rengran仍然, rengjiu仍舊, yiran依然, yijiu依舊, zhaojiu照舊, zhaoyang照樣, zhaochang照常

BP≦RT le guo zhe

Table 3 Temporal Relation and Compatibility between RT-related Adverbs and Aspects

The RT-related adverb yijing represents actions or situations have been finished, happened or existed before a certain specific time, another action or situation. The BP of the situation denoted by yijing must precede RT; therefore, its temporal relation is BP<RT. Sinica Corpus data point yijing is compatible with aspect markers.

(8) 一定已經打破了紀錄yiding yijing dapo le jilu

have certainly broken the record

(9) 已經吃過飯yijing chiguo fan

have had a meal

142

Page 146: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(10) 蛇已經咬著他了she yijing yao zhe ta le

A snake has bitten him.

We find the combination of temporal relations of some classes and that of aspect markers are contradictory to corpus data. The temporal adverbs classified in the subclasses with like, dunshi and turan(jian) present situations or events happen immediately after ST or another situations. The temporal relation of them is defined as RT≦Start. The corpus data show that these RT-related adverbs are incompatible with guo; however, their temporal relation RT≦Start is compatible with guo. Sentence 11 points out the relation of like between RT and ST:

(11) 他一聽到消息,立刻回了電話ta yi tingdao xiaoxi like hui le dianhua

He immediately called back when he got the news.

In sentence 11, RT is ta yi tingdao xiaoxi and ST is the present. The temporal relation of like in sentence 11 is defined as RT≦Start<ST, which is compatible with aspect markers le, guo and zhe. However, the corpus data show that guo is not compatible with like. The temporal relation RT≦Start focuses on start points of events while the aspect marker guo focuses on end points of events. One event can be viewed as whole or as different parts. When it is viewed as whole, the temporal relation is defined by BP. When it is viewed as different parts, its temporal relation is defined by either the start point or end point. Since Start is the focus of the temporal relation RT≦Start, the aspect marker guo pointing out End is incompatible with it. Thus the RT-related adverbs divided into the same subclasses with like, dunshi and turan(jian) are actually incompatible with guo even though their temporal relations seems compatible.

3.3 Temporal Relations and Compatibilities between Successive-related Adverbs and Aspects

In Lu & Ma’s classification, some temporal adverbs are neither ST-related adverbs nor RT-related. These temporal adverbs denote the order, sequence or successive of two situations. Thus, we classify these temporal adverbs into another class, Successive-related adverbs. Table 4 lists the Successive-related adverbs and their feature representations and co-relations with aspects.

Semantic Role

Temporal Adverbs Temporal Relation

Compatibility with le, guo and zhe

time xianhou先後,xiangjyi相繼 ET1≦ET2 le guo zhe

time tongshi同時 ET1=ET2 le guo zhe

duration ranhou然後, erhou而後, suihou隨後, suiji隨即, congci從此

ET1≦ET2 le *guo zhe

Table 4 Temporal Relation and Compatibility between Successive-related Adverbs and Aspects

Since these temporal adverbs refer to the successive of events, their temporal relations have

143

Page 147: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

no relation with ST and RT. They only concerns with the sequence of the event time.

3.4 Feature Representations and Compatibilities between other Temporal Adverbs and Aspects

Some temporal adverbs mark habitual situations or the manner of situations. Habitual situations represent that situations go on without focusing on any time points in time axis. Temporal adverbs denoting the manner of situations have no concern with temporal relations. Consequentially, these temporal adverbs are classified into another subclass in table 5.

Semantic Role

Temporal Adverbs Features Compatibility with le, guo and zhe

frequency changchang常常,chang常, shichang時常, wangwang往往, shishi時時, shike時刻, bushi不時, meimei每每, lao老, zong總, yizhi一直

high frequency

*experience

le *guo zhe

frequency ouer偶爾, ouer偶而, jianhuo間或, youshi有時

low frequency

*experience

le *guo zhe

time manner jian漸, jianjian漸漸, jianci漸次, zhujian逐漸, rijian日漸, rijian日見, zhubu逐步

slowly

stage change

*experience

le *guo zhe

Time manner suishi隨時 preparatory *le *guo zhe

Time manner anshi按時, anqi按期 preparatory

regular

*le *guo *zhe

Table 5 Feature Representation and Compatibility between other Temporal Adverbs and Aspects

4 ConclusionFrom section 3.1 to 3.4, we classify the temporal adverbs listed in Lu & Ma into four main classes. The division of the subclasses in each main class is somewhat different from Lu & Ma’s although the majority is similar. Lu & Ma’s two-classes classification of temporal adverbs is vague so we adopt more detailed four-classes classification. The application of corpus-based approach helps us to testify the correctness of temporal relations. Besides, the co-relations of temporal relations between temporal adverbs and aspect markers le, guo and zhe can help to predict the co-occurrence of temporal adverbs with aspect markers. The feature representations of temporal relations are helpful to assign semantic roles to temporal adverbs in Sinica Treebank.

In future work, the subclasses of temporal adverbs may be subdivided into sub-subclasses. Temporal relations or other linguistic factors can be further applied to explain why certain classes of temporal adverbs can co-occur grammatically while certain classes cannot.

144

Page 148: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

References Allen, J. F. 1984. Towards a General Theory of Action and Time. Artificial Intelligence. 1984, 23: 123-154.Huang, Chu-Ren, Kathleen Athens, Li-Li Chang, Keh-Jiann Chen, Mei-Chun Liu, and Mei-Chih Tsai. 2000. The

Module-Attribute Representation of Verbal Semantics: >From Semantics to Argument Structure. International Journal of Computational Linguistics and Chinese Language Processing, 5(1): 19-46. Also appeared in Proceedings of the Symposium on Selected NSC Projects in General Linguistics from 1998-2000, 119-46. 2001.

Klein, Wolfgang. 1994. Time in Language. London: Routledge.

Lu, Jianming & Zhen Ma (陸儉明&馬真). 1999. 〈關於時間副詞〉《現代漢語虛詞散論》, 98-127.Smith, Carlota S. 1991. The Parameter of Aspect. Dordrecht: Kluwer Academic Publishers.Yang, G-W & Bateman John A. 2002. The Chinese Aspect System and its Semantic Interpretation. Proceedings

of 2002 COLING II, 1128-34. Taipei: Academia Sinica.

Website Resources MARVS. http://corpus.ling.sinica.edu.tw/course/marvs/index.htmlSinica Corpus. http://www.sinica.edu.tw/SinicaCorpus/index.htmlSinica Treebank. http://turing.iis.sinica.edu.tw/treesearch/

145

Page 149: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

信息处理用现代汉语虚词义类词典研究和工作单设计陈群秀

智能技术与系统国家重点实验室  清华大学计算机科学与技术系,北京 100084,中国E-mail: [email protected]

摘 要:目前,世界各国学者都十分重视语言信息处理的知识资源的建设,知识包括词汇学知识、句法学知识、语义学知识、语用学知识乃至常识方面的知识,核心问题是语义学知识。在语义学知识中,词汇的语义知识是最基本最重要的语义知识。在过去的 10年中,我们清华大学和合作者对汉语实词中主要的语类(例如:动词、形容词、名词)的词汇语义知识进行了系统、全面的研究,并且研制出“现代汉语述语动词机器词典”、“现代汉语述语形容词机器词典”、“现代汉语名词槽关系系统”和“现代汉语语义分类词典”。但是汉语虚词的词汇语义知识的研究特别是面向信息处理用的虚词的词汇语义知识的研究至今还是一个空白点。本文首先讨论了汉语虚词研究对汉语信息处理的意义。汉语是孤立语、词根分析型语言,大多数汉语词汇本身不能明显地表达语法意义,句法手段主要靠虚词和语序,况且虚词对表示语态、语气、时态体貌、能愿情态、句子关系、程度、范围、引入对象等句子语义和篇章结构有关键的作用,因此汉语虚词词汇语义研究对汉语信息处理有着特别重要的意义。其次,本文介绍了一个信息处理用现代汉语虚词义类词典的探索研究,是在汉语的语义层面上研究汉语虚词的分类的二十一世纪的表达类,亦即研究一个信息处理用现代汉语句子情态表示系统。然后,本文展示了我们初步研究的成果,我们将虚词义类初步分为语态范畴、时态体貌范畴、语气范畴、能愿情态范畴、肯定否定范畴、(句子)关系范畴、程度范畴、范围范畴、对象范畴、其他范畴等十大范畴,每个大范畴根据虚词表达的意义不同而再分为若干中范畴和小范畴。再之后,本文提出信息处理用现代汉语虚词义类词典工作单的信息项的设计设想。最后,论文还倡议建立现代汉语语义知识库平台。关键词:信息处理用现代汉语虚词义类词典  信息处理用现代汉语句子情态表示系统  语态范畴  时态体貌范畴  语气范畴  能愿情态范畴  肯定否定范畴  (句子)关系范畴 程度范畴 范围范畴 对象范畴 其他范畴  工作单  信息项 现代汉语语义知识库平台

Study on the Machine Tractable Thesaurus Dictionary of Contemporary Chinese Functional Words for Intormation Processing and Design Intormation Terms for Dictionary Entries

Chen QunxiuThe State Key Laboratory of Intelligent Technology and System

Department of Computer Science and Technology, Tsinghua University, Beijing 100084, ChinaE-mail: [email protected]

ABSTRACT: At present, worldwide scholars from different countries attach great importance to the knowledge resource construction of language information processing. Knowledge includes the aspects of lexicology, syntax, semantics, pragmatics and even general knowledge. The knowledge of semantics is the core, of which the most basic and most important one is the semantic knowledge of vocabulary. At last 10 years, scholars of Tsinghua University and Cooperators made systematic and complete studies of lexical semantic knowledge of main categories in Chinese content words (including verb, adjective, noun, etc), and developed and studied “The Machine Tractable Dictionary of Contemporary Chinese Predicate Verbs”, “The Machine Tractable Dictionary of Contemporary Chinese Predicate Adjectives”, “The System of Relation of Slots Centering on Nouns for Contemporary Chinese” and “The Thesaurus Dictionary of Contemporary Chinese for Information Processing”. But the study of lexical semantic knowledge (in particular for information processing) of Chinese functional words is up to now empty point. First of all, this paper discuses the value of functional words in Chinese Information Processing. Chinese in one of languages whose typology is isolate language and root word based analytical

146

Page 150: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

*本论文有关研究承 863 项目(项目号 2001AA114210)的资助。language. Vast majority of Chinese words can not themselves clearly express grammatical sense of them. Chinese syntactical methods mainly depend on functional words and words order. In addition it is important that Chinese functional words express meaning of sentences and structures of texts, e.g. voice, tense & acpect, mood, modality, positive and negative, relation of sentences, degree, range, draw into object, etc. Therefore, the study of lexical semantics of Chinese functional words is great importance to Chinese Information Processing. Secondly, this paper introduces the research of the Machine Tractable Thesaurus Dictionary of Contemporary Chinese Functional Words, in other words, it is one of expressing typology of studying category of Chinese functional words at Chinese semantic level in the 21th century. Namely it is The Modality Representation System of Chinese Sentences for Information Processing. Then, this paper shows the result of initial research. The Chinese functional words are divided into 10 kinds of main-level categories, e.g. Voice Category, Tense & Aspect Category, Mood Category, Modality Category, Positive and Negative Category, Relation Category of Sentences, Degree Category, Range Category, Object Category, Other Category, etc. Each of main-level category is divided into a number of middle-level categories or minor-level category once and again according to expressing different meaning. After that, this paper presents some ideas of designing information terms for dictionary entries. This paper finally proposes the conception of constructing a base platform of Contemporary Chinese Semantic Knowledge Bank.

Keywords: The Machine Tractable Thesaurus Dictionary of Contemporary Chinese Functional Words, The Modality Representation System of Chinese Sentences for Information Processing, Voice Category, Tense & Aspect Category, Mood Category, Modality Category, Positive and Negative Category, Relation Category of Sentences, Degree Category, Range Category, Object Category, Other Category, Dictionary Entries, Information Terms

1. 前言中文信息处理的研究和进展,依赖于汉语计算语言学的词汇学、句法学、语义学、语用学的研究和进展,核心问题是语义学。语义学是难度最大、起步较晚的一个薄弱环节。由于汉语缺乏屈折变化,是语义型语言,句法分析对句子的贡献比英语等要小,因此语义分析对汉语机器理解尤为重要。目前,自然语言理解、汉语信息处理处于一个关键时期,处在取得重大突破的前夜,最重要最困难的是语义学的研究和突破。

在计算语言学界,越来越多的专家把机器词典的规模和质量看作是决定一个自然语言处理系统成败的关键。对于汉语来说,由于缺乏形态变化,汉语的计算机自动分析和处理相对别的语言要困难得多,尤其需要重视语言知识库特别是语义知识库的建设。目前中文信息处理领域的语言知识库有一些,主要是实词的词法词典、实词的语义词典、句法规则库和语料库,但是至今还没有一个系统的汉语虚词词典。国内外面向人的虚词的研究也不少,但面向机器自动处理的虚词研究却不多,有的话也是零散的个别的,根本没有系统研究。例如著名的 EDR、WordNet、FrameNet、MindNet等都是概念词典,都只有动词、形容词、名词等实词的概念,都没有系统地研究虚词的表达体系。汉语虚词的语义知识的研究特别是面向信息处理用的虚词的词汇语义知识的研究也至今还是一个空白点。

清华大学一直重视和致力于中文信息处理领域的基础研究,在中文信息处理基础资源建设方面已经取得了一些成果。在过去的 10年中,我们对汉语实词中主要的语类(动词、形容词、名词)的词汇语义知识进行了系统、全面的研究,并且研制出现代汉语述语动词机器词典、现代汉语述语形容词机器词典、现代汉语名词槽关系系统和现代汉语语义分类词典。但是对现代汉语虚词的语义知识特别是面向信息处理用的汉语虚词的词汇语义知识一直是我们十分关注而还没有完成的心愿。

147

Page 151: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

汉语是孤立语、词根分析型语言,大多数汉语词汇本身不能明显地表达语法意义,句法手段主要靠虚词和语序。汉语里的虚词往往可以显示词与语、词组与词组以及句子与句子之间的关系,成为语句组织的脉络。同时,虚词对表达语态、时态体貌、语气、能愿情态、肯定否定、句子关系、程度、范围、引入对象等句子语义和篇章结构有关键的作用,是篇章知识的主要来源。因此汉语虚词词汇语义研究对中文信息处理有着特别重要的意义。二十多年来,中文信息处理从字处理发展到词处理进而发展到句处理这个层面,若要取得新的突破,必须进入篇章处理层面。因为一则句子层面要想作深入处理,必须要依靠篇章的知识,不然的话,很多语法歧义、语义歧义、指称、照应等问题无法解决。二则中文信息处理的一些应用领域(例如机器翻译、自动文摘、自动问答系统的源文分析和篇章生成)需要对篇章做出有效的分析。因此对汉语虚词作系统全面的研究不仅是有意义的而且是迫切需要的。但是汉语虚词的个性很强,运用范围很广,运用频度又高,有的一词多类兼多义,而且汉语虚词应用很灵活且缺省现象很严重,因此汉语的虚词特别是信息处理用虚词词典研究具有很大难度。2 信息处理用现代汉语虚词义类词典(汉语情态表示系统)的初步研究两年多来,我们对现代汉语的虚词做了大量的调研、分析和初步研究。我们研究的虚词包括介词、副词、连词、时态助词、结构助词、语气助词、助动词、感叹词、拟声词等词类。我们对汉语虚词的研究角度,不仅从虚词的形式、语法作用角度分析,而且还从虚词所表示的语义角度和语用角度分析,目的在于研究一个信息处理用现代汉语虚词义类表达,是在汉语的语义层面上研究汉语虚词的分类的二十一世纪的表达类,亦即研究一个信息处理用现代汉语句子情态表示系统。经过初步研究,我们将汉语虚词义类分为语态范畴、时态体貌范畴、语气范畴、能愿情态范畴、肯定否定范畴、(句子)关系范畴、程度范畴、范围范畴、对象范畴、其他范畴十大范畴,每个大范畴根据虚词表达的意义不同再分为若干中范畴和小范畴。下面将虚词义类的大、中、小范畴分类例示如下:1 语态范畴:指说话者选择主体还是选择客体作话题。

1.1 主动态1.2 被动态形态/准形态标志:被、让、由

1.3 使役态形态/准形态标志:动词为“让、请、使、劝、叫、教…”等使役动词;

2 时态体貌范畴:指因说话者不同的观察点而表达的事件的时间进程轴上所处的特定阶段或与时间无关而与动量有关的运动状态和情貌

2.1 时态范畴2.1.1 现在时2.1.2 过去时2.1.3 将来时

2.2 体貌范畴2.2.1 预期体 框架标志:将 V

148

Page 152: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2.2.2 即始体 框架标志:即将 V2.2.3 开始体 框架标志:V起来;V起;V 开;V上;

例如:战争打起来了;奏起军歌;议论开了;议论上了;2.2.4 刚始体 框架标志:刚V起来;刚刚开始

例如:战争刚打起来;2.2.5 进行体 框架标志:V着;正V着(呢);正在V着;在V着;V1着V2;;

V1着V1着V2;V着N;V着点儿!V着!例如:他正写着报告呢;门开着;她笑着说;说着说着哭了;墙上挂着军用地图;听着点儿!你听着!

2.2.6 继续体 框架标志:V下去;V下来;例如:这种武器还要生产下去;战士们坚持下来了。

2.2.7 完成体 框架标志:V了 1;V过 2(了 1);例如:吃过饭就去。2.2.8 结果完成体 框架标志:V好;V完;V成;V上;V上来;V到;V着(zháo);

V住;V掉;V下;V下来;V去:V了 3(lou);例如:穿好军装;穿上军装;穿完军装;抓住敌人;抓着敌人;抓到敌人;脱下军装;脱了 3军装;脱去军装;脱掉军装;

2.2.9 刚历体 框架标志:V…来着;例如:河对岸刚才打枪来着。

2.2.10 经历体 框架标志:V过 1;曾经V过 1;曾 V过 1;例如:执行过侦察任务;2.2.11 试量体 框架标志:VV;VV…看;V了 1V;例如:把坦克修修;让他来修修看;2.2.12 小量体 框架标志:V一V;V一下;V了 1一V;V了 1一下;例如:稍微把准星调一调;2.2.13 反复体 框架标志:V来V去;V过来V过去;

例如:跑来跑去;在天上飞过来飞过去;2.2.14 多发体 框架标志:V1V1V2V2;例如:说说笑笑;蹦蹦跳跳;2.2.15 已然体 框架标志:已经V;已V;早已V;(是)N 处 V的N;

例如:是西单上的车;已经打响;2.2.16 未然体 框架标志:没有V;没V;尚未V;

例如:他没打枪;敌人尚未进攻;2.2.17 经常体 框架标志:经常V;常V;时常V;

例如:经常骚扰敌人; 2.2.18 渐进体 框架标志:渐渐(表示程度或数量的渐变增减)2.1.19 瞬时体 框架标志:忽然,倏然2.2.20 一般体 框架标志:(无)

例如:上前线;观察敌情;3 语气范畴:指说话者表示交际意图的语气。

3.1 功能语气3.1.1 陈述语气 句终标点:。3.1.2 疑问语气 句终标点:?3.1.3 反诘语气 形态/准形态标志+句终标点:{岂|难道|何尝|不成|不行}+?3.1.4 祈使语气 句终标点: (吧)+{。| ! }3.1.5 感叹语气 形态/准形态标志+句终标点:{太|多|多么|真|特|特别}+({了|啊})+!3.1.6 确认语气 框架标志:({当然|自然})+(是)…+的;3.1.7 非确认语气 形态/准形态标志:吧

3.2 情感语气3.2.1 诧异语气 形态/准形态标志:{竟|竟然|居然}3.2.2 料定语气 形态/准形态标志:{果然|果真|敢情}3.2.3 领悟语气 形态/准形态标志:{难怪|怪不得|敢情|噢|原来}

149

Page 153: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3.2.4 侥幸语气 形态/准形态标志:{幸亏|幸好|幸而|省得}3.2.5 索性反正语气 形态/准形态标志:{索性|简真|反正|偏偏|偏不}

3.2.6 不满语气 形态/准形态标志:什么;怎么;3.2.7 追究语气 形态/准形态标志:究竟;到底;3.2.8 肯定承诺语气 形态/准形态标志:一定;肯定;3.2.9 加强坚决语气 形态/准形态标志:就;

4 能愿情态范畴:指因说话者固有的观点而引发的评价、告诫等态度和强烈程度。4.1 评价型能愿情态

4.1.1 “能”类评价 形态/准形态标志:能;能够;只能;才能;4.1.2 “要”类评价 形态/准形态标志:要;想;4.1.3 “会”类评价 形态/准形态标志:会;必然;必定;不会;一定;4.1.4 “敢”类评价 形态/准形态标志:敢;4.1.5 “可能”类评价 形态/准形态标志:可能;不可能;4.1.6 “也许”类评价 形态/准形态标志:也许;或许;大概;大约;多半;不一定;4.1.7 “没法”类评价 形态/准形态标志:没法;无法;4.1.8 “肯”类评价 形态/准形态标志:肯;愿意;情愿;乐意;愿;巴不得;想;4.1.9 “可以”类评价 形态/准形态标志:可以;可;4.1.10 “准备”类评价 形态/准形态标志:准备;预备;打算;计划;4.1.11 “得”类评价 形态/准形态标志:得;不得;“一定得”;“准得”;

4.2 告诫型能愿情态4.2.1 “别”类告诫 形态/准形态标志:别;勿;万万不要;4.2.2 “要”类告诫 形态/准形态标志:要;4.2.3 “应该”类告诫 形态/准形态标志:应;应该;应当;该;不该;不应;4.2.4 “只有”类告诫 形态/准形态标志:只有;4.2.5 “必须”类告诫 形态/准形态标志:必须;一定;务必;4.2.6 “用不着”类告诫 形态/准形态标志:用不着;不必;无庸;4.2.7 “得”类告诫 形态/准形态标志:得;

5 肯定否定范畴:指说话者对事件的肯定或否定态度。5.1 全盘肯定 形态/准形态标志:全;都;通通;全部;统统;5.2 全盘否定 形态/准形态标志:全不;全没;都不;都没;5.3 部分肯定 形态/准形态标志:并非…都;未必都;5.4 部分否定 形态/准形态标志:5.5 坚决否定 形态/准形态标志:统统不;通通不;5.6 双重否定 形态/准形态标志:未尝不可;未尝没有;未必不是;5.7 不定 形态/准形态标志:不A;不A(反义);例:不上不下;不方不圆;不死不活;

6 关系范畴:指说话者在用复句表达事情时对事件间(分句间)的语义、时间、逻辑上的关系的认定。

6.1 并列关系:各分句在意义上是平排并列的。常用的关联词语有:既…又…;又…又…;不但…同时…;…同时…;及;

6.2 承接关系:各分句间具有先后相继关系。有时用“首先…,其次…,然后…”,“一…就…”;“既而”;

6.3 递进关系:后面分句的意思比前面分句更进一层。常用的关联词语有:不但…而且…;不但…并且…;…并且…;不但…同时…;…同时…;不但…尤其…;…尤其…;不但…甚至…;…甚至…;不但…也…;…也…;不但…还…;不但…更…;不但…又…;不但…简直…;不但…反而…;不但…竟然…;尚且…何况…;不但…连…也…;不但…既使…也…;不但…就是…也…;不但…哪怕…也…;不但…而且…甚至…;不但…而且…简直…;不但…而且…尤其…;不但…哪怕…也…,甚至…也…;且不说…,也不说…,只说说…;要…还要…;

6.4 选择关系:分句间有选择关系。常用的关联词语有:是…还是…;不是…就是…;或者…或者…;…,或者…;与其…不如…;与其…

150

Page 154: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

宁可…;不是…而是…;毋宁;6.5 转折关系:分句间意思上有所转折。

常用的关联词语有:虽然…但是…;…但…;…可是…;虽然…可…;虽然…还…;…,虽然…;…却…;…可(却)…;…还…;…就…;…唯独…;尽管…还是…;

6.6 因果关系:分句间具有原因和结果的关系。常用的关联词语有:因为…,所以…;…,因为…;…,所以…;之所以…,是因为…;因为…,…;…,因此…;…,因而…;…,于是…;…,一则…,二则…;由于…,因此…;既然…,(就)…;…,反正…;…,结果…;到底;例如:因难年还好办,反正买不到菜,没有什么三盘四样。

6.7 假设关系:分句间有假设和结果的关系。常用的关联词语有:如果…,则…;…,如果…;要是…就…;…吧…吧;假如…,那未…;假如…就…;如果…,那未…;如果…,那么…;若是…,那未…;如果…,就…;(如果)…的话,…就…;要不然的话,…;…就…;万一…,那…;…一…,(那)…;例如:冰一化,那鱼是会发臭的。/不管吧,先进人物发展成道德败坏,说明制药厂的政治思想工作不得力;管吧,弄不好又是对先进人物的诽谤和妒忌。

6.8 条件关系:分句间具有条件和结果的关系。常用的关联词语有:只有…才(能)…;不管…也要…;不管…都…;无论…一定要…;只要…就…;只要…(就)一定(能)…;除非…才…;除非…否则…;…一…就…;例如:除非他去,否则这场球赢不了。/她一闻见烟味就咳嗽。

6.9 让步关系:一个分句对另一个分句表示退让一步。常用的关联词语有:即使…也还要…;…,即使…,即使…也…;纵然…都…;…则…,但…;…是…,就是…;例如:好是好,就是太贵了。/巧则巧矣,但恐不合于说汉话人的心理。

6.10 目的关系:前后分句分别表示行动和目的的关系。常用的关联词语有:为了…;…,为的是…;…,也好…;…,以便…;…,免得…;…,以免…;例如:为啥不早点来,也好让大妈把你当作女儿来疼你。/学好本领,以便更好地为人民服务。/事先要准备好,免得临时手忙脚乱。

6.11 发展关系:分句间表示程度随着条件的发展而发展。一般第一个分句为条件,后面的分句表示随条件的发展而发展的程度。常用的关联词语有:越…越…;愈…愈…;例如:环境越是艰苦,他的革命意志越是坚定。

6.12 比拟关系:表示主要内容说完后意犹未尽,又比拟之,或是使未竟之意形象化,或是使未竟之意理性化。常用的关联词语有:好象;就象;象;例如:他吓得从长椅上跳起来,就象书生幻想美人,美人来了却是狐狸变的,吓得他魂不附体。/徐丽莎恍恍惚惚地好几天,象被狂风卷上了天,在空气中翻着筋斗。

6.13 诠释句:后段是直接解释前段末某个成分的。前一段末一般都可以加“:”号,或是后段加“说是”之类的词语。例如:当时的工作组也曾有过怀疑:这样的人家能不能称作城市贫民呢?/我的男朋友只爱我一点,说是跟我在一起时感到很快乐。/南京的新名胜,不用说首推中山陵。

6.14 时同关系(伴随关系):表示在做某件事同时或伴随着发生某件事的关系。常用的关联词语有:一边…一边…;边…边…;一面…一面…;连…带…;随…随…;例如:他一边走一边嗑着瓜子。/她一路上连哭带骂。/儿子总是边看电视边吃饭。

7 程度范畴:指说话者对程度大小、程度高低、程度深浅的认定态度。例如,表示悲痛的程度有:很;十分;十二分;相当;太;极其;万分;无比,等等。又如,表示不满程度的有:很;非常;大为;极为,等。

8 范围范畴:指说话者对物体数量多少、时间和处所的范围大小的认定态度。例如,表示整体、全体或部分的有:统统;全都;无一;无一不;都;大都;大半;大体;多半;仅仅;只;才不过;惟独;除了;除去;除开,等等。表示处

151

Page 155: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

所的范围大小有:处处;到处;无处不;大多;只;太凡;仅,等等。表示时间的范围大小有:时时;时时刻刻;时常;有时;偶尔,等等。

9 对象范畴:指说话者对涉及的个体、时间、地点、依据的引入。9.1 引进对象范畴:指说话者对引进对象的表示。 例如,由“给”、“于”、“对”、“为”、“由”、“替”、“向”、“冲”、“冲着”、“奔”、“奔

着”、“当着”等引进的人或物对象。9.2 来源去向经由范畴:表示时间、地点的来源、去向或经由的范畴。 例如,“打”、“从”、“来自”、“由”、“向”、“打从”、“从打”、“经”、“奔”、“朝”等。9.3 依据凭借范畴:表示说话、做事的依据和凭借的范畴。 例如,“根据”、“据”、“凭”、“凭借”等。9.4 目的范畴:表示说话或做事的目的对象。 例如,“为”、“为了”等。

10 其他范畴:不属于 1~9 范畴的其他范畴。 例如,象“啾啾”、“叽哩呱啦”、“淅淅沥沥”、“哐当”、“嗷嗷”、“吧唧”、“吧嗒”这样的象声词,

还有表示并列名词或名词性词组的“和”、“与”、“跟”、“及”、“以及”等。

3 信息处理用现代汉语虚词义类词典表示信息项目设计对于机器词典来说,所表示的信息项目的设立最为重要。我们的信息处理用现代汉语虚词义类词典(现代汉语情态表示系统)信息表示项目设立原则是虚词的语法形式、语法意义、语义意义、语用用法相结合,期望为大家提供最精确完整和细致的信息。我们的工作单中对每一个虚词描述信息项目有:词形、拼音、词类、义项数目、义项序号、释义、情态范畴(包括大范畴、中范畴、小范畴)、表示意义、表示意义的范畴值、形态/准形态标志、框架标志、常用的近义/同义关联词语、句例、备注。工作单样式如下:

词条序号 制作者 工作单号词形 拼音 词类 义项数目 义项序号释义情态范畴 大范畴 中范畴 小范畴表示意义表示意义的范畴值形态/准形态标志框架标志常用的近义/同义关联词语句例

152

Page 156: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

备注

其中“拼音”填写的是该虚词在该范畴下的拼音读写,填写的拼音必须带声调,用 1、2、3、4、5分别表示汉语的四声和轻声。“词类”填写的是该虚词在该拼音和该范畴下的词类。“义项数目”指的是该虚词在该拼音该词类下共有的义项数目,“义项序号”指的是该虚词在该拼音该词类该义项数目下的第几个义项。“情态范畴”填写的是该虚词在该拼音该词类该义项序号下属于什么大范畴、什么中范畴、什么小范畴。“表示意义”填写的是该虚词表示的语法意义、语义意义,包括语体。此项填写有助于辨析该虚词该义项与该虚词其他义项的区别。“表示意义的范畴值”表示的是“程序范畴”、“范围范畴”等范畴的属性值。例如,表示程度范畴的副词有“很、十分、十分、十二分、万分、极、相当、挺、无比”,填写程度范围值时“十分”一词填写“10”,“很”填写值“10”。“十二分”填写“12”、万分填写“10000”。“相当”填写“8”、“挺”填写“9”,“极”填写“1000”,“无比”填写“+”等。这样将来机器理解时可以对它们进行比较和计算。“框架标志”填写的是该虚词在使用环境中可以多少种模式框架,与什么类词性的词搭配使用等等。“常用的近义/同义关联词语”顾名思义是填写与之同义或相近意义的关联词语或与之成对使用、前后呼应的关联词语。“句例”填写的是该拼音该词类该义项序号该范畴下的句子各种用法的真实例子。“备注”中可填写在以上各信息项中尚未包括的信息内容或作必要的说明。4 现代汉语语义知识库平台建设的构想目前我们正在编写和修改“信息处理用现代汉语虚词义类词典”填写规范,并且正在进行词典工作单的试填写实验。信息处理用现代汉语虚词义类词典的管理软件系统也初步设计和实现了,准备在试填写实验后进行工作单的正式填写和录入校对,以期尽快构建这个汉语虚词义类词典(亦即信息处理用现代汉语句子情态表示系统)。同时,我们也正在对已构建的“现代汉语述语动词机器词典”、“现代汉语述语形容词机器词典”、“现代汉语名词槽关系系统”、“信息处理用现代汉语语义分类机器词典”等四个实词的语义词典进行整合集成和机器学习功能的研究。待“信息处理用现代汉语虚词义类词典”构建后,我们准备将这五个实词、虚词的语义词典整合集成一个现代汉语语义知识库平台,此平台可为中文信息处理提供丰富、全面、可靠的语义知识支持(包括词汇语义知识和句子语义知识),可为现代汉语语言学、语义学研究、对外汉语教学、中小学语文教学计算机辅助教学提供有力的工具和资源。目前我们正在进行现代汉语述语动词机器词典、现代汉语述语形容词机器词典在汉语信息处理方面应用的探索,也正在研究和设计这些语义词典在对外汉语教学辅助教学方面的应用软件。

参考文献

153

Page 157: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

林杏光.《词汇语义和计算语言学》。北京:语文出版,1999。林杏光.《复句与表达》。北京:中国物资出版社,1986。陈群秀. <信息处理用现代汉语句型系统的初步研究>,第二十届东方语言计算机处理国际学术会议(20th

ICCPOL’ 2003)论文集《Advances in Computation of Oriental Language》,2003年 8月,205-212。北京:清华大学出版社。

申小龙.《汉语句型研究》。海南:海南人民出版社,1989。贺阳. <汉语“语气”(Modality)及其标志简表>,1991。史有为,罗建林. <汉语‘体’及其标志简表>,1991。陈群秀. <汉语自然语言理解研究概况、前景及难点讨论>,1990年国际中文与东方语言计算机处理学术会议论文,长沙,1990。

陆俭明,马真. 《现代汉语虚词散论》。北京:北京大学出版社,1985。朱德熙. 《语法问答》。北京:商务印书馆,1985。吕叔湘. 《汉语语法分析问题》。北京:商务印书馆,1979。胡裕树主编.《现代汉语(增订本)》。上海:上海教育出版社,1981。房玉清.《实用汉语语法》。北京:北京语言学院出版社,1984。姚殿芳,潘兆明. 《实用汉语修辞》。北京:北京大学出版社,1987。黄伯荣,廖序东. 《现代汉语(下册)》。兰州:甘肃人民出版社,1980。陈群秀. <信息处理用现代汉语虚词义类研究初步构想>,香港: 第四届汉语词汇语义学研讨会

(4thCLSW),2003年 6月。

154

Page 158: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Multiple-layer Semantic Derivations of Two-part Allegorical Expressions in Taiwanese Southern Min (TSM)

Yi-ling ChenGraduate Institute of Linguistics, National Chengchi University

Graduate Institute of Linguistics, National Chengchi University, 64, Sec. 2, Zhi-nan Rd., Wenshan, Taipei 116, Taiwan, Republic of China

Taipei, [email protected]

1. Introduction Two-part allegorical expressions Xie-hou-yu, colloquial expressions whose second parts bear the main semantic weight, exhibit rich semantic and phonological operations. Generally, there are three kinds of two-part allegorical expressions: the first involving multiple-layer semantic derivations, the second only one layer of semantic derivation, and the third, both semantic and phonological derivations. This paper aims to deal with the first kind, which exhibits multiple semantic operations among metaphor, metonymy, and knowledge frame (cf. Lakoff 1993, Kovecses and Radden 1998, Fillmore 1977, Taylor 1995, among others). How the intended meanings of this type in TSM are obtained is the main concern of the study.

2. Cognitive mechanismsThis section will introduce the cognitive mechanisms before we probe into the analysis in Section 3. In Section 2.1, the notion of frame proposed by Fillmore (1977) and Taylor (1995) will be reviewed as the ground of the following cognitive mechanisms. Then, the concepts of metonymy and metaphor, as proposed by Kovecses and Radden (1998) and Lakoff (1993), will be provided in Section 2.2 and Section 2.3, respectively. And finally, Section 2.4 will discuss Ruiz de Mendoza’s (2003) interaction types between metaphor and metonymy in analyzing idioms.

2.1 FrameThe concept of frame is first pointed out by Charles Fillmore in the mid 1970s. By frame, we refer to the shared “knowledge network linking to multiple domains associated with a given linguistic form” (Taylor 1995). For example, the knowledge structure of [TREE] involves the domains of color (e.g. green, brown, white, etc.), parts (e.g. the root, the trunk, the leaves, etc.), shape (e.g. straight, curve, etc.), function (e.g. for building a house, for setting a fire, for cooking, etc.), height, and chemical components (e.g. chlorophyll, glucose, cellulose, etc.). The multiple domains are associated with the linguistic form [TREE]. In this study, Fillmore’s terminology of “frame” is adopted to refer to the shared knowledge network of human experience. Take the example of [BUY] frame in Fillmore’s (1977) to illustrate. A scenario can be structured in which a person acquires the ownership of some goods by giving another person who possesses the goods by agreement. The needed background involves the knowledge of BUYER, SELLER, GOODS, and MONEY. That is, the owner of the goods (the SELLER) has the control of the goods and the buyer cannot take the goods without paying an amount of money to the seller by the agreement; otherwise, he will commit a crime. Besides, in this society, money is considered as a valuable thing that people can exchange some goods by it. The following diagram summarizes Fillmore’s [BUY] frame.

155

Page 159: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

The [BUY] frame not only shows the domains involved in a frame but also brings up the notion of perspectivization. In John bought a car yesterday, we describe the commercial event from the buyer’s perspective. That is, only the buyer and the goods are realized in the main structure of the sentence. The buyer is highlighted as the subject and the goods, as the object. 2.2 MetonymyAs mentioned in the previous section, perspectivization highlights one domain from the various ones in a frame to indicate the intended meaning. Such a process gradually leads to metonymy. Metonymy involves highlighting of an entity in a domain.

Traditional view of metonymy treats it as a matter of language in literary language where it is a transfer of the meanings of words which have reference and the stand-for relationship of the two words should be contiguously related (Stern 1931, Ullmann 1951, 1962, and Waldron 1967, cited in Kovecses and Radden 1998). However, as more studies are devoted to this field, metonymy is not what was thought before. In cognitive linguistic view, metonymy is conceptual in nature, involving not only literary language but also our daily life expressions (Kovecses and Radden 1998). It is a vehicle or access that enables us to process from one conceptual entity to another in the same domain, or idealized cognitive models (ICM) (following Kovecses and Radden 1998). For example, in The fishburger asks for another cup of coke cola, we process from the food to the person who ordered the food in the fishburger domain. There are two general configurations: (1) whole ICM and its parts; (2) parts of an ICM. Under each configuration, there are some more specific metonymic types. These are shown in the following (Kovecses and Radden 1998: 49-58).

(1) Whole ICM and its part(s) (2) Parts of an ICMA. Thing-and-part ICM A. Action ICMB. Scale ICM B. Perception ICM C. Constitution ICM C. Causation ICMD. Complex event ICM D. Production ICME. Category-and-member ICM E. Control ICMF. Category-and-property ICM F. Possession ICM

G. Containment ICM Meaning extensions of metonymy enable us to process from one conceptual entity to another in the same domain. However, meaning extensions can involve meaning transfers across two domains. Section 2.3 will introduce the mechanism behind the conceptual mapping of a concept from a concrete domain to an abstract one—metaphor. 2.3 Metaphor Metaphor is traditionally defined as “a novel or poetic linguistic expression where one or more words for a concept are used outside of their normal conventional meaning to express a ‘similar’ concept” (discussion on classical theory in Lakoff 1993: 202). This view treats metaphor as a “language,” or a “figure of speech” where it stems from the similarity of two concepts. However, as a great number of metaphors being discovered to have generalizations of our thought, contemporary theory on metaphors holds that metaphor is conceptual in nature. Metaphor is a conceptual mechanism through which we comprehend abstract concepts in terms of more concrete concepts. That is,

156

Page 160: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

metaphor is “a cross-domain mapping in the conceptual system” (Lakoff 1993). We map the concrete entities in the source domain to abstract entities in the target domain. For example, the metaphor LOVE IS A JOURNEY is a mapping from the source domain (a journey) to the target domain (love) (Lakoff’s 1993). Defined by Lakoff (1993), metaphors follow the Invariance Principle: “metaphorical mappings which preserve the cognitive topology (that is, image-schema structure) of the source domain, in a way consistent with the inherent structure of the target domain.” That is, in the example LOVE IS A JOURNEY, the source domain entities is exactly mapped to the corresponding entities in the target domain, not others. Hence, lovers correspond to travelers; relationship corresponds to vehicles; goals correspond to destinations; and difficulties correspond to impediments on the road. In addition to conceptual metaphors, novel metaphors also obey the Invariance Principle. Novel metaphors include three types: image metaphors, generic-level metaphors, and extensions of conventional metaphors (Lakoff 1993). Unlike conceptual metaphors whose mappings are correspondence between entities in the two domains, namely, source domain and target domain, image metaphors map between characteristics in two conventional mental images (Lakoff 1993). The metaphoric mappings of image metaphors work in the same way as those of conceptual metaphors. Mapping the structure of the source concept to the structure of target concept just like conceptual metaphors, image metaphors are “one-shot” metaphors, which map one source image onto another target image. The following example from Andre Breton’s line adopted by Lakoff (1993: 229) My wife… whose waist is an hourglass can well illustrate the mappings of image metaphor. After reading the line, we immediately have the image that the woman’s waist is very thin since we automatically map the image of an hourglass onto the image of a woman’s owing to their similar shapes. This operation is conceptual. The words of the line do not tell us the thinness of the woman’s waist nor do they tell us which part of the hourglass is mapped to the woman’s waist. It is our conventional knowledge about the special part of the hourglass and our mental images about an hourglass and the woman’s waist that enhance us the connection. Besides characteristics of an image, the evaluation of one image can also map or percolate to another image as in the example quoted by Lakoff My horse with a mane made of short rainbow (Lakoff 1993: 230). The curved bands of the rainbow mapped onto the curly hair of the horse. Such an image mapping also maps the evaluation of the rainbow onto the horse. Hence, we maintain that the horse is beautiful by our evaluation on the rainbow. Provided with the knowledge of metonymy and metaphor, we can proceed to the question how metaphor and metonymy interacts. Ruiz de Mendoza (2003) provides us three interaction types.

2.4 The interaction of metaphor and metonymy Ruiz de Mendoza (2003) provides us with three types of interaction between metaphor and metonymy by the distinction between part-for-whole and whole-for-part metonymies. The first type is source-in-target metonymy within the metaphoric source where the output of metonymy serves as the source of a metaphor as in example 1. The second type is also source-in-target metonymy, but different from the first type, this type exhibits a different mapping where the output of a metaphor provides the source for the metonymic mapping as in example 2. The third type is a variation of the second type where a metonymic mapping highlights the specific corresponding part of a metaphor as illustrated in the example 3.

Eg 1: He got up on his hind legs to defend his views.

157

Page 161: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

In this example, the metonymy serves as the source of a metaphor where the animal’s behavior maps to human behavior through a metaphor. First, we image a scene in which an animal rears up in an attacking position. The hind legs stand for the overall scene. Such is a part for whole metonymy where the source is within the target. Then, the scene metaphorically maps to a scene in which a person energetically stands up to argue in public. Finally, the energetic action of a person standing up to argue in public is metaphorically mapped to a behavior where a person defends his opinions with vigor whether he stands up or not.

Eg 2: He kept his eyes peeled for pickpockets.

Peeling his eyes metaphorically refers to “open one’s eyes widely.” The target of a metaphor is the source of a metonymy where the action of opening one’s eyes stands for the overall situation where one keeps his eyes open to be alert to possible dangers.

Eg 3: She could read my minds.

158

Page 162: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

In this example, the mind is like a text which could be read. There is a system of metaphorical mappings, including the reader, the action of reading, and the text. The function of the metonymy is to point out which part of the metaphorical mapping will be interpreted. In this example, the mind is the part we focus to interpret. After provided with conceptual tools for analysis, we will advance on the analysis by using these conceptual mechanisms in the following section.

III. Analysis Ruiz de Mendoza’s (2003) notion of interaction types in analyzing idioms is modified to account for the data, among which four interaction types are found:

Eg 4: Bi-hun tang — pah-pah khang (米粉筒—百百孔).

Example 4 illustrates the first type, where the source of the metaphor contains target-in-source metonymy. In the first stage, the knowledge frame of [THE TUBE FOR MAKING RICE NOODLE] is activated, including several domains such as domain of its shape, domain of its weight, domain of its function, domain of the steps for making rice noodles, and so on. Then, subsequently, the domain of shape is perspectivized. Specifically, its characteristic shape—having hundreds of holes on the bottom—is perspectivized to stand for the whole object, activating DEFINGING PROPERTY FOR CATEGORY metonym where the target is within the source. Then, the characteristic of the tube, serving as the source of a metaphor, is metaphorically mapped to the characteristic of the result of an event. Hence, hundreds of holes in the tube represent full of holes/problems of the result. Through this process, the intended meaning ‘full of holes/problems’ is derived. The metaphor involved here is a type of Lakoff’s (1993) novel metaphor—image metaphor—where the image of the tube for making rice noodles is mapped to the image of the result of an event. The Invariance Principle operates also in the metaphor. Holes of the tube correspond to holes of the result. The meaning derivation of the first type is shown above.

Eg 5: Kau-bu pang-jio—nng-kha (狗母放尿—軟腳)

In the second type (eg 5), target-in-source metonymy is embedded in the metaphoric source and the target of the metaphor serves as the source of a metonymy which itself is the source of the next source-in-target

159

Page 163: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

metonymy. In the first stage, the domain of physical posture is perspectivized from the knowledge frame of the event [A BITCH URINATES], which contains domain of physical posture, domain of the urinating steps, domain of the urinating places, and so on. The characteristic posture of a bitch’s urination—bending hind legs—is perspectivized to stand for the whole events, activating DEFINGING PROPERTY FOR CATEGORY metonym in which the target is embedded in the source. Then, the posture of a bitch’s bending legs is metaphorically mapped to the posture of a frightened person’s bending legs. Such a mapping illustrates an image metaphor in which the image of a bitch’s posture is mapped to that of a person’s posture. The Invariance Principle operates here, where a bitch’s bending legs corresponds to a person’s bending legs. Then, the knowledge frame provides us with the knowledge that someone will unconsciously bend his legs when he is over-frightened. Such an action is out of fear. Bending legs stands for fear, activating PHYSIOLOGICAL EFFECT FOR EMOTION metonym, which is a part-for-part relationship. Then, the knowledge that being afraid of everything is one of the main characteristics of being a coward lays the ground for the next meaning derivation. The defining feature—fear is employed to stand for the category—cowardice, activating DEFINING PROPERTY FOR CATEGORY metonym. Hence, through these metonymic and metaphorical mappings, the intended meaning—cowardice is obtained. The derogative meaning of the two-part allegorical saying is preserved in the mapping. Both bitches and urination are evaluated as negative in our culture. Such negative evaluation of the surface form is percolated to the intended meaning of the two-part allegorical saying. Hence, speakers could easily obtain a derogative meaning in the two-part allegorical expressions.

Eg 6: Bak-chat-ah thau— bo-hoeh-bo-bak-sai (墨賊仔頭—沒血沒目屎)

In example 6, the source of the metaphor contains target-in-source metonymy and the target of

the metaphor contains source-in-target metonymy. In the first stage, the domain of elements that a

squid lacks is perspectivized from the knowledge frame of [A SQUID’S HEAD] that contains several

domains, such as domain of the shape of a squid’s head, domain of the taste of the squid’s head, and so

forth. The characteristic feature of having no blood and tears is perspectivized to stand for a squid’s

head, activating DEFINGING PROPERTY FOR CATEGORY metonym in which the target is

embedded within the source. Then, a squid’s having no blood and no tears is metaphorically mapped

to the domain of human beings to indicate a person’s having no blood and no tears. Having no tears

towards a sad event is a defining reaction of a cold-hearted person. Such a mapping is a CATEGORY

FOT DEFINING PROPERTY metonym whose source is within the target is activated. In this way, the

intended meaning—a cold-hearted person is obtained.

160

Page 164: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Eg 7: A-kau chhu-teng—Chhin-a-chang (阿猴厝頂—青仔欉)

Example 7 illustrates double target-in-source metonymy as the metaphoric source and its

metaphoric target contains source-in-target metonymy. In the first stage of meaning derivation, the

domain of the material used is perspectivized from the knowledge frame of [THE HOUSETOP IN

PINGTONG], activating a THE MATERIAL CONSTITUTING AN OBJECT FOR THE OBJECT

metonym whose target is enclosed in the source. Then, the defining feature of the areca’s trunk—

straightness—is perspectivized and employed to stand for the trunk, activating a DEFINGING

PROPERTY FOR CATEGORY metonym where the target is within the source. Subsequently, the

straightness of the trunk metaphorically is mapped to the straightness of a person, illustrating an image

metaphor in which the image of the trunk’s shape is mapped to that of a person’s posture. The

Invariance Principle operates here, where the trunk’s straight shape corresponds to a person’s straight

posture. Then, the knowledge frame provides us with the knowledge that an infatuated person’s body

often becomes straight when seeing a charming lady he loves. Using the characteristic posture of an

infatuated person to stand for this type of a person activates a CATEGORY FOT DEFINING

PROPERTY metonym whose source is embedded within the target. Finally, through these metonymic

and metaphorical mappings, the intended meaning—an infatuated person—is obtained.

From the above interaction types, an interesting interaction of knowledge frame, metonymy, and

metaphor could be observed. Knowledge frame provides a ground for metonymy and metaphor. Upon

161

Page 165: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

the knowledge frame, metonymy serves as the ground for the next step of metaphor. As for the type of

metonymy, Category-and-property ICM ranks as the most common type. DEFINGING PROPERTY

FOR CATEGORY metonym and CATEGORY FOT DEFINING PROPERTY metonym is common in

above examples.

This paper aims to probe into how the intended meanings of two-part allegorical expressions in

TSM are obtained by delineating their multiple-layer semantic derivations. The methodology

employed in the study will be useful for analyzing two-part allegorical expressions in other dialects.

References

Fillmore, C.J. 1975. An alternative to checklist theories of meaning. Proceedings of the Berkeley Linguistic Society,

ed. by C. Cogen, H.Thompson, G. Thurgood and K. Whistler, 123-31. Berkeley: Berkeley Linguistics Society.

Fillmore, C.J. 1977. Topics in lexical semantics. Current issues in linguistic theory, ed. by R.W. Cole, 76-138.

Bloomington, London: Indiana University Press

Fillmore, C.J. 1985. Frames and the semantics of understanding. Quaderni di Semantica VI. 222-54.

Kovecses, Z. and P. Szabo. 1996. Idioms: A view from cognitive semantics. Applied Linguistics 17:3. 326-55.

Kovecses, Z., and G. Radden. 1998. Metonymy: Developing a cognitive linguistic view. Cognitive Linguistics

9:1. 37-77.

Lakoff, G. 1993. The contemporary theory of metaphor. Metaphor and thought, ed. by Andrew Ortony. 202-51.

Cambridge: Cambridge University Press.

Ruiz de Mendoza, F. 2003. The role of mappings and domains in understanding metonymy. Metaphor and

metonymy at the crossroads: A cognitive perspective, ed. by Antonio Barcelona. Berlin: Mouton de

162

Page 166: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Gruyter.

Taylor, J. R. 1995. Linguistic categorization: Prototypes in linguistic theory. US: Oxford University Press.

163

Page 167: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

基于《知网》的中文信息结构抽取董强 郝长伶董振东

中国科学院计算机语言信息工程研究中心 北京 100083E-mail: [email protected]

HowNet-Based Extraction of Chinese Message StructuresQiang Dong Changling Hao Zhendong Dong

Research Center of Computer & Language Information Engineering, CAS, Beijing, 100083E-mail: [email protected]

Abstract: The Chinese message structure is composed of several Chinese fragments which may be characters words or phrases. Every message structure carries certain information. We have developed a HowNet-based extractor that can extract Chinese message structures from a real text and serves as an interactive tool for building large-scale bank of Chinese message structures. The system utilizes the HowNet Knowledge System as its basic resources. It is an integrated system of rule-based analyzer, statistics based on the examples and the analogy given by HowNet-based concept similarity calculator.Keyword: Chinese message structure; Knowledge Database Mark-up Language (KDML); parsing; chunk;

1 引言近年来,语块分析(chunk parsing )或被称为浅层句法分析(shallow parsing)或部分句法分析(partial parsing)等语言处理方法成为语言技术研究的一个热点。其中印欧语言在这方面的研究已经取得了一定的成果,但是对于中文的语块分析则相对落后。其中主要的原因在于:相对于印欧语言,中文没有那么丰富的形态变化,中文的词类与句法功能不是一一对应的,中文的词、短语、句子之间的界限是模糊的。除此而外,甚至可能是更重要的原因在于:中文的结构更加依赖于语义的制约。本文提出中文信息结构这样的概念,并据此构建了基于知网的中文信息结构抽取器。该抽取器从中文的语义出发,以知网知识系统作为其基础资源。中文信息结构抽取器的功能主要包括两个方面:(1)构建、管理和维护《知网-中文信息结构库》的数据;(2)是分析并抽取真实文本中的中文信息结构。其技术关键是:第一,它对于中文的词、词组、短语进行一体化的处理;第二,它主要是基于语义的。第三,它是基于规则匹配和基于大规模实例库及相似度比较的结合。中文信息结构抽取器利用已有的中文信息结构的模式与实例编写规则,再利用这些规则到真实的文本中抽取所需的中文信息结构来构建更大规模的中文信息结构库。2 中文信息结构信息结构(message structure)是由两个或两个以上的字、词或短语构成,句法和语义合理,并传达了特定信息的结构。该结构内不含有介词、助词、连词、标点。该结构内部允许呈递归形态。信息结构是信息理解(message understanding)的基础。信息结构是依赖于特定语言的,不同的语言可以表达相同的信息,但有着不同的信息结构。试以"通缉犯"这样一个词语为例。其中有两个基本单元“通缉”和“犯”,“通缉”为动词,“犯”为名词,因此从句法结构看是V+N 的定中结构;从语义关系结构看,

164

Page 168: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

前者是“行为动作”,后者是“受事”;而信息结构不仅能反映“行为动作”和“受事”之间的关系,而且还能够反映出是“这是一个人,这个人是被通缉的对象,他是一个有罪的人(“有罪”这一信息是含在“通缉”这一词语中的)”。中文信息结构是中文中句法和语义合理的一个语言片段,它可能是传统被认定的词语,也可能是一个比词语更大的语言片段。中文信息结构的描述对象是:由中文词语所表述的概念。《知网》规定了最基本的运算单元是:万物、部件、属性、属性值、事件、时间和空间等 7大类。(a) 万物平民-百姓,车-辆,运动员-们,桌-椅,赵-大夫,杨-队,大学-老师,海外-房地产-投资-公司,电影-演-员,采访-者,外交-界,物理学-家,食蚁-兽,手术-室,美食-城,西药-房,设备-保护-装置,洗涤-剂,豆瓣-酱,长-袖-衫,大-黄-狗,锦绣-河山,金-光,酸-梅,业余-棋手,一-本-杂志(b) 部件头-顶,脸-部,腹-腔,科-室,手-套,熊-腰,文章-段落,牙-根,树-枝,杏-仁,山-顶,句-首,屋-脊,桌-面,车-身,笔-套,学校-各处室,鸡-腿,尖-下颌(c) 属性浓-淡,安-危,高-度,通畅-性,员工-人数,药-效,地球-籍,温-差,氧气-消耗-量,出生-率,社会-环境,警-民-关系,主要-特点,本届-会议(d) 属性值朱-红,没-水平,高-性能,双-色,可-悲,防-洪,耐-寒,翠-绿,中-高级,银-灰,深-蓝,更加-重要,功能-正常,不-称职,干-干-净-净,快-起来,软-下去,十-七,第-五,三-分之-二,百分之-十(e) 事件安排-工作,卖-书,参观-学校,供应-部队,植-树,订-计划,新闻-报道,物价-检查,药品-生产,拜-寿,爱好-体育,爱-看书,称-重,恢复-军籍,度过-难关,中断-比赛,禁止-吸烟,爱-漂亮,睡-三小时,打-牌,非常-爱护,两-年-写-四-本,深-感,怒-斥,盗-墓(f) 时间道光-三十-年,公元前-368-年,四-月,六-号,第五-天,六-点,1939年-9月,1月-24日,今天-凌晨,上午-九时,12月 9日-星期四,八时-三十分,明天下午-五点,四个星期-内,本世纪-末期,上午八时-整(g) 空间

165

Page 169: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

江西-省,加拿大-多伦多,辽宁-本溪,厦门-湖里区,北京-广渠门大街,香颐路-宁宜小区,秀水园-1-号,6号楼-5-号,中山北路-三-段,丽都-饭店,中山-公园,闪光-点,战争-地点,网-上,古-国现在有很多人在做中文命名实体辨识(Chinese Named-entity Recognition)的工作,在中文命名实体辨识中的主要是抽取人名、地名、组织机构名、时间、数量等[4][5],而中文信息结构不仅涵盖了这些内容,并且其涉及的范围较目前流行的中文语块更宽泛。我们研究中文信息结构的出发点是:既然我们已经认定了世界上只有 7大类概念,我们将通过对于中文信息结构的研究来发现中文是如何表达或描述这些概念的。下面我们就“万物”这个类别,在展开一点加以说明。中文在描述“万物”时,都采用了哪些结构呢?试看下面的例子。(a) 描述“万物”作为成员角色及其整体的关系其中的一个结构(简化)是:(组织/场所) [来源整体] <-- (人,职位),如:公司-总经理,图书馆-馆员,小卖店-老板娘,社科院-院长,内科-主任

(b) 描述“万物” 作为被领属物其中的一个结构(简化)是:(地方,专) [限定] <-- (组织)美国-国会,美-军,中国-人大,俄-杜马,台湾-情治单位,以色列-摩萨德,德国-央行

(c) 描述“万物”作为施事角色及其行动的关系其中的一个结构(简化)是:(事件,行动) <-- [施事] (人/拟人),如:公诉-人,捕蛇-人,侦察-兵,救生-员,采购-员,收货-人,来京务工-人员,辍学-

生(d) 描述“万物”作为被支配角色(如受事等)及其行动的关系其中的一个结构(简化)是:(事件,行动) <-- [受事/成品受事/内容/对象/领属物] (万物),如:雇-员,展-品,弃-婴,保护-区,在押-犯,进口-货,废弃-机场,参考-资料,处理-

对象(e) 描述“万物”作为销售场所及其所销售物品的的关系其中的一个结构(简化)是:{(物质) [领属物] <-- <事件,行动,买>} <-- [处所] (组织/场所),如:书-店,鞋-店,银-楼鞋帽-店,中药-店,西药-店,西饼-店,床上用品-商店,自行车-行

(f) 描述“万物”作为成品及其材料的的关系其中的一个结构(简化)是:(材料/无生物) [材料] <-- (人工物),如:蔗-糖,草-席,玻璃-杯,葡萄-酒,塑钢-门窗,柏油-马路,汉白玉-栏杆,皮蛋瘦肉-粥,

(g) 描述“万物”作为成品及其材料的的关系

166

Page 170: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

其中的一个结构(简化)是:{(材料/无生物) [材料] <-- (制造/辫编)} <-- [成品受事] (人工物),如:铝-制-品,毛-织-品,全棉-织-品,豆-制-品,玻璃-制-品,纯羊毛-织-物,

(h) 描述“万物”作为销售场所及其所销售物品的的关系其中的一个结构(简化)是:{(属性值)/(数量值) [修饰] <-- (部件)} <-- [整体] (物质),如:金-发-女郎,白-胡子-老头,圆-领-衫,高-领-衫,长-把儿-铁锹,独-臂-英雄,双-缸-洗衣机,3 中文信息结构抽取器的规则与模块根据我们多年建设知网和中文信息结构库的实践,我们可以肯定中文词语间的组合主要基于语义。在我们的中文信息结构库 2000版中,中文信息结构(基于语义的)有271个,但与之对应的句法结构仅 58个。下面的结构在句法上都是 N+V 的结构,但它们的语义结构是很不同的:货物-运输(受事),铁路-运输(手段),汽车-运输(工具),春节-运输(时间),海洋-运输(处所),人们-运输(施事)等。如果仅仅将它们捆绑在一起(如树库所为)或者仅仅把它们分类为主谓、定中等结构(如传统语言学的语法所为),对于信息处理都是不够的。因此,中文信息结构抽取器主要采用了基于语义的方法。我们在中文信息结构抽取器中构建了一系列的语义规则与模块。图 1 所显示的是我们的抽取器工作的一个结果,即根据一条有关“时间结构”的语义的规则,来抽取“当天 上午 十 点”这一类型的信息结构。

图 1:中文信息结构抽取器概况

167

Page 171: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3.1 规则与模块的形成在中文信息结构抽取器中,我们构建了一系列的规则与模块来实现对中文信息结构的抽取。其中的规则是以《知网-中文信息结构库》为原始资料进行构建的。这是因为《知网-中文信息结构库》中的中文信息结构是从大规模真实语料中抽取,并经人工选择,确定取舍的,其中共总结了 271种中文信息结构,附带着一万多实例,总字数十万余。虽然就其规模而言它还只能算是一个雏形,但就其所包含的模式而言应该说已趋于成熟。3.2 中文信息结构抽取器中的模块我们根据规则所能够实现的功能,将规则分配到不同的模块,如时间模块用来处理时间类中文信息结构,机构名模块则用来处理表示各种机构的中文信息结构。每一个模块下都有若干规则,并且这些规则会按照不同的优先级进行排列,将优先级高的规则放在前面,这样当调用到这个模块时,就会先调用优先级高的规则。而规则的优先级又是按照规则规定的严格与否划分的,规定严格的规则,它的优先级就高。因此优先级的高低确定了同一个模块中规则的调用顺序。3.3 中文信息结构抽取器中的规则每一条规则都是由规则的条件和规则的结论两个部分构成。对于规则条件的描述采用了知网知识系统描述语言(KDML)的描述方法。规则的条件从信息结构的每个组成部分的意义出发,规定了具体的中文信息结构的各个部分之间的语义关系。规则的结论发出一种动作,如:开始扫描文本,调用某个规则模块,捆绑一个中文信息结构等等。例如下面的规则:

规则的条件:[CN.def]① == {cardinal|基数} && [R1.def.class]② == {ActUnit|动量}规则的结论:@chunk(R1,CN).例子:三-下;两-趟;

(注①:[CN.def]表示当前扫描节点的概念定义。)(注②:[R1.def.class]表示当前扫描节点的下一个节点的概念定义的类。)在规则的条件部分,我们首先规定了当前的节点的概念定义为{cardinal|基数},接着规定当前节点的下一个节点的概念定义的类为{ActUnit|动量},{cardinal|基数}和{ActUnit|动量}都是在知网中定义的义原。我们看其中“三-下”这个例子,它符合这个规则所规定的条件,由此也就确定了“三-下”这个例子中“三”和“下”这两个部分的意义。其中“三”在知网中只有一个意义,是:DEF={cardinal|基数}。而“下”在知网中共有 20 个意义,而按照这条规则的规定,它的概念定义的类应该是{ActUnit|动量},因此我们就确定了这里的“下”的意义为:DEF={ActUnit|动量:host={event|事件}}。当一个信息结构符合了某一条规则的时候,这个信息结构中每个部分的意义都被确定了。这个规则的结论是以R1节点为中心进行捆绑,因此就把“三-下”中的“三”作为“下”的子节点捆绑了,那么“三-下”这个信息结构的意义就被抽象成“下”的意义,即DEF={ActUnit|动量:host={event|事件}}。值得指出的是“三”的意义并没有

168

Page 172: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

被丢掉,而是仍然被保存的,以便于进一步捆绑以及意义的辨识时的使用。下面我们来看“爱-生病”和“爱-游泳”这样两个信息结构,从句法结构上看都是“V+V”的结构,但是从他们的语义结构来看,前者是(事件,状态,易于) --> [内容] (事件),后者是(事件,状态,情绪/态度/意向/感知状态) --> [对象] (事件),即具有不同的语义结构,这时,我们就会将这样的两个信息结构编写不同的规则,如下:

“爱-生病” [CN.def] == {AptTo|易于} && [R1.def.class.root] == {event|事件}“爱-游泳” [CN.def] == {FondOf|喜欢} && [R1.def.class.root] == {event|事件}

对于规则的描述采用了知网知识系统描述语言(KDML)的描述方法,这是因为:中文信息结构体现了概念与概念之间以及概念的属性与属性之间的关系,这也是它与普通意义上的中文语块之间的区别。在知网知识系统中,共定义了 2215 个义原以及 90 个动态角色,通过 KDML的描述,这些义原与动态角色得以紧密联系在一起。中文信息结构恰恰需要这样一种描述语言来体现各种信息结构中概念之间以及概念的属性与属性之间的关系。另外,知网知识系统的知识库是利用知网知识系统描述语言(KDML)对各种语言的词语所代表的概念进行描述的,它是一个面向计算机的可以计算的语义资源。利用 KDML 对中文信息结构抽取器中的规则进行描述使中文信息结构抽取器与知网知识系统结合起来。从理论上讲,这使得知网的知识体系在中文研究中得到了进一步的延伸。从应用的角度来看,在中文信息结构的抽取过程中,通过知网知识库进行组词,使被切分的每一部分的意义都变得能够计算,同时 KDML使得每一种信息结构也都成为可以计算的对象。这样,规则中所规定的某一部分应该具有的语义与被切分的每一个部分之间就可以放在一起进行意义的计算了。就上面的例子有人会问:“如果文本中是‘爱发脾气’,抽取器又如何能知道选择哪一条规则?”这正是我们的策略与传统的基于规则的系统的不同。在《引言》中我们指出我们的任务之一是建设大规模中文信息结构库。在结构库里有大量的实例,以便我们引入统计概率的方法,同时还要特别介绍,我们有已经完成的概念相似度计算器,例如就以“发脾气”为例,根据我们的概念相似度计算器的计算,“发脾气”与“生病”的相似度为 0.018605;而与“游泳”的相似度为 0.009639。这样也可以帮助我们判别歧义。3.4 规则控制程序的策略在中文信息结构抽取器中采用了规则控制程序这样一种策略。这种策略使得语言工作者与计算机工作者的工作相互分离,最大限度的发挥了各自的长处。对规则和模块进行的填加、修改、删除,制定规则的优先级,什么时候调用什么样的模块等等这些工作都可以由语言工作者单独完成,因为语言工作者最了解各种语言现象。计算机工作者只需要完成对这些规则与模块的解析。对于规则与模块的解析是通过信息结构解析器完成的。3.5 信息结构解析器如果不能对上述的规则与模块进行解析,那么中文信息结构抽取器就不能被激活,对

169

Page 173: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

真实的中文文本进行信息结构的抽取也就无从谈起。于是,我们构造了信息结构解析器。信息结构解析器是由计算机工作者完成的,用于对规则中所使用的各种描述符号、关系符号进行解释,并对其中的 KDML 语言进行解析,从而完成规则与信息结构之间语义的匹配。规则与信息结构语义之间的关系匹配是信息结构解析器最为重要的部分。3.6 规则举例文本:去年冬天我去了两趟哈尔滨。中文信息结构的抽取结果如图 2,其中共有两个中文信息结构,分别是:“去年-冬天”和“两-趟”。其中中文信息结构“去年-冬天”抽取结果分析如下:

中文信息结构:去年冬天组合情况:去年-冬天适用规则:[CN.def] >= {time|时间:TimeSect={year|年}} && [R1.def] == {time|时间:TimeSect={winter|冬}} # @chunk(CN,R1).

中文信息结构“两-趟”抽取结果分析如下:中文信息结构:两趟组合情况:两-趟适用规则:[CN.def] == {cardinal|基数} && [R1.def.class] == {ActUnit|动量} # @chunk(R1,CN).

与其他的中文语块抽取系统不同的是,经过中文信息结构抽取器处理后的中文信息结构内部的语义关系是清晰明确的,其每一个部分的语义都被确定并保留了。这样一来就给我们的研究带来一个新可能,即我们可以针对已被抽取出来的信息结构,进行问与答。例如针对第 2节的(a)我们可以有如下的问与答:(a)描述“万物”作为成员角色及其整体的关系其中的一个结构(简化)是:N1(组织/场所) [来源整体] <--N2 (人,职位)Query1: 谁?/ 什么人?Answer1: N1 + N2Query2: 他(她)是做(干)什么的?/ 他(她)的职务是Answer2: N1 + N2Query3: 那是哪儿的 N2?Answer3: N1“的”

170

Page 174: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

图 2:抽取结果示例4. 结论知网人一直致力于面向计算机的中文信息处理,因此,由知网人开发的中文信息结构抽取器也必然是面向计算机的系统。中文信息结构抽取器充分的利用了知网知识系统这一语义资源,实现了对中文信息结构的自动抽取,成为建设知网-中文信息结构库的必不可少的工具。中文信息结构抽取器目前基本完成了对时间、数量、地名、重叠词等的自动辨识,在下一步的研究中,我们将进一步完善已有的模块以及构建针对更为复杂的中文信息结构的自动辨识模块。参考文献[1] 董强,郝长伶,董振东,基于《知网》的中文语块抽取器,语言计算与基于内容的文本处理(全国第七届计

算语言学联合学术会议论文集),孙茂松、陈群秀主编,清华大学出版社[2] 颜国伟、谭慧敏,基于《知网》的常识知识标注,中文计算语言学期刊,第 4卷第 2期,1999[3] 汉语计量与计算研究,邹家彦,香港城市大学语言资讯科学研究中心,1998[4] Jorn Veenstra, Memory-based text chunking, In Nikos Fakotakis Machine Learning in human language

technology, workshop at ACAL99, 1999[5] Jian Sun, Ming Zhou, Jianfeng Gao, “A Class-based Language Model Approach to Chinese Named Entity Identification”, Computational Linguistics and Chinese Language Processing,Vol.8, No.2, August 2003, pp.1-28[6] Hua-Ping ZHANG, Qun LIU, Hong-Kui YU, Xue-Qi CHENG, Shuo BAI, “Chinese Named Entity Recognition Using Role Model”, Computational Linguistics and Chinese Language Processing, Vol.8, No.2, August 2003, pp.29-60网络资源:http://www.keenage.com

171

Page 175: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

词义关系推理聂文龙

中山大学逻辑与认知研究所新港西路135号, P.C.510275

广州市, 中国[email protected]

鞠实儿中山大学逻辑与认知研究所

新港西路135号, P.C.510275广州市, 中国

[email protected]

摘要 本文对词汇语义关系在Montague语义学中作了定义,并讨论了同类词汇语义关系的传播问题,提出用逻辑推理解决的方法。

1 引言词与词在语义上存在一定的意义关系,词汇分解是说明词与词之间意义关系的一种办法。Dowty 使用词汇分解方法,把生成语义学家的研究成果在 Montague 语义学框架里做出了描写。词汇的语义通过深层结构对句子意义的表达,或使用一些抽象算子(如CAUSE, BECOME 等)和逻辑语言的基本词表示为逻辑公式,进而发现词汇语义的关系(同义,蕴涵等)。例如,给出及物动词 kill、不及物动词 die和形容词 dead 的语义表示如下:a. kill’ = lxly[CAUSE(BECOME(alive’(y)))(x)]b. die’ = ly[BECOME(alive’(y))]其中 alive’是基本逻辑词,加撇号“’”的词汇表示与该词汇对应的逻辑公式语言中的语义项。那么容易得出:Zhang San killed Li Si.蕴涵 Li Si died.

意义公设也是一种描写词汇之间意义关系的办法,比如下位关系的描述。X 是 Y 的下位词,当且仅当 X和 Y 有以下意义公设:�x[X’(x)Y’(x)]。作为示例,有a. �x[猫’(x) 哺乳动物’(x)]b. �x[哺乳动物’(x) 动物’(x)]。

就词汇意义关系而言,Hownet和Wordnet 是实际中运用的例子。词汇分解与意义公设方法都是在意义层面表达词汇语义关系,在语形层面像 Hownet和Wordnet 那样给出的词汇语义关系基础上,展开进一步的研究将是很有兴趣的事情。

在句子的语义解释中,语义关系的作用是决定性的。词汇分解方法给词汇作了意义表达,意义公设方法给词汇之间的某些意义关系作了描述。然而,短语、句子之间的意义关系是如何系统地得到呢?例如,Zhang San killed Li Si.蕴涵 Li Si died.能不能依照某种机制推出。词汇语义关系可以按一定的规则在词汇形成短语或句子的过程中传播,因而找出传播规则就能够方便地得到短语或句子之间的语义关系,这个思路很自然地与逻辑证明的推理方法联系起来。

语义学提供了很多理解语义的观点, 本文的目的是沿着 Montague 语义学的方法给出句子语义关系从词汇语义关系形成的逻辑证明规则,并且具有在语形层面作推理的

172

Page 176: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

特点。词汇语义关系是理解词汇语义的凭借,在词汇组合形成句子的过程中,词汇语义关系被传播,最终能够形成句子语义关系,可以预见,各种语义观点对句子语义关系是有影响的,但它们的优劣性比较在此不做任何讨论。

Dowty 对词汇语义的研究,是 Montague 语义学的途径。但Montague 对语形并未作演算讨论,因此不能用词汇层面的关系表达词汇语义层面的关系,我们的思路是在词汇语形层面引入词汇的关系,当然这种关系是词汇语义关系的反映。并在词汇进一步的组合成短语、句子的过程中,词汇的关系得到传播,导致短语、句子也产生了关系。

下面的内容安排如下:第二节给出有关的概念定义;第三节提出逻辑规则;第四节是结论部分。

2 相关概念类型设w 是词汇w 的语义项,||w||是它的语义,约定在不引起混淆的场合,词汇w 与其语义项w写法完全一样, 并且不考虑词汇的内涵(intensional)语义。词汇的语义是一种类型语义,类型分为两种:基本类型和非基本类型。类型的构造方法从基本类型开始,通过递归的手段构造。一般来说,语义的基本类型有两个:e和 t, 非基本类型是AB,其中 A、B 是是任何类型。 表达式类型指派

对任意表达式 w, wAB 表示指派类型 AB给w,或称w具有类型 AB。按照Montague 语义学的观点, 当 w 有非基本类型 AB 时,||w|| DB ,或||w|| = W DADB ,DA 代表 A 的域,例如 De=D, Dt={1, 0}那么有下述关系

(…((||w||)(an))( an-1)…)( a1) Dt D,an DAn, …, a1 DA1词汇w1和词汇 w2 的语义分别是 W1和W2, 即||w1|| = W1,||w2|| = W2, 确定w1和w2 的关系可以通过 W1 与 W2 的关系确定。有两种表示方法:集合与特征函数形式。

在基本的场合,w1,w2 e,写成集合形式有 W1={d1}, W2={d2}, 这里 d1,d2 D, 由此而来W1和W2 的可能关系是同一关系:=。现研究非基本场合,最简单的情况是 w1,w2et。此时,按集合形式 W1, W2

D, 或函数形式 W1, W2:D{1,0}。W1 与 W2 的关系有:相交与不相交。在相交的情况下,有包含关系()这一特殊情况,即W1W2 当且仅当对于任何 a, 如果 W1(a) = 1 那么 W2(a) = 1。W1W2 表明w1 的语义是 w2 的语义特殊化,相当于语言学中下位关系。

一般地,当 w1,w2AB 时, 语义关系W1W2成立当且仅当对于任何 a, W1(a) W2(a), 其中同类型词的语义关系 , 当 B 是任何类型时,在不引起混淆时写成 。

在词汇层面,词汇的组合通过连接而实现,引入记号“⊙”表示两个词汇的连接。定义 1. 设 w1,w2B , B 是任何类 型 。称 w1w2 , 如 果 W1W2, W1 = ||

173

Page 177: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

w1||,W2 = ||w2||。定义 2. 设wAB,称w 是单调词汇,如果对任意的词汇 a、bA,||a|| ||b||,成立关系式||w⊙a|| ||w⊙b|| 或||w⊙b|| ||w⊙a||。例如,w1 =“轻轻锤”, w2 =“轻轻打”, a1 =“锤”, a2 =“打”, w =“轻轻”,

w1=w⊙a1, w2=w⊙a2,下面分析词义关系: w1w2。根据直觉,w 是单调的,而且 锤打, 即 a1 a2。所以得 w⊙a1 w⊙a2,也就是:w1w2。还有 w =“不”的情况:不⊙打不⊙锤,由此可见,这两种单调情况正好相反。再如,设w1 =“轻轻放”, w2 =“放”,把 w1和w2 的语义按函数的表示方法给出,

我们有W1:东西 a (轻轻放东西 a:张三 b = 1 或 0)W2:东西 a (放东西 a:张三 b = 1 或 0)换句话说,对于东西 a,“轻轻放东西 a 放东西 a” 意味着:

如果张三轻轻放东西 a ,那么 张三放东西 a这是对的,所以 w1w2 。综上所述,单调词汇提供了词汇语义关系传播的一条途径。

3 词汇语义关系的逻辑推理规则在 Montague 语义学中,通常给词汇指派范畴,然后范畴转换为类型,根据类型再确定词汇的语义。范畴的递归定义基本范畴:s, ns 表示句子的范畴,n 表示名词性的范畴。导出范畴:A/B, B\A,其中 A、B 是任意范畴,导出范畴用以表达形容词、副词等的范畴。范畴与类型的转换方法 s转换为 t, n转换为 e A/B和B\A转换为 BA。指派范畴的方法之一是借助词汇的词类,词类与范畴的转换,参见下表词类 范畴标注 说明句子 S 基本范畴名词 N 基本范畴不及物动词 N\S 左方缺少主语及物动词 (N\S)/N或者N\(S/N) 左方少主语,右方少宾

174

Page 178: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

语形容词(做定语) N/N 右方少中心语形容词(做表语) (S/N)\S 左方少“缺宾语句子”副词(做前置状语) (N\S)/(N\S) 右方少中心语副词(做后置状语) (N\S)\(N\S) 左方少中心语介词(做后置状语) ((N\S)\(N\S))/N 右方少介词宾语介词(做后置定语) (N\N)/N 右方少介词宾语冠词 N/N 右方少名词代词(主格) S/(N\S) 右方少不及物动词代词(宾格) (S/N)\S 左方少“缺宾语句子”现在研究词汇语义关系“”传播的逻辑规则,按语义规则,如果 w1A/B, aB, 那

么根据范畴到类型的转换,通过前面所述的类型语义方法我们有下述等式:||w1⊙a|| = ||w1(a)|| = ||w1||(||a||) = W1(a) {1, 0}, 其中“⊙”是两个词汇的结构连接算子, “/,\”是范畴斜线(splash)算子,

因此,下述逻辑规则w1 w2 |- a(w1⊙a w2⊙a)有效。或写成

(WR)w1, w2 A/B a B , w 1 w 2a(w1⊙a w2⊙a)

(MWR)a B w 1, w2 B\A , w 1 w 2a(a⊙w1 a⊙w2)

规则规则(WR)(WR)、、(MWR)(MWR)分别称为词汇规则与单调词汇规则。一些语言资源可以看作是词汇分别称为词汇规则与单调词汇规则。一些语言资源可以看作是词汇语义关系的资源,如语义关系的资源,如 HownetHownet、、WordnetWordnet 等。等。例如,下图是例如,下图是 HownetHownet 中词汇语义上下位关系的部分图示:中词汇语义上下位关系的部分图示:ententity|ity|实体实体 ├├ thing|thing|万物万物 [#time|[#time|时间时间,#space|,#space|空间空间]] ││ ├├ physical|physical|物质物质 [!appearance|[!appearance|外观外观]] ││ ││ ├├ animate|animate|生物生物 [*alive|[*alive|活着活着,!age|,!age|年龄年龄,*die|,*die|死死,*metabolize|,*metabolize|代谢代谢]] ││ ││ ││ ├├ AnimalHuman|AnimalHuman|动物动物 [!sex|[!sex|性别性别,*AlterLocation|,*AlterLocation|变空间位置变空间位置,*StateMental|,*StateMental|精神状精神状态态]] ││ ││ ││ ││ ├├ human|human|人人 [!name|[!name|姓名姓名,!wisdom|,!wisdom|智慧智慧,!ability|,!ability|能力能力,!occupation|,!occupation|职位职位,*act|,*act|行动行动]]

175

Page 179: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

││ ││ ││ ││ ││ └└ humanized|humanized|拟人拟人 [fake|[fake|伪伪]] ││ ││ ││ ││ └└ animal|animal|兽兽 [^*GetKnowledge|[^*GetKnowledge|认知认知]] ││ ││ ││ ││ ├├ beast|beast|走兽走兽 [^*GetKnowledge|[^*GetKnowledge|认知认知]] ││ ││ ││ ││ ├├ livestock|livestock|牲畜牲畜 [$foster|[$foster|饲养饲养,~$consume|,~$consume|摄取摄取,~?edible|,~?edible|食物食物]] ││ ││ ││ ││ ├├ bird|bird|禽禽 [*fly|[*fly|飞飞,~$consume|,~$consume|摄取摄取,~?edible|,~?edible|食物食物]] ││ ││ ││ ││ ├├ InsectWorm|InsectWorm|虫虫 [~undesired|[~undesired|莠莠]] ││ ││ ││ ││ └└ fish|fish|鱼鱼 [*swim|[*swim|游游,#waters|,#waters|水域水域,~$consume|,~$consume|摄取摄取,~?edible|,~?edible|食物食物]] ││ ││ ││ ├├ plant|plant|植物植物 [^*SelfMove|[^*SelfMove|自移自移,^*StateMental|,^*StateMental|精神状态精神状态]] ││ ││ ││ ││ ├├ crop|crop|庄稼庄稼 [$planting|[$planting|栽植栽植,?material|,?material|材料材料,#edible|,#edible|食物食物]] ││ ││ ││ ││ ├├ tree|tree|树树 [#wood|[#wood|木木,?material|,?material|材料材料]] ││ ││ ││ ││ ├├ FlowerGrass|FlowerGrass|花草花草 [~$planting|[~$planting|栽植栽植,~odor|,~odor|气味气味,~color|,~color|颜色颜色,~prettiness|,~prettiness|美美丑丑,~*decorate|,~*decorate|装饰装饰]] ││ ││ ││ ││ ├├ vegetable|vegetable|蔬菜蔬菜 [$planting|[$planting|栽植栽植,?edible|,?edible|食物食物,$consume|,$consume|摄取摄取]] ││ ││ ││ ││ ├├ fruit|fruit|水果水果 [$planting|[$planting|栽植栽植,$consume|,$consume|摄取摄取,?edible|,?edible|食物食物,#tree|,#tree|树树]] ││ ││ ││ ││ └└ AlgaeFungi|AlgaeFungi|低植低植 [~?edible|[~?edible|食物食物]] ││ ││ ││ └└ bacteria|bacteria|微生物微生物 [~*CauseToDo|[~*CauseToDo|使动使动,#disease|,#disease|疾病疾病,#medical|,#medical|医医,~undesired|,~undesired|莠莠]] ││ ││ ├├ inanimate|inanimate|无生物无生物 [^*alive|[^*alive|活着活着,^*die|,^*die|死死,^*metabolize|,^*metabolize|代谢代谢]] ││ ││ ││ ├├ natural|natural|天然物天然物按照本文的记号,可以表示为 thing entityphysical thing animate physical inanimate physical ……按照范畴的指派方法,它们的范畴是 s/(n\s), 根据以上所述逻辑规则,下述句子语义关系成立:animate⊙(is active) physical⊙(is active).根据以上提出的逻辑规则(WR)(WR)、、(MWR)(MWR)按照逻辑演绎推理的方法,我们能够对句子按照逻辑演绎推理的方法,我们能够对句子、、语篇进行从词汇到短语、句子、语篇各个层次上的语义关系推理。语篇进行从词汇到短语、句子、语篇各个层次上的语义关系推理。对于具体的语料来说,句子之间的关系是如何推理的,让我们看下面一段话:从今天凌晨起,广州全面施行“限摩”方案。

从 Hownet 或其他语言词汇资源,可以查到这段话中存在的词汇语义关系有: 今天 今年,从…起 曾经在;限三轮摩 限摩;单调词汇有:曾经在。那么应用推理规则(WR)(WR)、、(MWR)(MWR)结果得:结果得:

“从今天凌晨起,广州全面施行“限摩”方案。” “曾经在今天凌晨,广州全面施行“限摩”方案。”

“曾经在今天凌晨,广州全面施行“限摩”方案。” “曾经在今年凌晨,广州全面施行“限三轮摩”方案。”

176

Page 180: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

4 结论本 文提出 了 词汇语义关系组合 传播的逻辑规则, 实现了 传播即是推理的 思想。

Hownet, Wordnet 都是词汇语义关系的例子,所以这里做的研究也可看作是对词汇的上下位关系的组合传播方式的理论探讨,进一步的研究可以考虑对其他的词汇语义关系的传播作研究, 或研究任何词汇语义关系向上下位关系的转换。参考文献 Dowty, D. Word Meaning and Montague Grammar. 1979. Dordrecht, Reidel.Montague, R. Formal Philosophy. Selected Papers of Richard Montague, edited and with an introduction by R.

Thomason. New Haven, Conn. 1974. Yale University Press.Moortgat, M. Multimodal linguistic inference. 1995, Bulletin of the IGPL 3(2,3). Special issue on Deduction

and Language (ed. R. Kempson), 371–401.

邹崇理,逻辑、语言和蒙太古语法,1995,社科文献出版社。方立,逻辑语义学,2000,北京语言文化大学出版社。蒋严、潘海华,形式语义学导论,1998, 中国社会科学出版社。

177

Page 181: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

双向考察和验证:并列成分中心语的语义关系和 CCD的名词语义分类体系

吴云芳北京大学计算语言学研究所

中国北京 [email protected]

李素建北京大学计算语言学研究所

中国北京 [email protected]

李芸北京大学计算语言学研究所

中国北京 [email protected]

俞士汶北京大学计算语言学研究所

中国北京 [email protected]

摘要并列结构是语言信息处理中的难点。本文一方面基于中文概念词典 CCD 的语义分类体系来考察名词性并列结构并列成分中心语的语义关系,发现真实语料中语义相似是并列成分之间最主要的语义关系,但并不是所有的并列成分都呈现出语义相似的特性。另一方面本文透过并列成分中心语的语义关系其中主要是语义相似的特性来审视 CCD 的语义分类体系,对语义分类体系中的一些语义类、以及语义类之间的关系进行了深入思考。这是语言形式(并列成分中心语)和语言意义(语义类和语义关系)的双向考察和验证。关键词 并列结构 语义分类 语义关系 语义相似

1 引言并列结构(coordinate structure)是语言信息处理中的难点。 一般认为并列成分是相似的,并列结构的自动识别研究几乎全是围绕并列成分的相似性来进行。Okumura and Muraki(1994) 和 Agarwal and Boggess (1992) 对英语并列结构的研究,Kurohashi and Nagao (1994) 对日语并列结构的研究,周强(1996)和孙宏林(2001)对汉语并列结构的研究,都是基于“并列成分相似”这样的语言学假设,在此前提下设计规则和算法。汉语语言研究同样认为并列成分是相似的,吴竞存,梁伯枢(1992)指出,词性相同、结构相同、语义类相同、音节数相同的项并列是最理想、最严格的并列。中心语(head)是当代句法理论中的一个核心概念,扩展的短语结构文法(GPSG)、中

心语驱动的短语结构文法(HPSG)都把中心语摆在了重要的位置。中心语是其父亲节点句法语义特征的集中体现者,那么,并列成分的相似也应该集中体现在各并列成分的中心语上。

CCD(Chinese Concept Dictionary,中文概念词典)是北京大学计算语言学研究所开发的与WordNet兼容的汉语语义词典,基本上沿袭了WordNet的语义分类体系(于江生、俞士汶,2001)。基于 WordNet的语义分类体系,人们对多种英语语言现象进行了探讨,如Resnik(1993) 对动词语义选择限制的研究。本文一方面基于 CCD的语义分类体系来考察名词性并列结构并列成分中心语的语义关系,

一方面透过并列成分中心语的语义关系其中主要是语义相似的特性来审视 CCD的语义分类体系,这是一个双向考察和验证的过程。Resnik(1993) 基于早期版本的WordNet的名词语义分类体系研究表明,动词 drink的直接宾语是 beverage的下位词语;在新版本的WordNet的语义分类体系中,Miller(1999) 引用 Resnik的这个研究成果来证明上下位语义关系存在的重要性,这

178

Page 182: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

同样是一个语言现象和语义分类体系的双向验证过程。2 从 CCD 看并列成分中心语的语义关系沿袭WordNet的分类体系,CCD的名词分为 25 个基本语义类79。在经过了词语切分和词性标注的《人民日报》1998年 1 月 1-10日语料基础上,作者手工标注了语料中出现的有标记的短语层面的并列结构80,从中抽取了 2101 个名词性并列结构,基于 CCD 对其中心语语义关系进行了定量考察。本文的例句均取自于此81。待试验的并列结构都是两项的,多项并列结构可看作是多个两项并列结构的叠加,和两项并列结构应该具有相同的语义约束。待试验的并列结构仅包括并列成分中心语是名词的并列结构,如“被[习惯势力和陈旧观念]所束缚”82,“全部是由[国家、集体]投资”。对名词性并列结构,各并列成分的最右端一个词被默认为是中心语;当并列成分是光杆词语时,其自身也就是中心语。考察两个并列成分中心语的语义关系,其计算机操作过程可概要地叙述为:1)提取两个并列成分的中心语,并列标记之前一个词是前并列成分的中心语,并列结构结尾处最后一个词是后并列成分的中心语;2)在 CCD名词语义知识库中寻找各中心语所属的语义类83;3)产生并列成分中心语语义类同现列表。考察结果如表1所示。

表 1 名词性并列结构并列成分中心语语义关系考察有共同祖先节点(属于同一语义类): 1639 78%

无共同祖先节点(不属于同一语义类): 462 22% 总计: 2101 100%表 1显示,78%的名词性并列结构其并列成分的中心语属于同一语义类,是“同类并列”,呈现出语义上的相似性(semantic similarity);而有 22%的名词性并列结构其并列成分的中心语不属于同一语义类,是“非同类并列”。这么大比例的“非同类并列”与我们的先验期待不相符合,可能存在两个原因:1)或是 CCD 25 个名词基本语义类的设定不合适,至少是从并列结构的角度来看不合适;2)或是并列结构本来就不是我们所想象的那样完全遵从“同类并列”的原则。前一种可能为我们提供了一个新的视角来审视 CCD的语义分类体系;后一种可能要求我们重新分析并列成分中心语的语义关系。2.1 并列成分中心语语义相似大多数名词性并列结构并列成分中心语呈现出语义相似的特性。CCD 是用标记树来表示语义关系的,我们就用“树”的术语来描述这些语义关系:同一初始语义类下并列的概念称为兄弟节点;同一初始语义类下的上下位概念,不论距离远近称为祖孙节点;同一初始语义类下的其79 这 25 个语义类是:1)动物(animal),2)人(person),3)植物(plant),4)人工物(artifact),5)自然物(natural object),6)身体(body),7)物质(substance),8)食物(food),9)属性(attribute),10)数量(quantity),11)关系(relation),12)通信(communication),13)时间(time),14)认知(cognition),15)情感(feeling),16)动机(motivation),17)自然现象(natural phenomenon),18)过程(process),19)行为(activity),20)事件(event),21)群体(group),22)处所位置(location),23)所有物(possession),24)形状(shape),25)状态(state)。80 这个标注了并列结构的语料从www.icl.pku.edu.cn 网址上可自由下载,供研究之用。81 为了节省篇幅,例句在字词上有所删减。82 行文中,用“[ ]”标示并列结构。83 当词语是多义词,有多个语义类归属时,由人工进行甄别选择正确的语义类。

179

Page 183: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

他概念,如果不属于同一同义词集合(synset)、不形成兄弟节点和祖孙节点,则称为远距离节点。根据并列成分中心语在语义分类树上的相互位置,语义相似又可分为 5种情况。1) 词形相同。如“竞争机制和激励机制”,这约占并列结构总数的 7%。2) 同一同义词集合,如“产品有[20 个大类、1000多个品种]”,这约占并列结构总数的 3%。3) 兄弟节点。如“促进整个[长江、黄河]流域生态环境的好转”,这约占并列结构总数的 22%。4) 祖孙节点。如“中国愿意加强同[联合国和其他国际组织]的协调”,这约占并列结构总数的 3%。5) 远距离节点。如“[专家、各界观众]也提出许多修改意见”,这约占并列结构总数的 43%。2.2 并列成分中心语语义相关语义相关(semantic association)是另一种重要的词语之间的语义联系。人脑思维中容易同时激活同一情境(situation)或同一框架(frame)下的不同概念,不同语义类并不能妨碍这种激活,情境或框架足可以成为激活因子(trigger)。例如,面对“商业事件”这一情境时,人们很容易联想到买主、卖主、商品、钱,以及买、卖的行为(Fillmore,1982)。又如,面对“医疗行为”这一情境时,人们很容易联想到医生、护士、医院、疾病、费用等等相关概念(董振东、董强,2000)。同一情境下的相关概念在一定的语境中就可形成并列。例如:(1) a 有利于提高[企业和资金]运作效率。

(企业[+社会团体]84,资金[+所有物],情境:商)b 从这里出发的[车辆和人群]如洪水般流向麦加。

(车辆[+人工物],人群[+人们],情境:道路交通)c 促进更多的[中文、中国]信息上因特网。

(中文[+通信],中国[+处所位置],情境:中国)d 环境教育的[师资、教材]都非常缺乏。

(师资[+人],教材[+人工物],情境:教育)e 造就出一批批自强不息、直面挑战的[企业和企业家]。

(企业[+社会团体],企业家[+人],情境:企业)这些不同语义类的词语因在同一个情境下共存而可形成并列,并列的词语通过不同的方式“指引了(index)”或是“唤起了(evoke)”相同的普遍情境。HowNet致力于反映概念之间和概念的属性之间的各种关系,同一情境下的不同概念之间存在着相关联的描述,并列成分中心语语义相关在HowNet的描述中也可得到部分验证。例如,对(1)a、d并列成分中心语,HowNet的描述是85:(2) a 企业:InstitutePlace|场所,*produce|制造,*sell|卖,commercial| 商 资金:$spend|花费,#money|货币,commercial| 商 d 师资:human|人,*teach| 教 ,education| 教育 ,mass|众

教材:readings|读物,*teach| 教 ,education| 教育

2.3 并列成分中心语语义相对有时并列成分中心语呈现出语义相对的特性。例如:(3) a 接收河西医院全部[人员和资产]。 (人员[+人们],资产[+所有物])

b 漫漫史河的[许多实事、众多人物]。 (实事[+事件],人物[+人们])c [社会心理、人们情感]变化是值得抒写的。(心理[+认知],情感[+情感])

84 行文中,用“[+ ]”表示名词所属的语义类。85 此处参考的是HowNet 2000版本。

180

Page 184: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

d 赢得了宝贵的[时间和空间]。 (时间[+时间],空间[+处所位置])e 典型本身的[真实事迹和先进思想], (事迹[+行为],思想[+认知])

(3)中并列的概念在某种意义上是对立的,表示两个互补的集合,这两个集合相并就形成一个对语言交际而言完整的集合,对这个完整的集合我们还无法用一个更为抽象的语词来指称。人们常说“人财两空”,“人”和“财”在汉语言人们的认知世界中是对立的和互补的,因此有了 a的并列。同样“人”和“事”、“心理”和“情感”、“时间”和“空间”也是对立互补的。e是“认知”类名词和“行为”类名词并列。哲学上强调理论和实践的统一,在人们的思维中(至少是在汉语言人们的思维中)同样注重“认知”和“行为”的辨正统一,“认知”和“行为”类名词在语言中经常形成并列结构。例如:

(4) a 会议的[收获和价值]其实应当体现在议透和解决了什么。(收获[+行为],价值[+认知])

b 提出了近 15 年内的基本[措施和政策]。 (措施[+行为],政策[+认知])

c 以自己的[聪明才智和实际行动],谱写青春之歌。 (聪明才智[+认知],行动[+行为])

2.4 并列成分中心语语义既不相似也不相关也不相对语言中存在少数的并列结构,其并列成分中心语的语义既不相似也不相关也不相对。例如:(5) a 草案确定了反恐怖活动战略计划的执行[机构和办法]。

b 领导干部受到[人民和法律]的监督。对此我们还无法进行有效的描述和解释。似乎是,只要两个语言成分符合句法约束就可形成并列,而不需要“额外”的语义约束。储泽祥等(2002)从“语用需要、经济原则”的角度描述两个名词的非常规联合,但没有涉及句法语义的解释。3 从并列成分中心语语义相似看 CCD 的名词语义分类体系把名词性并列结构并列成分中心语语义相似看作是一种客观存在的语言特性,那么并列结构为我们提供了一个很好的视角来审视 CCD的语义分类体系,这种审视对其他的语义分类体系也很具参考价值。3.1 “人们”、“社会团体”语义类名词和“人”语义类名词可形成并列——考虑移动并入CCD在“群体(group)”语义类下设有“人们(people)”一小类(记作[+人们]),表示“任何一群人(any group of human beings)”,而 25 个基本语义类中又设有“人(person)”一类。现代汉语中,[+人们]和[+人]名词经常形成并列,例如:(6) a 日益被[各层领导和社会公众]所认识。 (领导[+人],公众[+人们])

b 雅俗共赏,极受[专家和人民群众]喜爱。 (专家[+人],群众[+人们]) [+人们]、[+人]名词能自由形成并列,而可以不论是否是“群体”,即数的多少,这是由于汉语没有数的形态变化而造成的。b中并列结构若翻译成英语必得是“experts and common people”。“人们”、“人”这两个语义类在汉语中是相近的,应该合并在一起。事实上,董振东先生的HowNet、北京大学的《语义词典》(王惠等,2003)都是将“公众”、“群众”这样的词置于“人”语义类下。因此,在 CCD中可以将“人们”小类从“群体”类中移出并入“人”语义类。

CCD在“群体(group)”语义类下设有“社会团体(social_group)”一小类(记作[+社181

Page 185: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

会团体]),[+社会团体]名词经常和[+人]名词形成并列,例如:(7)a [求职者和用人单位]反映最为强烈的,(求职者[+人],单位[+社会团体])

b [旅客和航空公司]都受到损失, (旅客[+人],公司[+社会团体])[+人]名词和[+社会团体]名词都具有“施事”功能,很多动词对它们具有相同的选择限制(selectional restriction)。例如,“反映”的主体可以是“求职者”,也可以是“单位”,因此可形成 a的并列;“受到损失”的主体可以是“旅客”,也可以是“公司”,因此可形成 b 的并列。除了人所特有的一些生理动作[+社会团体]名词不能胜任,例如不能说“**单位吃”,“**公司跑”,[+社会团体]名词可以充当大多数动词的施动者,如“单位赠送锦旗”,“公司转让债权”,“航空公司请求延期”等等。虽然表面上[+社会团体]名词不具有生命,但它由具有生命的人所组成,并且由其中的代表法人来实施某种行为,因此句法功能上[+社会团体]名词和[+人]名词有很多相似之处86。《语义词典》将“社会团体”置于“人”语义类下作为一个次类87,这是比较合适的。由此,在 CCD中可以将“社会团体”小类从“群体”类中移出并入“人”语义类。同为“群体”语义类的[+人们]名词和[+社会团体]名词可形成并列。例如:(8) a 要求[各国政府和全人类]采取紧急行动, (政府[+社会团体],人类[+人们])

b [地方政府和人民群众]积极支持部队, (政府[+社会团体],群众[+人们])因此,从并列结构形成的角度考虑,“人们”、“社会团体”可适当并入“人”语义类。3.2 “社会团体”语义类名词和“行政区”语义类名词可形成并列——考虑移动靠近“群体”语义类下的“社会团体”名词和“处所位置”语义类下的“行政区(district)”名词(记作[+行政区])可以形成并列。[+社会团体]名词既可以指称共享某些社会关系的人们,也可以表示这些人们所在的处所位置,例如“银行”,在(9)a中表示“银行的领导者或人们”,而在(9)b中表示“处所位置”之义。反之,[+行政区]名词既可以表示占有一定空间的处所位置,又可以指称相关的社会团体,例如“北京”,在(10)a 中表示“处所位置”之义,而在(10)b中表示“北京的领导者或人们”88。表现在并列结构上,[+社会团体]名词和[+行政区]名词可以自由形成并列,如(11)中的例子。

(9) a 这 13家银行也作出了积极反应。 b 他走进了那家银行。(10)a 1921年 9月 26日生于北京。

b 北京按照国际奥委会的要求,如期将申办报告文本送交国际奥委会审阅。(11)[俄罗斯和北约]建立战略伙伴关系。(俄罗斯[+行政区],北约[+社会团体]) 由此可见,“社会团体”和“行政区”这两个语义类在汉语中是相近的,语义类设置

中应使两者靠近。[+社会团体]名词可以和[+人]名词形成并列,[+社会团体]名词也可以和[+行政区]名词

形成并列,但[+人]名词却很少能够和[+行政区]名词形成并列。可见,词语之间的并列关系是不可传递的。86 从WordNet 对“社会团体”的解释中,可以更清楚地看到“社会团体”和“人”的密切联系:“people sharing some social relation”,“社会团体 ”其实就是一群人。87《语义词典》将此语义类记作“团体(group)”。88 从《语义词典》的一例填写错误中我们也可以窥见“社会团体”和“行政区”两个语义类的密切联系:某同学将“俄罗斯”的语义类填写成“机构”(相当于 CCD中的“社会团体”),而将“俄国”的语义类填写成“处所”,可见人在判断这两个语义类时有时也是模糊不清的。

182

Page 186: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3.3 “抽象物”类语义类更易形成并列——分类宜粗“实体(entity)”类语义类形成并列结构时,其语义类相同要求更细,而“抽象物(abstraction)”类语义类形成并列结构时,其语义类相同要求略粗。事实上,同属于“抽象物”类的“属性”、“关系”、“通信”、“认知”、“群体”、“状态”6 个语义类之下的词语可以相当自由地彼此形成并列。例如:(12)a 要坚持不懈改善[生态环境和生产条件]。 (环境[+状态],条件[+属性])

b 可持续发展的[定义和内容]。 (定义[+通信],内容[+认知])c 被[习惯势力和陈旧观念]所束缚。 (势力[+属性],观念[+认知])d 有着[悠久的文明和丰富的文献传统]。 (文明[+群体],传统[+认知])e 一国两制事业的[可行性和辉煌前景]。 (可行性[+属性],前景[+状态])

人们对抽象事物的认识其实并没有那么清晰的分类意识。假如问一个人“环境”、“传统”、“可行性”的语义类分别是什么,他或许会回答“环境”的语义类是“认知”,“传统”的语义类是“通信”,“可行性”的语义类是“状态”。各家语义分类体系对抽象词语的归类也存在诸多的不一致性。《语义词典》将“环境”和“传统”笼统地归入“抽象事物”,将“可行性”归入“属性”。HowNet 将“环境”和“可行性”归入“属性”,将“传统”归入“规矩”(相当于 CCD中的“认知”类)。而对具体事物(实体)就是另一番光景了,没有人会认为“桌子”是“食品”,或者“狗”是“人工物”。表现在语言上,具体事物(实体)的语义类之间不能随意并列,偶尔并列也依赖于一定语境的支撑。现代汉语并列结构的形成启示我们,对路径长度相同的两对节点,“具体事物”类下的两个节点语义距离较大,而“抽象事物”类下的两个节点语义距离较小。由此可知,一方面在并列结构的自动识别过程中,对抽象名词的语义相似性要求可适当放宽,而对具体名词的语义相似性要求需适当加严;另一方面在语义类设置过程中,对抽象类名词的分类宜粗而不宜过细。4 从并列成分中心语语义相对看 CCD 的名词语义分类体系4.1 高度抽象的词语容易形成并列——宜从一个新的角度进行语义归类上文 2.3谈到,表示相对意义的词语经常形成并列。例如:(13) a [社会心理、人们情感]变化是值得抒写的。(心理[+认知],情感[+情感])

b 赢得了宝贵的[时间和空间]。 (时间[+时间],空间[+处所位置])需要注意的是,(13)中各并列成分多是概括的、抽象的词语,它们不指称具体的概念,一旦将其中一个抽象概念换作具体概念,并列就不能成立。这种抽象概念往往就是某个语义类的“标签”,其本身的意义和用法与语义类内部具体词语差别很大。例如“时间”的语义类是[+时间],但和具体的时间词“今天”、“明年”用法语义差别很大,可以说“今天学习”,但不能说“**时间学习”。“时间”能和别的语义类的词语形成并列,如“时间和精力”,“时间和空间”,但具体的时间词却只能跟时间词自己并列,不能跟别的语义类的词语形成并列,“**今天和精力”,“**明年和空间”这样的并列在语言中是不存在的。又例如“情感”的语义类是[+情感],但它和具体表示情感的词语(例如“温情”、“恐慌”)在用法语义上差别很大,“情感”和“温情”、“恐慌”在形成并列结构时鲜有共同点。像语义类标签的这些高度抽象的词语可看作是广义的属性(attribute),语义类之下的具体实例 (instances)可看作是属性值(attribute values),我们有VALUE(时间) = 今天|明年,VALUE(情感)=温情|恐慌。我们怀疑,类似语义类标签的这些高度抽象的词语,是否应该从一个新的角度进行语义归类。

183

Page 187: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

5 结语本文一方面基于 CCD的语义分类体系,考察了现代汉语名词性并列结构并列成分中心语的语义关系,包含有四种:语义相似、语义相关、语义相对、语义既不相似也不相关也不相对。语义相似是并列成分之间最主要的语义关系,但并不是所有的并列成分都呈现出语义相似的特性。另一方面,透过并列成分之间的语义关系其中主要是语义相似的关系,我们重新审视了 CCD的语义分类体系,对词语之间的语义关系进行了深入的思考,为语义类的设置提供了一些有价值的参照座标。本文对并列成分中心语的语义关系和 CCD的名词语义分类体系进行了双向考察和验证,这其实也就是形式和意义的相互验证。参考文献Agarwal, R. and Boggess, L. 1992. A simple but useful approach to conjunct identification. In Proceedings of

30th Annual Meeting of Association for Computational Linguistics.Fillmore, C. J. 1982. Frame Semantics. Linguistics in the Morning Calm. Seoul: Hanshin Publishing

Corporation.中译文,詹卫东译,框架语义学.《语言学论从》第 27 辑.Kurohashi, S. and Nagao, M. 1994. A syntactic analysis method of long Japanese sentences based on the

detection of conjunctive structures. Computational Linguistics, 20(4).Miller, A. 1999. Nouns in WordNet. In Fellbaum, C., (ed.), Wordnet: An Electronic Lexical Database.

Cambridge: MIT Press.Okumura, A. and Muraki, K. 1994. Symmetric pattern matching analysis for English coordinate structures. In

Proceedings of the 4th Conference on Applied Natural Language Processing.Resnik, P. 1993. Selection and Information: A Class-Based Approach to Lexical Relationships. Ph.D.

Dissertation, University of Pennsylvania.

储泽祥等. 2002.《汉语联合短语研究》.长沙:湖南大学出版社.董振东、董强. 2000. 知网. 见:http://www.keenage.com.孙宏林. 2001. 现代汉语非受限文本的实语块分析. 北京大学计算机系博士学位论文.王惠、詹卫东、俞士汶. 2003. 现代汉语语义词典规格说明书. 《汉语语言与计算学报》,13(2).吴竞存、梁伯枢. 1992.《现代汉语句法结构与分析》. 北京:语文出版社.于江生、俞士汶. 2001. 中文概念词典的结构. 《中文信息学报》第 4 期.周强. 1996. 汉语语料库的短语自动划分和标注研究. 北京大学计算机系博士学位论文.

184

Page 188: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

面向中文信息处理的现代汉语无标记并列结构歧义问题研究杨 泉         

语言学及应用语言学系 北京广播学院北京 中国 100024

E-mail: [email protected]冯志伟

国家语委语言文字应用研究所 北京 中国 100010

摘  要歧义问题是语言学中的一个难点,也是自然语言理解和机器翻译中难以解决的问题。无标记并列结构——n+n、v+v、a+a是几种例化后可能产生歧义的结构,本文在潜在歧义理论的基础上,重点分析每种结构中两个词的语法、语义、语用特性,对汉语中的这几种结构做了比较全面的研究,目的在于找到这些结构中产生歧义的原因和消解歧义的策略。希望本文能为自然语言计算机处理中歧义的消解提供一定的参考作用。Ambiguity Study of Unmarked Coordination in Contemporary Chinese For Chinese Information

Processing

Yang Quan Feng Zhiwei

Abstract

Ambiguity is the difficult problem in linguistic. It is one of the keys in nature language understanding and machine translation. v+v, n+n and a+a are some structures which may have ambiguity after instantiation. According to Potentional Ambiguity Theory, this thesis analyzes these phrases by integrating syntactic, semantic and pragmatical processing. It makes a comprehensive study of unmarked coordination in contemporary Chinese, aiming at finding out the reason why ambiguity exists and searching out some disambiguity rules. We hope it can help the disambguity of computer processing nature language.

1 引言歧义问题是语言学中的一个难点,也一直是自然语言理解和机器翻译中难以解决的问题。1960年巴尔-希列尔(Bar-Hillel)就曾说过歧义是自然语言处理中的主要绊脚石。事实上,虽然歧义在自然语言中普遍存在,真正影响到人们交流的情况却很少。这可能是

因为在交际过程中,人们总是可以根据一定的知识背景,文化常识,结合特定的上下文和某些语法、语义特点找出几个意义当中最可能的一个。人类这种“与生俱来”的本领恰恰是机器欠缺的,可是如果我们能将人类排除歧义的主要依据找到,通过一定的算法教会计算机,似乎就应该可以帮助计算机解决自然语言处理过程中的歧义问题。本文作者从这种思想出发,以 n+n、v+v和 a+a 这三种具有潜在歧义的无标记并列结构为

切入点,具体分析每种结构中两个词的语法关系、语义属性,再结合具体的语境提出可供计算机自动消解歧义的规则,希望能为自然语言计算机处理过程中的歧义消解提供一定的参考作用。

185

Page 189: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2 研究概况人们对歧义现象的关注早在两千三百年前就开始了,当计算机应用扩展到人类语言处理后,人们开始关注计算机自动消解歧义的问题。学者们主要是从消解词汇歧义和句法歧义两个方面着手进行研究。

词汇歧义是由于一词多类和一词多义产生的,句法歧义是由于结构成分之间可能产生多种层次或关系而产生的,本文的研究重点是机器对句法歧义的自动消解。人们最开始用ATN分析器去分析一个句子时,在遇到两条可选路径时,ATN分析器会随

机选择一个,如果这条路径成功了,它不会再回溯去测试另一条路径。1972年Woods, Kaplan, Nash-Webber制作了 LUNAR 系统,他们在ATN分析结果的结尾处加上一个语义检测器,当这个检测器发现分析在语义上有问题时,它会像发现语法错误一样回溯并尝试另一条路径,这个分析器主要采用选择限制89的方法。1979年 Boguraev以ATN 为基础的消歧系统包含了主动消歧策略和被动消歧策略。这个系统避免了盲目的非确定性,减少了回溯,保证了相同的错误不会重犯。1980年Marcus的 Parsifal分析器是不可回溯的,当产生句法结构歧义时它会检测并立即做出决定,这种选择将是最终的结果。Parsifal分析器主要是利用语义来引导分析。Ford, Bresnan, Kaplan(以下简称 FBK)1982年提出闭合理论,其中一个重要的理论原则是“终极期待论元”原则。FBK的理论被认为是一种脱离语境的句子的理论。Crain and Steedman 后来提出最小预设理论,认为可以用语言环境中的信息或人的知识库去消歧。

国内对汉语歧义的研究主要集中在歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数、意义优选和歧义度。语言学界研究歧义主要是为了找出人与人在交际过程中产生歧义的原因及全部类型;而计算语言学专家的任务则是在语言学专家研究成果的基础上,考察机器在处理自然语言的过程中所遇到的歧义,包括多义词义项选择,歧义字段切分,歧义格式分化等,最终的目的是寻求某些可操作的自动消解歧义的方法。对句法结构的消歧处理,国内计算语言学界的学者大都是从微观入手,研究个别歧义结构的语法、语义现象,本文研究的最终目的是为了了解和把握汉语歧义结构的概况,针对每种歧义结构提出消歧策略。

3 理论基础歧义格式的概念,赵元任先生(1959)在《国语入门》中就涉及过,他说“是……的”是一个非常普通的产生直接成分歧义的格式。朱德熙先生(1980)从理论上概括了语言中歧义格式的类型,明确提出“歧义格式”这个概念。他认为,句子的歧义“是代表了这些句子的抽象的‘句式’所固有的”,因此,他主张用“歧义格式”来概括语言中的同形歧义格式。冯志伟在研究汉语术语歧义问题时,提出“潜在歧义理论”(Potentional Ambiguity,简称

PA 论)90。PA 论认为,中文词组型科技术语中,当一个 PT-结构(词组类型结构)对应于一个以上的 SF-结构(句法功能结构)时,就有可能对这个 PT-结构做出一种以上不同的解释,这时,就说这个 PT-结构是潜在歧义结构,之所以说是“潜在歧义”,是因为在 PT-结构实例化(instantiation)的过程中,这种歧义有可能继续保持,成为真歧义结构,也有可能得到消除,成为歧义消解结构,因而这种歧义是潜在的而不是现实的,它只是具有了歧义的可能性,89选择限制是一种利用语义消解歧义的方法。它规定可共现语义是合法组合,而剖析过程中产生的不合法表达式要被排除掉。James Allen Natural Language Understanding P296。90 冯志伟,中文科技的结构描述和潜在歧义,《中文信息学报》,1989年,第 2 期。

186

Page 190: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

但是还不一定具有歧义的现实性。冯志伟后来在《论歧义结构的潜在性》一文中,将这种为分析汉语科技术语而提出的潜在

歧义论用来解释日常语言中的歧义现象。证明了尽管在自然语言中存在大量的同形歧义结构,但是,它们的 PT-结构都是潜在歧义结构。自然语言有其歧义性(ambiguousness)的一面,也有其非歧义性(non-ambiguousness)的一面,自然语言中这种存在潜在歧义有时又能够自行消解的现象正是歧义性和非歧义性对立统一规律的体现。这说明潜在歧义结构本身就包含了消解歧义的因素,仔细研究这些潜在歧义结构本身,就不难发现可供计算机自动消解歧义的办法。詹卫东等(1999)对汉语短语结构的定界歧义做了全面考察,并对汉语短语结构定界歧义

的不同类型进行了初步统计,从模式歧义和实例歧义对应关系的角度将歧义格式分为真歧义格式、准歧义格式、伪歧义格式三种。其实从这个角度对歧义格式进行分类是在冯志伟有关潜在歧义格式的基础上进一步深入分析得到的结果。其中的“真歧义格式”就是“潜在歧义格式”。由于这种格式对计算机处理真实文本而言,确实都存在歧义,因此,我们认同歧义格式这种说法。我们这里所说的“真歧义格式”(或称真歧义结构)是指具有潜在歧义的抽象句法格式,

其结构项包括常项和变项,常项是具体词语,变项是词类或句法成分类91。歧义格式中歧义的产生是由于词与词之间在搭配时可能产生的不同结构层次、语法关系或语义关系引起的,机器在识别这些结构时,我们假定组成它们的词的词性和意义已被计算机正确选择。实例化后的真歧义格式我们又分为两种类型:(一)类型真歧义短语。特点是对人而言歧义消失。举例来说,“vp+np1+的+np2”这个结构有两种组合方式:

A、 [vp [np1 的 np2 ] ] B、 [ [vp  np1 的] np2 ] [削 [苹果 的 皮]] [ [削 苹果 的] 刀]

这两个对人来说轻而易举就可以理解的语言片断,对机器来说切分结构关系首先就成了一个难题。像“削苹果的皮”、“削苹果的刀”这种对机器有歧义,对人没有歧义的短语我们叫做类型真歧义短语。(二)类例真歧义短语。特点是人理解起来也有歧义,还是上面这个格式如果实例化为“喜欢李方的老师”,可以理解为某人喜欢李方的老师,(按A的组合方式),也可以理解为老师喜欢李方(按 B的组合方式)。这种对人和机器而言都有歧义的短语我们叫做类例真歧义短语。4 消歧方法和流程一、消歧方法从ATN分析器等国内外专家学者提出的句法消歧方法和理论来看,单纯运用句法、语义

或语用都不能解决问题,因此我们尽量将这三个方面整合运用,制定出以下对语料处理的方法:(一)将冯志伟在开发日汉机器翻译系统时所采用的语义分类体系转化为语义树形图;(二)对一个具有潜在歧义的结构首先判断其为类型真歧义结构或类例真歧义;(三)对于类型真歧义结构:1、根据语义树和短语的焦点92为语料进行分类,为每个短语找到其在树形图中的位置;2、根据不同的语法关系为同一语义分支下面的语料进行再分类,采用描写的方法,给出短语中每个词的语义类别;91 参见尤庆学《现代汉语歧义结构研究》,武汉大学博士学位论文,2002年 5月,P5。92参见冯志伟《自然语言计算机处理》,上海外语教育出版社,1996年,P187-P188。

187

Page 191: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3、对每个语义分支里面的语料处理完毕后,为了减少空间复杂度,根据每个短语中的非焦动词进行归纳整理,尽量找出其中的语言规律,提出消歧策略;(四)对于类例真歧义结构主要根据上下文分布特点提出消歧策略。二、消歧流程下面是我们处理每种潜在歧义结构的具体过程:(一)收集约 100万字的语料,包括教材类、小说类、传记类、杂志类及电视新闻类;(二)利用 CCRL93检索出其中待处理短语;(三)经过人工处理,找出其中含有某个潜在歧义结构的合格语料;(四)根据上面的消歧方法提出具体消解歧义的策略; (五)计算每种语法关系的使用强度94,并据此在整体上安排算法。5 对于 n+n结构的消歧策略本文对于 n+n结构的类型真歧义短语分为四种类型:定中型、并列型、主谓型、复指型。

不同结构关系的类型真歧义短语的使用强度为:定中 并列 主谓 复指 定中/并列 定中/复指 总计

出现次数 1099 79 5 9 70 4 1266

使用强度 86.088% 6.240% 0.395% 0.711% 5.229% 0.316%

我们首先根据两个名词语义属性的选择限制关系,归纳每个语义分支下面的规则。再把所有的规则集中起来建立一个原始规则库。最后再根据这个原始规则库,结合每种结构关系的使用强度,提出消歧策略。

6 对于 v+v结构的消歧我们对于 v+v结构的类型真歧义短语分为五种类型:述宾型、状中型、联合型、动补型、主谓型。需要说明的是:

1、有些词可能同时具有动词、名词两种词性,比如:“迷信活动”、“摔跤运动”中的“活动”、“运动”就是这样,在这两个词组中,我们认为它们受前面一个动词修饰,是名词,把整个结构作为定中关系的名词短语来处理。

2、如果一个 v+v结构中的两个动词在意义上有先后关系,传统语言学一般认为这两个动词是连动关系,例如:前来献花、展翅飞翔、伸手拦住等。可是这种结构中的 v1一般也同时表示 v2 动作的朝向、原因、方式等,对 v2起到一定的修饰作用,因此,常常会产生连动——状中歧义,经过比较我们发现两种不同语法关系的划分并没有在意义上造成真正的歧义,为了操作上的方便,我们把这类连动关系基本归并到状中或并列关系里面。

93 CCRL(Chinese Corpus Retriever for Language teaching and research)是北京语言文化大学开发的面向语言教学研究的汉语语料库检索工具。94 使用强度是某种类型的“v+v”结构出现次数与“v+v”结构在语料库中出现全部次数的比例。

188

Page 192: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

为v+v提出的消歧规则是在语义再分类基础上进行的,动词的个性非常鲜明,尤其是在与其它动词组合时,几乎每个动词都有一套独特的搭配方式,如果不逐一描写难免出现疏漏。而动词之间的搭配与其语义属性有着非常密切的关系,因此我们在处理语料时,对每个v+v短语中的动词语义特性都进行了详细的描写,根据各个实例化v+v结构中两个动词语法、语义关系的不同为v+v结构的消歧提出一定的规则。大部分v+v结构都可以根据语义属性选择限制的方法消解歧义,也有少部分情况例外。经过对语料的处理我们发现,动词与动词组合时,每个动词的配价情况对v+v短语的结构关系也有很大影响,因此,我们还借助动词的配价来编写消歧策略。

另外,在为v+v结构进行分类时,前焦型结构中的动补短语大部分是由趋向动词做补语,由于趋向动词数量有限,机器比较容易识别,我们把它做为分类依据。由此我们得出这样的结论,述宾短语和一部分动补短语(除趋向动词做补语的情况)根据v1进行再分类;而主谓短语、状中短语、并列短语、趋向动词做补语的动补短语根据v2进行再分类。统计各种语法关系的使用强度成下表:

状中 动补 述宾 并列 主谓 状中/并列 总计出现次数 799 382 252 104 32 3 1572

使用强度 50.83% 24.30% 16.03% 6.62% 2.04% 0.19%

总结全部v+v结构的语料,先判断v2的有状中、并列、主谓、动补(趋向动词做补语);先判断v1的有动补(非趋向动词做补语),述宾两种结构。由于趋向动词做补语的动补关系比较容易进行判断,我们由此开始:1.动补关系短语主要集中在补语是[+趋向]类动词语义分支下面,处理起来比较容易,因此我们首先判断一个v+v短语是不是动补关系;2.并列关系的短语有很大共性,其中的两个动词大都属于同一个语义类,二者的意义相等或相反,并且基本都具有相同的价,也比较容易判断。因此,如果根据上面的规则不能判定一个v+v短语是动补关系,我们再来判断它是否为并列关系;3.主谓关系的短语数量很有限,也相对比较集中地分布在几个语义分支下面,所以成为我们第三个判断目标;4.状中关系使用强度最大,而且状中关系的v+v短语在各语义分支下面的分布也最广,对每个状中关系的短语都要采取描写语义属性的办法。我们把上面总结出来的所有状中关系的v+v短语的属性描述建立一个数据库,当遇到上面的规则都不能帮助判断一个v+v的关系时,就到这个库里面去匹配v2和v1的语义属性,如果匹配成功就可以判定二者的关系;5.先判断v2的v+v结构都处理完后,如果还不能确定两个动词的关系,我们再从v1入手,动补关系的v+v结构只有很少的一部分有待判定;6.先判断v1的v+v结构还有一种是述宾关系,它与状中关系短语一样也要建立一个属性描述库,不同的是要从v1入手对其属性进行匹配;7.最后还需要根据一定的上下文信息判定“状中/并列”类例真歧义结构的语法关系。7 对于 a+a结构的消歧

本文对于 a+a结构的类型真歧义短语分为三种类型:并列型、状中型、动补型。统计各种语法关系的使用强度成下表:

并 列 状 中 动 补 总 计出 现 次 数 299 69 2 370

189

Page 193: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

使 用 强 度 80.81% 18.65% 0.54%

在我们收集到的语料中,a+a结构形成的这三种关系在形式上其实都有一定的标记。首先来看形成并列关系的a+a结构。这样的结构中的两个形容词一般属于相同的语义类别,

在感情色彩上相近或相反。比如:丑怪、优差、难易、干净整洁、年轻漂亮,其中的两个词不但属于相同的语义类别还具有相同或相反的感情色彩。詹卫东(1999)在他的文章中曾说过,汉语中的形容词形成联合式形容词短语时,两项组

成成员之间的近义和反义关系都应该作广义来理解,反义关系实际上是指在人们的认知观念中,不能同时用来描述同一个对象的具有相反感情色彩的一对属性,而近义关系与此相反,是指可以集中在同一个对象身上具有相同感情色彩的一对属性。95我们认为这种近义和反义关系除了上面的意义外,还应该包括一种广义的感情色彩。即反义关系是指在人们的认知观念中,不能同时用来描述同一个对象的具有相反感情色彩的一对属性,而近义关系与此相反,是指可以集中在同一个对象身上的具有相同或相近感情色彩的一对属性。在a+a结构中由于音节数的不同,组成一个词组的两个形容词的关系还略有差别。如果两

个形容词都是单音节形容词,它们可以是近义关系,也可以是反义关系。比如:细亮、丑怪、老旧、鲜活、红绿、优差、难易等。如果两个都是双音节形容词,它们通常都是近义关系。例如:枯燥乏味、甜蜜动听、尖锐丑陋、破旧肮脏等。有时表示中性感情色彩的形容词也可以和表褒义或贬义的形容词同时出现,如:瘦削苍白、苍白秀气等。在我们收集的语料中,当两个形容词有相同的语义属性时,它们一般形成并列关系,只有

一种情况例外,那就是当两个词都表颜色时,它们可能形成状中关系,我们需要把这种情况拿出来单独处理。在表示颜色的短语中,当两个形容词中的第一个不表示颜色时,一般形成偏正关系,比如:浅黄,淡蓝等。而当两个形容词都表示颜色时,情况就比较复杂,可能产生并列——偏正歧义。比如语料

中出现的“黄绿”出现在:“黄绿相间”中是并列关系,可是如果出现在:“黄绿色”里就是偏正关系。当两个形容词都有[+颜色]属性时,形成并列关系的只是少数情况,我们只要根据语料出现的上下文把这种情况排除,剩下的就是偏正关系了。具体看来,如果把两种颜色掺杂在一起时它们肯定形成并列关系,这时其前后出现的动词一般有[+相关]语义属性。下文的规则就是根据这个条件编写的。

两个[+颜色]类形容词也可能只形成并列关系,这时它们之间一般是反义关系。詹卫东(1999)曾说过,汉语中单音节形容词形成无标记联合式形容词短语时,通常两项组成成分是反义关系,这个规律在我们的[+颜色]语料的a+a并列关系的短语中基本上是适用的。这里所说的反义关系也是广义的,是人们在长期使用过程中的一种约定俗成,也是历史发展的结果,比如“红”和“白”本没有反义关系,可是人们习惯上把葬礼和婚礼这两件人生中极端悲喜的事情称为“白事”和“红事”,简称“红白事”,“红”和“白”也就由此具有了反义关系。因此“红白”两个词在一起时通常表示并列关系。当然这种反义关系也包括狭义反义,如“红、绿”,“黑、白”等。而如果两个表示颜色的词没有这种反义关系,而其上下文又没有[+相关]类动词,这两

个词一般就形成偏正关系。这时它们一般表示一种颜色,比如,紫青、紫红或蓝白等。除了上述语义属性相同的两个形容词在一起可以形成并列关系外,[+外形]与[+颜色]、

[+外形]与[+表象]、[+表象]与[+颜色]的形容词放在一起也可以形成并列关系。比如:黄瘦、瘦黑、瘦削苍白、矮小灵活、苍白秀气、苍白憔悴等。95 参见詹卫东《面向中文信息处理的现代汉语短语结构规则研究》,(2000)P.61

190

Page 194: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

第二,在我们收集到的语料中,除了颜色词以外,形成状中关系的 a+a短语的第一个形容词在语义上一般表示程度,第二个形容词不表示程度。比如:难好听、空前强大、不够好看、大乱等。能出现在这个位置上的形容词数目有限,在 a+a结构中做状语。詹卫东(1999)经过统计96得出这样一个结果,大多数形容词是不能作状语来修饰形容词短语的,能够修饰的只有 26个,这类形容词与我们所说的程度形容词情况类似,我们把这 26 个可以做状语的形容词与我们收集到的表示程度的形容词归为一类,与其它颜色形容词、性质形容词等并列,称为程度形容词。这类形容词是一个封闭的类,我们把它们一一列举出来。由于语料数量有限,目前的程度形容词可能还收集的不够全面,这个遗憾只能随着语料的扩大慢慢弥补了。这部分形容词有97: (一)大,难,小, 痴,假,虚假,不够,彻底,实在,成熟,一样,完全,不同,普遍,空

前,巨大,显著,严重,异常(二)凑巧,根本,过分,基本,绝对,勉强,明显,难得,难免,偶然,全面,确实,容

易,适当,适度,适量,适时,突然,一般,准时,早,快颜色词形成状中结构时,情况很简单,一般第一个词具有[-颜色]属性,第二词具有[+

颜色]属性。消歧时,我们会单独为[+颜色]类a+a结构编写一条规则。第三,形成动补关系的a+a短语与偏正关系的短语正好相反,第二个形容词在语义上一般

是表示程度的。例如:繁华异常、聪明过分。当然不是所有的[+程度]类形容词都能出现在补语的位置上,但可以做补语的形容词一般都在[+程度]类形容词中。至此,我们对a+a结构在真实文本中,内部可能形成的结构关系有了一个大致的了解。下

面我们要在全局上为a+a结构进行消歧。1、并列关系的使用强度为80.81%,因此,我们首先根据上面的分析总结规则,判定这种结构关系。 2、状中结构的使用强度为 18.65%,处在第二位,是下一步需要判别的目标,可以根据第一个形容词是否为[+程度]类形容词进行判断;3、剩下的只有动补关系的 a+a短语,使用强度只有 0.54%,可以根据第二个形容词是否为[+程度]类形容词进行判断。a+a结构在真实文本中的主要结构关系是状中和并列,具有相同结构关系的 a+a结构在句

中的功能也可能大不相同,例如并列关系的[+德才]类形容词在句中可能做定语、中心语、宾语、补语、谓语、状语。因此,我们认为单纯区别出这两种关系对于机器剖析句子的结构或翻译句义,意义都不大。

a+a结构在句子中的功能与单独一个形容词在句子中的功能十分相似,我们收集的语料中可以做主语、宾语、定语、状语、中心语、补语或谓语,可以说能够担任一个句子的任何成分。判别一个a+a结构的功能对于机器识别句子的结构关系和翻译文本将会非常重要,因此在对a+a结构消歧的过程中,我们把功能也做为对每个类例真歧短语的判断标准。为每个类例真歧短语的不同功能分类,寻找每种功能的上下文分布条件。有意思的是,a+a短语的三种关系类型都是向心的,而在n+n、v+v两种结构中都存在离心关系。这也为我们给每个a+a结构进行功能标注提供了方便。在这里需要说明的一点是我们所说的a+a结构在句中的成分是它在上一级语法单位中所做

的成分,而不是在整个句子中的成分。96参见詹卫东《面向中文信息处理的现代汉语短语结构规则研究》,(2000)P.6997第一部分是在我们收集语料中出现的,第二部分是詹卫东调查发现而我们的语料中没出现的。

191

Page 195: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

a+a结构在句中的功能与它们的分布有着密切的关系,而且其分布的上下文环境又有比较明显的形式化标志,可以以此做为判别条件,下面来看对a+a结构功能的判定。一、当一个a+a结构或两个并列的a+a结构出现在句首时,如果后面是一个动词性短语,

这个a+a结构的功能就是主语。二、如果a+a结构做一个语言片断的中心语,它的前面通常是“的”、“地”、代词、数量

词或程度副词,后面通常是副词或动词。需要注意的是有时程度副词出现在a+a结构前面时,后面还会有一个“的”字,比如:“最鲜辣的”,这可能会与做定语的a+a结构发生冲突。因为a+a结构做定语时,后面有时也会有一个“的”字,二者不同之处就在于做中心语时,a+a结构的前面有一个程度副词,而做定语时没有。因此判断时,我们先把形容词与副词组成短语,例如,“最鲜辣的”切分为[[最鲜辣]的]。其中,“最”与“鲜辣”形成状中关系,“鲜辣”是中心语。就是说只要a+a结构前面出现了程度副词,无论后面是否有“的”都是中心语。三、如果名词短语、指人名词、人称代词或[名词短语+非程度副词]出现在 a+a结构的

前面,这个 a+a结构通常做谓语。a+a结构出现在名词性短语的后面时,做句子的谓语。有时在名词性短语和 a+a短语之间会出现一个副词,如果这个副词不是表示程度的,那么 a+a短语的功能不变仍然是谓语。

四、如果一个 a+a结构的前面是介词或动词,后面是标点符号或连词,这个 a+a结构通常做宾语。五、如果一个 a+a结构的前面是[动词+某个词语],后面是标点符号或助词,这个 a+a短

语通常是做补语。一个a+a结构如果前面是动词性成分,后面是助词或连词,这个结构可以做宾语,也可以

做补语,主要区别在于这个动词性结构是词还是词组,如果是一个单独的动词,a+a结构通常是做宾语;如果是词组,a+a结构通常做补语。

六、当a+a结构做一个语言片断的定语时,后面通常是一个“的”字(注意前面说过这种情况下,a+a结构前面一定不是程度副词)或名词短语。七、一个 a+a结构后面如果出现“地”或动词短语时,这个 a+a结构通常做状语。上文总结的这些形式化标志从分布的角度来讲,有些在 a+a结构的左侧,有些在右侧,还

有的左右都有。因为计算机在识别一个句子时,一般按照从左到右的顺序,因此,我们在对a+a结构功能消歧的总体排序上也要根据这个原则。形式标志在 a+a结构左侧的规则排在前,然后是形式标志左右都有的,最后是那些形式标志在右侧的规则。8 余论至此,我们已制定出 n+n、v+v和 a+a三种无标记并列结构的消歧策略,并且在此基础上,为每种结构建立起了消歧规则库。不过这些规则是在现有语料的基础上提出来的,难免会挂一漏万,随着语料库的不断扩大我们还会进一步完善它们。本文的研究方法及提出的消歧策略是 n+n、v+v和 a+a各结构中组成成分特有的性质决定

的,它可能还适合其它含有名词、动词、形容词的潜在歧义结构,这需要我们在分析其它语料的基础上进一步研究。汉语中含有潜在歧义的格式还有很多,作者收集到的就有六十几种,下一步的计划就是逐一分析其它格式在语法、语义上的特点,提出消歧策略,希望通过我们的研究可以加强汉语歧义结构的深入研究和认识。

192

Page 196: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

参考文献:[1]朱德熙,1980,汉语句法中的歧义现象,现代汉语语法研究,商务印书馆。[2]吕叔湘,1984年(5),歧义类例,中国语文。[3]冯志伟,1989年(2),中文科技术语的结构描述和潜在歧义,中文信息学报。[4]冯志伟,1995年(4),论歧义结构的潜在性,中文信息学报。[5]冯志伟,1996,自然语言的计算机处理,上海外语教育出版社。[6]詹卫东,常宝宝,俞士汶,1999年(3),汉语短语结构定界歧义类型分析及分布统计,中文信息学报。[7]詹卫东,2000,面向中文信息处理的现代汉语短语结构规则研究,清华大学出版社出版。[8]尤庆学,2002,现代汉语歧义结构研究,武汉大学博士学位论文。[9]Hirst, G. 1986.Semantic Interpretation and the Resolution of Ambiguity. Cambridge University Press, Cambridge. [10]James Allen, 1995.Natural Language Understanding, The Benjamin/ Cummings Publishing Company, Inc. [11]Donald Hindle, Mats Rooth,1993. Structural Ambiguity and Lexical Relations.

193

Page 197: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

基于 WordNet 建立中文同义词词林的上下位关系何婷婷 1

[email protected]

姬东鸿 2

[email protected]

李晶 1

lee_king8 @hotmail .com,

徐晓琦 1

[email protected]

(华中师范大学 计算机科学系中国,湖北 ,武汉,430079) 1

(新加坡 国家科技局信息科学研究院,新加坡119613)2

摘要

本文探讨利用现有的中文词汇资源,借助Wordnet的组织方式,在Wordnet的上下位语义关系的导航下,由计算机自动充实、完善《同义词词林》的上下位关系,建立中文概念网络。1 引言计算机的自然语言理解和处理,需要依靠大量的语言知识,包括词汇、语义、语

法等等,而语义研究领域的进展和突破对全局的进展和突破有重要的意义。语义包括词汇义、句义、篇章义等,其中最基本的是词汇义的研究,建立机读的义类词典、构造领域本体结构等研究工作得到了世界各国科学家的普遍重视,产生了许多研究成果。构造信息处理用的词汇语义词典,很重要的一个问题是如何组织整体结构,如何

表达语义知识,才能最有利于计算机的理解和处理。Wordnet 作为一部在线的英文电子词典凭借其在信息的组织方式的创新,得到了世界各国语言信息处理领域越来越普遍的重视和承认,实践证明了其组织方式的科学性和实用性。

中文信息处理研究领域同样迫切需要大量的词汇语义资源。目前比较有代表性的工作包括知网,台湾中研院、北大计算语言学研究所、东北大学等建立的中文-

Wordnet 等等,以上资源基本上都是依靠人工来建设的。本文探讨利用现有的中文词汇资源,借助Wordnet 的组织方式,在 Wordnet 的

上下位语义关系的导航下,充实、完善《同义词词林》的上下位关系,建立中文概念网络。

我们所用的中文词汇资源主要包括《同义词词林》(简称Cilin)、Hownet。主要

194

Page 198: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

工作包括以 Cilin 中的一组同义词为一个概念节点,寻找每个节点在 wordnet 中的对应位置,借助wordnet 的上下位关系,建立概念网络;在寻找 CILIN 与 wordnet 的对应关系时,我们利用 Hownet 作为双语资源。 2 相关语义资源简介2.1《同义词词林》

Cilin 在确定词的语义分类时,以词义为主,兼顾词类,共有 12个大类,94个中类,1428个小类,小类之下再按同义词集合设立标题词,共含 3925个标题词,所谓标题词,是一个同义词集合中的一个或两个词,这些词相对于该集合中的其他词来说,具有更高的熟悉度。

Cilin 以词的义项为收词单位,多义词按其词义被分别收录到不同的同义词集合中。Cilin 中共有 50154个不同的词条,被记录了 76461次。

Cilin 在同义词的聚类、同义词集合的分类、辞典的结构构造等方面都非常成功,但由于其当初并非为信息处理专门设计的,在词汇的语义关系描述方面比较薄弱,主要只描述了同义关系,对于其他语义关系,如名词的上下位关系的描述就不够充分。另外,随着语言的发展,一些新词不断涌现,要想更全面地描述词汇和词汇关系,

Cilin 中还需要加入新的词汇。以上两点不足,限制了 Cilin 在信息处理领域的应用范围,我们认为,针对 Cilin

的这两个问题进行完善、扩充后,可以使 Cilin 在信息处理领域得到更好、更广泛的应用。更进一步来说,Cilin 是一部广为使用的成功的中文词典,以其为基础,构造为信

息处理用的中文概念词典,具有较高的可信度、较容易被接纳。2.2 Wordnet

WordNet 以同义词集合(SynSet)作为基本单位,同过描述每个语义类的属性及义类之间的同义关系、反义关系、上位关系、下位关系、部分关系以及完全关系、继承关系等,使所有 SynSet 形成一个网状结构。WordNet 的组织方式是提供语义关

195

Page 199: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

系的指针,而不是罗列特征。WordNet跟同义词词林相似之处在于:它们都是以同义词集合(synset)作为基

本单位进行组织的。但WordNet 不仅仅是用同义词集合的方式罗列概念,而且同义词集合之间通过一定数量的关系类型相关联。学界普遍承认,Wordnet 以 Synset 作为概念节点,建立的概念之间的关系是合

理的,全面的,因此,作为建立中文概念词典的基础是可行的。2.3 Hownet

HowNet 以概念为描述对象,通过概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统,是语言信息处理的一个重要资源。它不仅描述了中文概念节点的关系,而且是一个很好的英汉双语资源。

HowNet 中概念通过词语和词语的定义来描述,它依靠“义原”这种“知识表示语言”来定义概念。例如,

NO. = 030010  W C = 拐杖 G C = N   WE = walking stick  G E = N   DEF = tool| 用具,# walk| 走, # disable| 残疾

在我们的实验中,我们不仅使用 hownet 作为双语词典,而且充分利用了hownet 中对概念的定义。3 算法基本步骤

为了自动建立Cilin 中同义词集合之间的上下位关系,我们采取的基本步骤如下:[步骤一] 扩展Cilin 中的每个 Synset

利用 hownet 的知识,扩展Cilin 中的每个 Synset(记作 Cilin_Synset) 使其包括该 Synset 中相关词语在 Hownet 中的英文翻译和Hownet 定义。在这个过程中,可能有些Cilin 中的词找不到相应的翻译和定义,则忽略。扩展后的结构(记作Cilin_Synset_def)如下:

ID(Cilin_Synset, { x| x 是 Cilin_Synset任意一个词语的英文翻译及Hownet

196

Page 200: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

定义})其中,ID 是 Cilin 中的 Synset 固有的编码,是唯一的。 [步骤二] 映射Cilin_Synset 到 Wordnet 的节点集合我们利用 Cilin_Synset_def,将 Cilin_Synset 映射到 Wordnet 的某个节点集合

上。事实上,Cilin_Synset_def 中有多个英文词汇,相应地,每个Cilin_synset 将会对应到多个wordnet节点上,由此构成一个Cilin_Synset 所对应的 Wordnet节点集合。但是,在这个过程中,由于采用的对应准则是英文单词相同,由于多义词的原因,

就可能出现wordnet 中的一个节点对应多个Cilin_Synset 的情况,这时就要选取一个最恰当的 Cilin_Synset 与其对应,也就是语义排歧的问题,这是步骤二的关键。我们采用的是利用 Hownet 中的概念的义元描述,计算语义距离的方法,来计算这几个Cilin_Synset 中的每一个与 wordnet节点的相似度。

[步骤三] 建立Cilin_Synset 的上下位关系在步骤二已求得 Cilin_Synset 所对应的 Wordnet节点集,计算该节点集中每个

节点在 wordnet 中的平均深度,把它作为 Cilin_Synset 的深度。我们假定:对于 Cilin 中同一类下的若干Cilin_Synset,深度最浅的节点是其他节

点的上位节点。 由此,可以建立Cilin 中同义词集合的上下位关系。图 1描述了我们解决本问题的总体设计方案。

197

Page 201: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

图 1 总体设计方案表 1列举了实验过程中的一组具体例子,从中可以看出具体的推理过程。

表 1 推导过程举例Cilin 中 词组 id

同义词词组 对应的 wordnet区域 通过计算得出:类 Bi1602 所包含的 Synset 中 id 号为 Bi160201(虾 ||虾子 || ) 的 类 为Bh0101 中 其 它Synset 的上位。

Bi160201 虾||虾子|| 01904230 (shrimp||)09856404(runt||shrimp||peewee||half-pint||)

Bi160202 对虾||明虾|| 01904969(prawn||)07321575(prawn||shrimp||)

Bi160204 青虾||长臂虾||龙虾|

01900074(lobster||)07320141(lobster||)

4 结论目前,我们已对《同义词词林》中名词进行了实验,通过人工检测发现,在确定

Cilin 的 Synset 所对应的 wordnet节点集合的工作上,达到了 80%左右的正确率,在确定《同义词词林》中某一类节点之间的上下位关系的工作上,取得了 60%左右的正确率。 当然这种评测的准确性带有较高的主观性。现在我们所完成的工作只是计划中的一小部分,我们的最终目标是在《同义词词

林》的基础上,通过建立上下位关系、补充新词等工作,建立一个为信息处理服务的中文语义资源。计划中的的同义词资源的结构如下:

以一组同义词集合为一个概念节点,每个节点为一个三元组,其结构为:

198

映射 Cilin synset到 Wordnet 节点集合构建

Cilin –synset-def

CilinHownet

Wordnet

计算 Cilin-synset的深度值

构造 Cilin-synset上下位结构

Page 202: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

ID, Tag, {Synset, 上位概念 ID,…, 下位概念 ID…}

其中,ID号是概念节点的唯一编码,Tag 是该节点的名称,通常取同义词集合中熟悉度最大的一个词,大括号内是该节点的语义定义,通过同义词集合以及该节点和其他节点的关系来描述。我们认为,这种结构最大的优点是描述简洁,便于计算机处理。参考文献[1] 黄昌宁, 李涓子.2000.词义排歧的一种语言模型.北京:语言文字应用,2000,(8)[2] 董振东.1998.语义关系的表达和知识系统的建造.北京:语言文字应用,1993,(3)[3] 陈群秀.1998.一个在线义类网络.北京:语言文字应用,1998,(2)[4] HSIN-HSI CHEN, CHI-CHING LIN, AND WEN-CHENG LIN. National Taiwan University. Building a Chinese-English Wordnet for Translingual Applications. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002.

[5] 刘群、李素建, 基于《知网》的词汇语义相似度计算, 第三届汉语词汇语义研讨会(台北,2002)[6] 张晶、姚建民、赵铁军、李生.2001.基于wordnet和hownet建设双语语义词典,高技术通讯(2001.12)[7] VOSSEN, P. 1998. EuroWordnet: Building a multilingual database with Wordnets for European languages. ELRA Newsl. 3, 1, 7-10.[8] HSIN-HSI CHEN, CHI-CHING LIN, AND WEN-CHENG LIN. 2000.Construction of a Chinese-English Wordnet and its application to CLIR. In Proceedings of the Fifth International Workshop on Information Retrieval with Asian Languages (Hong Kong, Sept.-Oct. 2000). ACM Press, New York, NY, 189-196.

199

Page 203: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

基于hownet的无导词义消歧陈浩

华中师范大学计算机科学系武汉 中国 [email protected]

何婷婷华中师范大学计算机科学系武汉 中国 430079

[email protected]

姬东鸿新加坡信息通讯研究所新加坡 119613

[email protected] 

摘要无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法以 hownet的词库为词典,采用二阶 context构造上下文向量,使用 k-means 算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在 13 个汉语高频多义词的测试中取得了平均准确率 81.33%的较好的效果。An Unsupervised Approach To Word Sense Disambiguation Based On Hownet

ChenHaoDepartment of Computer ScienceCentral China Normal University 430079Wuhan, China

[email protected]

He Ting-TingDepartment of Computer ScienceCentral China Normal University 430079Wuhan, China

[email protected]

Ji Dong-HongInstitute for Infocomm ResearchHeng Mui Keng Terrace, 21Singapore 119613

[email protected] 

AbstractAn unsupervised WSD(word sense disambiguation) can avoid big labor cost and it is possible to adjust to deal with large-scale ,so WSD has extensive applications in many fields. This paper presents an unsupervised approach which is used as dictionary based on hownet , constructing context vector by means of second-order context, clustering by k-means and disambiguates by calculating the similarity. Our experiments are based on the extraction of term and average accuracy is 81.33% for 13 ambiguous words in open test by this method.

1. 引言:多义词的词义消歧是为了解决自然语言中同形异义词语在不同上下文环境中的义项标注问题[1]. 多义词普遍存在于各种语言中,尽管数量不多,但出现频率高,分布非常广泛。词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣,因此词义消歧已经成为许多应用性问题关注的焦点之一。―――――――――――-本项目受中国国家语言文字应用委员会“十五”应用项目(ZDI105-43B),湖北省自然科学基金(2001ABB012)资助。陈浩,男,1980年生,硕士研究生,主要研究领域为自然语言处理。E-mail:[email protected] 何婷婷,女,1964年生,博士,教授,主要研究领域包括自然语言处理,数据库。姬东鸿,男,博士,研究员,主要研究领域包括自然语言处理中的机器学习技术,基于语料库的自然语言处

200

Page 204: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

理。在消歧方法和词典的选择上前人做了很多工作。文献[2]中采用基于向量空间模型的词义消歧无导学习方法,该方法通过词矩阵的概念和计算上下文中词语在刻画该词语时的重要性,即计算词语权重,实现了词语在向量空间中的精确定位.但在借用信息检索向量空间模型中 tf.idf文档权重表示方法时,虽然较为合理地形式化表示词语向量,但同时失去了许多上下文词语语序所提供的语言信息.文献[3]中采用机器可读词典《同义词词林》(以下简称为《词林》)来获取语义类向量,但由于《词林》在 3方面存在问题会在词义消歧中产生很大误差: (1) 分类的颗粒度仍然偏大,这使得义类向量的确定不够准确; (2) 由 6万多词构成的《词林》面临严重的词量不足问题; (3) 《词林》是在层次树的语义框架体系上建立起来的,可以体现很好的上下位关系,但不能体现词语间的语义相关性,特别是领域相关性.而针对多义词消歧问题时,多义词和义项词语的上下文语义相关性在其中起到了举足轻重的作用。本文提出了一种基于 hownet的无导词义排歧方法。与已有的工作相比,本文提出的方法

其主要特点体现在以下几个方面:(1)hownet中同义词集的建立使义项的表示更加具体和准确。(2)基于二阶 context的上下文向量表示法可以更大量的获取上下文中多义词的信息而且不会产生很多的噪声。(3)在特征词的选取上,我们在抽取术语的基础上,计算了出现次数(m)这个参数,这

样可以更好的选取出对排歧有用的术语。本文安排如下:2.1节简要介绍 hownet中与词义消歧相关的知识,2.2节介绍二阶

context的构造及 k-means聚类算法,2.3节介绍相似度的计算的方法;第 3节详细描述实验过程,在实验中,对相同的多义词我们把自己的结果与前人进行了对比,取得了较好的效果;第 4节对本文提出的方法的优、缺点进行全面的总结和讨论。2.基于 hownet 的无导学习方法本文提出的方法充分利用了 hownet 词库资源,我们首先用二阶 context 的方法把待消歧词语的上下文向量化,然后用通过比较相似度的方法来确定待消歧词语在 hownet中的知识词典中的具体的DEF(概念定义)。本方法的实现由机器自动完成,避免了词义标注以及训练语料库的麻烦。2.1 hownet 与词义消歧

hownet[4](中文名知网)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在我们的词义消歧中,我们着重关注的是 hownet的知识字典.2.1.1知识字典的记录模式

知识字典是知网系统的基础文件。在这个文件中每一个词语的概念以及描述形成一个记录。每一种语言的每一个记录都主要包含 4 项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们的排列如下:

W_X= 词语E _X= 词语例子G_X= 词语词性DEF= 概念定义

201

Page 205: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2.1.2 多义词的义项在 hownet的知识词典中,很多个不同词(W_C)对应一个相同的义项(DEF),相当于每一个

义项有一个同义词集合。表 1 举例说明了在 hownet中多义词的同义词数量,表 2列出了多义词“健康”在 hownet中的所有同义词。

表 1 hownet中多义词的同义词数量多义词 DEF 同义词

数总数

健康 aValue|属性值,kind|类型,ordinary|普,desired|良 147aValue|属性值,physique|体格,strong|强,desired|良 38

attribute|属性,physique|体格,&AnimalHuman|动物 8

造就 result|结果,#succeed|成功,desired|良 29 53

cultivate|培养 24

表 2 “健康”的同义词多义词 DEF 同义词/同义词数

健康

aValue|属性值,kind|类型,ordinary|普,desired|良

正常/1

aValue|属性值,physique体格,strong|强,desired|良

膀大腰圆/膀阔腰圆/棒/粗壮/敦实/风华正茂/好/鹤发童颜/健/健美/健旺/健壮/矫健/结实/结实粗壮/精壮/康/康健/康泰/年富力强/皮实/强健/强有力/强壮/强壮有力/身体结实/伟岸/雄健/血气方刚/硬棒/硬朗/正当年/壮/壮实/茁壮/矍铄/奘/38

attribute|属性,physique|体格,&AnimalHuman|动物

健康状况/人/身板/身子骨儿/体格/体魄/体质/血脉/8

由于同义词集合中的词语也可能有歧义,我们采用如下方法解决:对于同义词集合中的每个词:搜集上下文,用 k-means方法聚类(见 2.2节)。这样,每个词都有若干类,对于每个词,分别找出一个类,这些类之间的平均距离最小,这样,我们就可以认为这些类所包含的上下文应该是我们所需要的上下文。然后,把这些上下文综合起来,就是这个同义词集的上下文。2.2 基于二阶 context 的 k-means 聚类算法 K-means聚类算法[5]是由MacQueen提出,该算法及其推广是数据挖掘及知识发现(knowledge discovery data mining,KDDM)领域中的一种重要方法,它具有算法简单且收敛速度快的特点。

K-means聚类首先遇到的问题是如何将文本内容表示成在数学上可分析处理的形式。在这里我们使用二阶 context 的方法来把待消歧词的上下文向量化,具体方法如下:(1) 对抽取出来的带有多义词的每个上下文我们按文献[6]进行术语的抽取.(2) 在文献[6]的基础上我们加入了出现次数(m)这个参数,在抽取的术语中,选择

出现次数多的词语作为特征词,要求是每一个上下文至少抽取出一个特征词。如果一个上下文有多个特征词,则把包含这些 feature的二阶 context的向量相加。

202

Page 206: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

以“健康”这个词为例,在 445 个文本文件中我们选出出现次数不小于 8的术语作为特征词,构造的部分二阶 context如下(11×11):表 3中的数据表示 2 个特征词在 445 个文本中出现的次数。 表 3

部分二阶 context(1)特征词/m

上下文|特征词

持续/11

快速/11

发展/13

老年人/9

生活方式/9

精神/8

心理/10

教育/16

身体/8

教师/9

事业/10

C1持续 \ 7 7 1 1 1 2 1 1 0 5C1快速 7 \ 7 0 2 1 2 0 1 0 5C1 发展 7 7 \ 1 3 1 0 2 3 2 6C2老年人 1 0 1 \ 5 3 2 1 4 5 0C2生活方式 1 2 3 5 \ 1 1 2 3 3 0C3 精神 1 1 1 3 1 \ 2 0 3 2 1C3心理 2 2 0 2 1 2 \ 4 2 4 2C3教育 0 0 2 1 2 0 4 \ 0 6 5C4身体 1 1 3 4 3 3 2 0 \ 3 4C4教师 0 0 2 5 3 2 4 6 3 \ 6C5事业 5 5 6 0 0 1 2 5 4 6 \

表 4 部分二阶 context(2)

特征词上下文 持续 快速 发展 老年人 生活方

式精神 心理 教育 身体 教师 事业

C1 14 14 14 2 6 3 4 3 5 2 16C2 2 2 4 5 5 4 3 3 7 8 0C3 3 3 3 6 4 2 6 4 5 12 8C4 1 1 5 9 6 5 6 6 3 3 10C5 5 5 6 0 0 1 2 5 4 6 0

然后用 k-means 算法进行聚类[7]:k-means 算法采用迭代更新的方法,每一次迭代过程都是向目标函数值减小的方向进行,最终的聚类结果使目标函数值取得最小值达到最优的效果。在本节中“健康”的 5 个上下文,我们令 k=3, 即把它们聚为 3 类,结果如下:(C1),(C2,C4,C5),(C3)。2.3 相似度的计算方法上下文之间的相似度计算可以形式化为计算自然语言查询向量(query)和答案文档

(document)之间的相似度,通过 cosine距离计算来完成,见式(1)

(1)

在利用这个公式计算过程中,利用了向量空间模型在知识表示上的巨大优势,在该模203

Page 207: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

型中,上下文的内容被形式化为多维空间中的一个点,以向量的形式给出。也正是因为把文档以向量的形式定义到实数域空间中,才使得模式识别和其他领域中各种成熟的算法和计算方法得以采用,极大的提高了自然语言文档的可计算性和可操作性。

3.实验及其结果3.1 以hownet为词典的实验本算法大致步骤如下:

第一步:在一个大的语料库中找出M 个含待消歧词语 W的句子第二步:对选出的这 M 个句子进行聚类,聚成 k 类(k-means方法)第三步:在 hownet中找出W的 n 个义项(w1,w2,…wn),对每个义项 wi找出同义词集合,对集合中的每个词语找 L 个上下文,构造二阶上下文.某个义

项的同义词集合构造的二阶上下文用来代表这个义项。第四步:对聚成 k 类中每一类分别计算和 n 个义项的相似度,相似度最小的就是这

一类所对应的义项。

实验中需要注意的几点说明:(1) 实验所需的训练数据来自国家语委的现代汉语语料库;(2) 多义词的上下文提取以句为单位,没有特征词的上下文被剔除掉;(3) 知网采用董振东先生的 2000版。(4) 由于是无导学习方法,所以不存在开放测试和封闭测试的区别 表 5 实验数据及结果(hownet)待消歧 词语

Hownet中的义项 测试用例数 正确的例数 Accuracy(%)

义项 举例 同义词数 Average(%)

材料 S1 唱歌的~ 3 55 42 76.36

81.33

S2 收集~ 61S3 建筑~ 7

改 S1 ~名字 33 80 65 81.25S2 ~毛病 44

表现S1 ~欲 20

86 65 75.58S2 ~出色 47S3 政治是经济

的集中~0

S4 ~出来 6

健康 S1 ~长寿 8 44 35 79.54S2 ~有力 38

S3 ~体质 1保守 S1 ~秘密 27 70 58 82.86

204

Page 208: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

S2 思想~ 51打气 S1 给学生~ 24 48 42 87.50

S2 给车~ 13挂彩 S1 光荣~ 21 53 43 81.13

S2 大厅~ 22

代表 S1 党~ 272 58 84.72S2 ~全体同学 37

S3 ~团 24漏洞 S1 财政~ 29 59 48 81.35

S2 房屋~ 2保管 S1 粮食~ 2 63 52 82.53

S2 ~得好 42放手 S1 ~一搏 133 54 44 81.48

S2 ~干 17造就 S1 很有~ 29 82 65 79.26

S2 ~人才 24沽 S1 ~名钓誉 30 74 62 83.78

S2 ~酒 65

3.2 实验结论我们选用文献[2]和文献[3]的数据结果作为参照. 文献[2]中多义词的无导消歧实验结果数据见表 6(摘自文献[2]第 1086页).文献[2]的多义词义项来源于《现代汉语词典》1996年版;文献[3]中多义词的无导消歧实验结果数据见表 7(摘自文献[3]第 76页).文献[3]的多义词义项来源于《词林》

表 6 文献[2]的实验结果多义词 义项数 准确率材料 4 72.83改 3 78.71表现 3 90.39发表 2 89.11健康 2 75.07

表 7 文献[3]的实验结果 多义词 歧义类型 正确率(%) 材料 Dk17/ba06/al03 81.7 改 ih02/hg18/hj66 70.6 表现 Jd06/di20/hj59 68.9 发表 Hc11/hi14/jd03 73.4 健康 ed43/eb37 70.1

注:‘发表’在 hownet 词库中的几个义项非常接近,在我们的实验中没有选择作为词义205

Page 209: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

区分的多义词。通过与文献[2]的实验结果比较发现,在部分词的词义消歧上取得了较好的效果,整体的

准确率较高。通过与文献[3]的实验结果比较,本文提出的方法在准确率和实现方式上有较大的改进.

4.结论和讨论认知语言学家认为,人在进行词语的语义类划分的过程中,上下文的相似性起到了至关重要的作用.由此提出了一个假设:词语间上下文的相似性决定了它们语义的相似性[8]. 本文也同样基于这一假设的扩展,即本文中所定义的义项词语与多义词某一义项之间的语义相似性决定义项词语上下文与多义词在同一义项上的上下文的相似性.实验证明,基于以上假设,采用本文提出的思想和方法是可行的,并且是有正确性保证的.但一

些问题仍然存在,需要进一步解决:[1]特征词的选取。选取的特征词要能最大可能地给待消歧词提供信息,同时不能包含太多的噪音。这是聚类的准备工作,是聚类效果好坏的一个重要因素。[2]聚类的准确度。由于 K-means聚类算法本身存在着初始聚类中心选取较敏感,往往得不到全局最优解等缺点,使我们地聚类准确度受到影响。[3] 扩大测试对象的范围.多义词消歧方法的系统评价是困难的,这作为一个研究问题已经引起了关注.本文提出的方法其通用性和应用价值需要进一步在大规模测试集和其他语言中进行检验.

References:[1] 鲁松,白硕,黄雄,张健 基于向量空间模型的有导词义消歧 计算机研究与发展 Vol.38,No.6June 2001 662-667(LuSong, BaiShuo, HuangXiong,andZhangJian Supervised Word Sense Disambiguation Based On Vector Space Model Journal Of Computer Research & Development Vol.38,No.6June 2001 662-667 )[2] 鲁松, 白硕,黄雄 基于向量空间模型中义项词语的无导词义消歧 软件学报Vol.13, No.6 1082-1089(LU Song, BAI Shuo, HUANG Xiong An Unsuptervised Approach to Word Sense Disambiguation Based on Sense-Words in Vector Space Model Journal of Software Vol.13, No.6 1082-1089)[3] Li, Juan-zi. The research on Chinese word sense disambiguation [Ph.D. Thesis]. Beijing: Tsinghua University, 1999 (in Chinese).[4] 董振东,董强(2000),“知网”,http://keenage.com (Dong Zheng-Dong,DongQiang(2000),”hownet” http://keenage.com)[5] 行小帅,潘进,焦李成 基于免疫规划的K-means聚类算法 计算机学报 2003 vol.26 No.5 605-610(Xing Xiao-Shuai, PanJin,Jiao Li-Cheng ANovel K-means Clustering Based on the Immune Programming Algorithm Chinese Journal Of Computers 2003 vol.26 No.5 605-610)[6] Patrick Pantel & Dekang Lin. 2001. A Statistical Corpus-Based Term Extractor. Canadian Conference.on.AI2001.p.36-46[7] 李飞,薛彬,黄亚楼.初始中心优化的 K-Means聚类算法.计算机科学,2002,29(7):94~96(LiFei, XueBing, HuangYaLou A Novel K-means Clustering Based On Initial Central Superior Computer Science 2002,29(7):94~96)[8]Miller, G.A., Charles, W. Contextual Correlates of Semantic Similarity. Language and Cognitive Processes, 1991,6(1):1~28.

206

Page 210: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

蘇軾詩典故用語研究台灣元智大學‧羅鳳珠

[email protected]

摘要:詩詞韻文與語體文不一樣,因為講究平仄、押韻、字句數的限制,成為一種特殊的語言形式,而典

故又是這種特殊語言形式之中的另一種特殊用語結構。詩詞在有限的字句裡,要兼顧各種格律條件的限制,又要尋求意象的豐富與意境的優美,修辭技巧

便比其他文體更講究,典故是其中一種修辭技巧,從盛唐的杜甫到晚唐各家詩人的詩作都曾使用典故。張戒《歲寒堂詩話》卷上曰:「詩以用事為博,始於顏光祿,而極於杜子美。」延續到宋代,宋代詩人典故應用的技巧更加成熟多變,範圍也更廣。

所謂典故,一般辭書的解釋是:「詩文等作品中引用的古代故事和有來歷出處的詞語」,分為「語典」、「事典」及「語事混合典」三種。語典指變化前人詞語,但沿用前人詩意的寫法;事典指引用古代故事或某人生平事蹟以豐富詩意的寫法;語事典混合使用是指融合前人用過的典故之用語及同一個典故故事的用法。不同的詩人引用相同典故時,或直接使用前人使用過的詞語與詞義,所以詞義相同,用詞也相同或相似;或因詩句中所側重的詞義不同,致使用詞或相同或不同。也有典故出處不同,詩句中所取的詞義相同或相近,用詞不同。

蘇軾在文集裡二次提到用典的觀念,其一在〈題柳子厚詩二首之二〉:「詩須要有為而作,用事當以故為新,以俗為雅。好奇務新,乃詩之病。」(《蘇軾文集》卷六十七);其二在〈書贈徐信〉:「大抵作詩當日鍛月鍊,非欲誇奇鬥異,要當淘汰出合用事。」(《蘇軾佚文彙編》卷五)。後人對於蘇軾詩用典技巧也有很中肯的評價,宋無名氏《漫叟詩話》云。「東坡最善用事,既顯而易讀,又切當」(《苕溪漁隱叢話前後集》四;胡仔《苕溪漁隱叢話》曰:「東坡作詩,用事親切」(《苕溪漁隱叢話前後集》一○),清代丁儀於《詩學淵源》序曰:「子瞻思才雄放,格律亦較為嚴密。七言歌行及五古,極似昌黎,用典使事,已入化境,惟略嫌著力耳。」(《詩學淵源》卷八)大抵都持肯定的態度。

蘇軾留下的詩作有二千八百五十六首,以體裁而言,使用典故的詩以律詩及古詩最多,以題材而言,使用典故最多的是敘事詩。以用典的方式言,或如一般使用典故的方法;或整首詩多處用典,但只用同一個典故變化出不同的詞語;或整首詩句句用典。引用典故出處方面,除了傳統的語典、事典、語事混合典之外,蘇軾還將世傳小語引為典故,真可謂善於用典者。

本論文旨在研究蘇軾使用典故時的詞語結構與詞義取向,並進而作為剖析蘇軾詩風格之項目以及對後代之影響。關鍵字:典故、用事、蘇軾詩、語典、事典、語事混合典

壹、前言詩,延續到唐代興起近體詩,無論是形式或內容,都已有過光芒萬丈的輝煌成果。任何文體發展到

極致,作品的數量及參與創作的詩人達到高峰,形式與內容都已成熟,所以,在修辭上追求精進變化,成為詩人展現詩才與學力的方式。詩從唐代跨入宋代,除了「唐詩重抒情,宋詩重說理」等概括性的內容題材區隔之外,宋代詩人在修辭技巧方面著力更多。

207

Page 211: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

詩詞韻文與語體文不一樣,因為講究平仄、押韻、字句數的限制,成為一種特殊的語言形式,而典故又是這種特殊語言形式之中的另一種特殊用語結構。從盛唐的杜甫到中晚唐各家詩人的詩作都曾使用典故,張戒《歲寒堂詩話》卷上曰:「詩以用事為博,始於顏光祿(顏延年),而極於杜子美(杜甫)。」延續到宋出西崑體,宋代詩人典故應用的技巧更加成熟,引用與應用的範圍更廣,構詞與取義更多變化。蘇軾是繼歐陽修之後的宋代文壇領袖,留下二千八百五十六首詩,詩的質與量都超越歐陽修,堪稱是一位才學兼具的文人,在其詩作之中,以絕妙的典故應用技巧豐富了詩的內涵與意境,使得他的詩作兼具形式與內容之美,在唐詩的光芒之下另闢蹊徑,再現光芒。

所謂典故,《漢語大詞典》的解釋是:「詩文等作品中引用的古代故事和有來歷出處的詞語」。劉勰在《文心雕龍》的〈事類〉篇第一段便明言:「事類者,蓋文章之外,據事以類義,援古以證今者也。」〔註一〕王師更生教授於篇前〈解題〉注曰:「事類又叫事義,就是典故,也就是今人所謂之『材料』,所謂『據事以類義,援古以證今』,這是充實作品,修飾文辭的一法。」(同〔註一〕,頁167)湖北辭書出版社編纂《全唐詩典故辭典》、《全宋詞典故辭典》、《全元散曲典故辭典》三套《典詮叢書》的主編范寧先生於叢書〈序〉言曰:「典故就是詩文中引用古代故事和前人用過的詞語,有來歷和出處的。一般分為事典和語典。事典裡面包含一個故事。……至於語典比較簡單,……這種『融化詩句』也是語典的一種。」〔註二〕范寧先生序言所指的「語典」、「事典」,是以典故的出處來歷所做的分類,不是詩人用典的方法。詩人在典故應用上,不只是純用「語典」或「事典」,還常將語、事混合使用,筆者稱之為「語事混合典」,故而可知詩人應用典故的方法,可以分為「語典」、「事典」、「語事混合典」三種。

「語典」指變化前人詞語,但沿用前人詩意的寫法;「事典」指引用古代故事或某人生平事蹟以豐富詩意的寫法;「語事混合典」是指融合前人用過的典故之用語及同一個典故故事的用法。不同的詩人引用相同典故時,「語典」因是直接引用前人詞語與詩意,所以不同詩人使用「語典」的差異較少,「事典」及「語事混合典」的差異比較大。詩人在使用「事典」及「語事混合典」時,或直接使用前人使用過的詞語與詞義,所以詞義相同,用詞也相同或相似;或是引用同一個「事典」,因取義(所側重的詞義)不同,致使用詞或相同或不同。或是詩人在詩文中所要表達的詞義相同或相近,但引用的「事典」不同,只是所取的詞義相同或相近,所以用詞也會不同。

蘇軾在文集裡二次提到用典的觀念,其一在〈題柳子厚詩二首之二〉:「詩須要有為而作,用事當以故為新,以俗為雅。好奇務新,乃詩之病。」(《蘇軾文集》卷六十七,頁 2109);其二在〈書贈徐信〉:「大抵作詩當日鍛月鍊,非欲誇奇鬥異,要當淘汰出合用事。」(《蘇軾文集‧蘇軾佚文彙編》,卷五,頁 2561)。後人對於蘇軾詩用典技巧也有很中肯的評價,宋無名氏《漫叟詩話》云:「東坡最善用事,既顯而易讀,又切當。」(《苕溪漁隱叢話前後集》四);胡仔《苕溪漁隱叢話》曰:「東坡作詩,用事親切」(《苕溪漁隱叢話前後集》一○),清代丁儀於《詩學淵源》序曰:「子瞻思才雄放,格律亦較為嚴密。七言歌行及五古,極似昌黎,用典使事,已入化境,惟略嫌著力耳。」(《詩學淵源》卷八)大抵都持肯定的態度。

《漫叟詩話》說蘇軾用典「顯而易讀」,但也有人認為蘇軾用典艱深難懂。陸游為施元之、顧禧所著《註東坡先生詩》寫序,曰:「古詩唐虞賡歌,夏述禹戒作歌。商周之詩,皆以列於經,故有訓釋。漢以後詩,見於蕭統《文選》者,及高帝、項羽、韋孟、楊惲、梁鴻、趙壹之流歌詩見於史者,亦皆有註。唐詩人最盛,名家者以百數,惟杜詩註者數家,然概不為識者所取。近世有蜀人任淵,嘗註宋子京、黃魯直、陳無己三家詩,頗稱詳贍。若東坡先生之詩,則援據閎博,指趣深遠,淵獨不敢為之說。某頃與范公至能會於蜀,因相與論東坡詩。慨然謂予:『足下當作一書,發明東坡之意,以遺學者。』某謝不能。他日,又言之。因舉二三事以質之曰:『「五畝漸成終老計,九重新掃舊巢痕」、「遙知叔孫子,已致魯諸生。」當若為解?』至能曰:『東坡竄黃州,自度不復收用,故曰「新掃舊巢痕。」建中初,復召元祐諸人,故曰「已致魯諸生。」恐不過如此耳。』某曰:『此某之所以不敢承命也。昔祖宗以三館養士,儲將相材。及官制行,罷三館。而東坡蓋嘗直史館,然自謫為散官,削去史館之職久矣,至是史館亦廢,故云「新掃舊巢痕。」其用字之嚴如此。而「鳳巢西隔九重門」,則又李義山詩也。建中初,韓、曾二相得政,盡收用元祐人,其不召者,亦補大藩,惟東坡兄弟,猶領宮祠。此句蓋寓所謂不能致者二人,意深語緩,尤未易窺測。至如「車中有布乎」,指當時用事者,則猶近而易見。「白首沉下吏,

208

Page 212: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

綠衣有公言」,乃以侍妾朝雲嘗歎黃師是仕不進,故此句之意,戲言其上僭。則非得於故老,殆不可知。必皆能如此,然後無憾。』至能亦太息曰:『如此誠難矣!』後二十五六年,某告老,居山陰澤中。吳興施宿武子,出其先人司諫公所注數十大編,屬某作序。司諫公以絕識博學名天下,且用工深,歷歲久,又助之以顧君景繁之該洽,則於東坡之意,蓋幾可以無憾矣。某雖不能如至能所托,而得序斯文,豈非幸哉!嘉泰二年正月五日,山陰老民陸某序。」(《老學庵筆記》,卷二)清代馮應榴撰《蘇文忠詩合註》也有「甚矣,公詩之不易讀也。」的感嘆。〔註三〕本研究在前人註解的基礎上,嘗試列舉蘇軾用典的方法作為蘇軾典故研究的第一步,爾後希望能藉助資訊工具更精細的分析統計蘇軾詩中的典故用語,並思考以資訊系統之誇資料庫功能建立詩詞典故數位資料庫的方法,為詩詞典故的註解與研究建立可行的方法。

蘇軾留下的詩作有二千八百五十六首,以體裁而言,使用典故的詩以律詩及古詩最多;以題材而言,使用典故最多的是敘事詩;以用典的方式言,或如一般使用典故的方法,或整首詩多處用典,但只用同一個典故變化出不同的詞語,或整首詩句句用典。引用典故出處方面,除了傳統的「語典」、「事典」、「語事混合典」之外,蘇軾還將世傳民俗諺語引為典故,真可謂是善於用典者。貳、研究方法

典故的使用通常以「句子」或「詞彙」為單位,因此在做典故研究時需先做「詩句」的分割及「詩語」的詞彙切分,切分的方法不在本文討論範圍,此不贅述。蘇軾留下的詩作有二千八百五十六首,約二十七萬五千字(含詩題、詩序),共有 31,462句,切分的詞彙超過十萬條,其中引用典故的詩句及詞彙近二千筆。

本研究對於蘇軾詩使用典故的定義包含使用「語典」、「事典」、「語事混合典」,「語典」部分,如果所使用的詞彙是前代很多詩人用過,蘇軾只使用該詞彙原有之詞義,與前人詩作無涉者不列為典故,例如〈除夜病中贈段屯田〉:「欲起強持酒,故交雲雨散」句,唐代劉禹錫〈踏歌詞〉:「月落烏啼雲雨散,遊童陌上拾花鈿。」杜甫〈渝州候嚴六侍御不到先下峽〉:「不知雲雨散,虛費短長吟。」杜牧〈傷友人悼吹簫妓〉:「豔質已隨雲雨散,鳳樓空鎖月明天。」等詩人都用過,這些詞語大多是二字或三字詞,詩人們使用相同的字詞構成詩語,所包含的詞義只是該詞彙原有的詞義,很難斷定是引用前人詞語,所以不列為典故。但是所引用的詞語,除了用字與前人相同,若所包含的詞義大過該詞語的原有詞義,而包含了前人使用該詞語的作品之其他含義,該詞語即視為「語典」,例如杜甫〈詠懷古蹟五首〉之一末二句:「庾信平生最蕭瑟,暮年詩賦動江關」引庾信〈哀江南賦序〉:「將軍一去,大樹飄零。壯士不還,寒風蕭瑟。」寫庾信平生之蕭瑟。〈詠懷古蹟五首〉之二前二句:「搖落深知宋玉悲,風流儒雅亦吾師」。引宋玉〈九辨〉:「悲哉,秋之為氣也,蕭瑟兮草木搖落而變衰。」寫宋玉平生之搖落,而其中「蕭瑟」一詞同時出現在庾信及宋玉的文中,杜甫以「蕭瑟」作為二首詩及二人遭遇相似之連結,蓋庾信因侯景之亂,回到江陵時,曾經居住在宋玉的故宅。杜甫因安史之亂,也曾東飄西蕩,深感於庾信、宋玉生平「蕭瑟」之心境與「搖落」之處境,引用宋玉與庾信的原文作為典故,引用的不只是詞語,還包含原文全段的含義以及庾信、宋玉生平遭遇之事跡,並將二人文中共有的「蕭瑟」詞,做為前後二首詩的連結點,串起二首詩的結構以及庾信漂泊時曾住宋玉故宅的關係,可謂是使用語事混合典的極致,這一類的詞語即列為「語典」。

本研究以《蘇軾詩集》之前人註解為基礎,先將蘇軾詩做詞彙切分,以詞彙為單位標誌典故,如典故涵蓋於一句或二句以上之詩句中,則以典故涵蓋範圍之詩句作為典故標誌之單位,再將初步整理之典故資料庫依典故出處與典故用法分類,以進行本研究。參:蘇軾詩典故的出處

蘇軾詩使用典故,其出處大抵可以分為「以典籍內容為典」、「以個人單篇文章內容為典」、「以俗諺為典」、「以『人+事』為典」、「以己之作為典」五類,分述如下:一、 以典籍內容為典

直接引自某一典籍,引用方式,或引述典籍內容而成為「語典」,或引用典籍所記載的事件

209

Page 213: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

而為「事典」,或二者混用而為「語事混合典」。引述典籍為典故佔蘇軾典故出處的最多數,依《蘇軾詩集》各家註解為基礎,初步歸納蘇軾詩中所引用的典籍包含經、史、子、集四部都有,史部多,其次為子部、集部、經部。個別典籍引用頻率最多之前二十五種典籍,依序是《晉書》、《漢書》、《後漢書》、《史記》、《莊子》、《春秋左傳》、《南史》、《昭明文選》、《新唐書》、《三國志》、《傳燈錄》、《楞嚴經》、《舊唐書》、《維摩經》、《世說新語》、《神仙傳》、《法華經》、《詩經》、《太平廣記》、《禮記》、《列子》、《金剛經》、《西京雜記》、《周禮》、《楚辭》。從這一份統計,除了可以了解蘇軾的讀書方向,還可以從中剖析蘇軾詩之內容、思想取向。《耆舊續聞》有一段記載,記載蘇軾謫居黃州手抄《漢書》而讓來訪的朱司農久候的軼事:「朱司農……偶一日謁至,典謁已通名,而東坡移時不出。欲留,則伺候頗倦;欲去,則業已達姓名。如是者久之,東坡始出,愧謝久候之意,且云:『適了些日課,失於探知。』坐定,他語畢,公請曰:『適來先生所謂日課者何?』對云:『抄《漢書》。』公曰:『以先生天才,開卷一覽,可終身不忘,何用手抄邪?』東坡曰:『不然,某讀《漢書》,至此凡三經手抄矣。初則一段事,抄三字為題;次則兩字;今則一字。』公離席復請曰:『不知先生所抄之書,肯幸教否?』東坡乃命老兵就書几上取一冊至。公視之,皆不解其義。東坡云:『足下試舉題一字。』公如其言,東坡應聲,輒誦數百言,無一字差缺。凡數挑皆然。公降嘆良久曰:『先生真謫仙才也!』」(引自《蘇東坡軼事彙編》)文中未明寫蘇軾手抄的是《漢書》或《後漢書》,但證諸蘇軾詩中用典的頻率可知這一段記載必然不假。

二、 以個人單篇文章內容為典蘇軾除了直接引用典籍,還直接引用個人詩文集之單篇文章,引用方式與引用典籍類似,依

《蘇軾詩集》各家註解為基礎,初步歸納蘇軾詩中所引用各家單篇文章,引用多寡依序是杜甫、白居易、韓愈、李白、劉禹錫、歐陽修。從這一份資料也可以看出蘇軾詩受各家詩人影響的情形。

三、 以俗諺為典蘇軾偶亦引用民俗、諺語、世傳小語為典故,例如:

(一) 以民俗為典故:〈常潤道中,有懷錢塘,寄述古五首:其二〉:「去年柳絮飛時節,記得金籠放雪衣。」(《蘇軾詩集》,頁 554)這首詩是蘇軾通判杭州期間,到常州、潤州賑災途中所寫,雪衣指鴿子,蘇軾於句尾〈自註〉曰:「杭人以放鴿為太守壽」。

(二) 以諺語為典故:〈聞子由瘦〉:「從來此腹負將軍」(《蘇軾詩集》,頁 2258)蘇軾於句尾〈自註〉曰:「俗諺云:大將軍食飽捫腹而嘆曰:『我不負汝。』左右曰:『將軍固不負此腹,此腹負將軍,未嘗出少智慮也。』」

(三) 以世傳小語為典故:〈過於海舶,得邁寄書、酒。作詩,遠和之,皆粲然可觀。子由有書相慶也,因用其韻賦一篇,並寄諸子姪〉:「中夜起舞踏破甕」(《蘇軾詩集》,頁 2305)〈施註〉曰:「世傳小話:有一貧士家,惟一甕,夜則守之以寢。一夕,心自惟念,苟得富貴,當以錢若干營田宅,若干蓄聲妓,而高車大蓋,無不備置,往來於懷,不覺歡適起舞,遂踏破甕。故今俗間指妄想狂計者,謂之甕算。」蘇軾以此小語警惕其子姪,既有趣又見深意。

四、 以「人+事」為典蘇軾喜愛陶淵明,詩句中寫及陶淵明的詩作計有九十六次,引用其人與「事」(喝酒、採菊、

種柳、歸隱等)的含義,合為詩中典故,例如:〈劉景文家藏樂天《身心問答三者》,戲書一絕其後〉:「淵明形神自我,樂天身心相物。而今月下三人,他日當成幾佛。」(《蘇軾詩集》,頁 1817)〈廣陵後園題扇子〉:「閑吟繞屋扶疏句,須信淵明是可人」(《蘇軾詩集》,頁1282)〈和頓教授見寄,用除夜韻〉:「我笑陶淵明,種秫二頃半。婦言既不用,還有責子歎。無絃則無琴,何必勞撫玩。」(《蘇軾詩集》,頁 626)、〈次韻答孫侔〉:「但得低頭拜東野,不辭中路伺淵明。」(《蘇軾詩集》,頁 994)凡此,都是以陶淵明的「人」及「事」合為典故。

五、 以己之作為典蘇軾偶而還以自己的詩詞當作「語典」,例如:

(一) 〈答陳述古二首:其一〉:「人老簪花卻自羞。」(《蘇軾詩集》,頁 641)引用蘇軾在杭州所寫的〈吉祥寺賞牡丹〉:「人老簪花不自羞,花應羞上老人頭。」(《蘇軾詩集》,頁

210

Page 214: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

330)為典。(二) 〈獨覺〉:「回首向來蕭瑟處,也無風雨也無晴。」(《蘇軾詩集》,頁 2284)這首詩是蘇軾

六十二歲被貶到儋州的第一年所寫的詩,引用他在黃州貶所所寫的〈定風波〉:「回首向來蕭瑟處,歸去,也無風雨也無晴。」(《東坡詞編年箋證》,頁 332)為典。

肆、蘇軾詩典故用法: 一、 用典方法

蘇軾詩用典的方法,可以概分為「語典」、「事典」、「語事混合典」三種,分述如下:(一) 語典:

語典的用法或直接引用原典文字,或變化原典文字,但取用原典詞義,分述如下:1. 直接引用原典文字:例如〈次韻秦觀秀才見贈,秦與孫莘老、李公擇甚熟,將入京應舉〉:「誰謂他鄉各異縣」直接引用〈飲馬長城窟行〉:「青青河畔草,緜緜思遠道。……他鄉各異縣,展轉不相見。」(《蘇軾詩集》,頁 828)

2. 引用原典篇章名稱:〈十月二十日,恭聞太皇太后升遐,以軾罪人,不許成服,欲哭則不敢,欲泣則不可,故作挽詞二章:其二〉:「《關雎》、《卷耳》平生事」直接引用《詩經》篇名。(《蘇軾詩集》,頁 1002)

3. 變化原典文字組合,取用原典文字與詞義:〈自徑山回,得呂察推詩,用其韻招之,宿湖上〉:「操舍兩悲慄」《蘇軾詩集》,頁 351)典出《莊子‧天運篇》:「以富為是者,不能讓祿;以顯為是者,不能讓名;親權者,不能與人柄。操之則慄,舍之則悲,而一無所鑒,以闚其所不休者,是天之戮民也。」(《新譯莊子讀本》,頁 183)取用「操之則慄,舍之則悲」變化為「操舍兩悲慄」。

4. 取用原詩情韻,改寫詩句:〈吉祥寺賞牡丹〉:「人老簪花不自羞,花應羞上老人頭。」(《蘇軾詩集》,頁 331)這二句改寫自劉禹錫〈唐郎中宅與諸公同飲酒看牡丹〉詩:「今日花前飲,甘心醉數杯。但愁花有語,不為老人開。」取用原詩情韻,改寫詩句。

5. 取用部分原典文字及原典詞義,變化詩句:〈吉祥寺賞牡丹〉:「十里珠簾半上鉤」(《蘇軾詩集》,頁 331)這二句改寫自杜牧〈贈別二首之一〉:「春風十里揚州路,卷上珠簾總不如。」取用「十里」、「珠簾」、「卷上」等詞彙,改寫詩句,但保留原意。

(二) 事典(人、事): 事典多數與人脫不了關係,所引用的是指發生在某人身上的某事,詩人引用其事以寄託詩

意,事典是典故裡最常被使用的方式,例如:〈陳季常自岐亭見訪,郡中及舊州諸豪爭欲邀致之,戲作陳孟公詩一首〉:「孟公好飲寧論斗,醉後關門防客走。」(《蘇軾詩集》,頁1057)典出《漢書‧遊俠傳‧陳遵傳》:「遵耆酒,每大飲,賓客滿堂,輒關門,取客車轄投井中,雖有急,終不得去。」(《新校本漢書》,頁 3710)

(三) 語事混合典語事混合典使用時的修辭難度比其他二種高,因此使用這種典故技巧的詩人相對比較少,

蘇軾卻是個中高手,使用的比例相當多,例如:〈張子野年八十五,尚聞買妾,述古令作詩〉:「江南刺史已無腸」(《蘇軾詩集》,頁 523)據馮應榴〈合註〉所載曰:「劉禹錫罷和州,為主客郎中。李司徒罷鎮,在京慕劉名,邀飲。酒酣,命妙妓歌以送之。劉於席上賦〈贈李司空妓〉詩曰:高髻雲鬟宮樣妝,春風一曲杜韋娘。司空見慣渾閑事,斷盡蘇州刺史腸。」白居易〈山遊示小妓〉:「莫唱楊柳枝,無腸與君斷。」白居易在江南的杭州、蘇州當過刺史,所以這一句詩同時引用了劉禹錫與白居易二人的「語」和「事」,可說極盡用典之妙。

二、 用典形式蘇軾及多數詩人於詩作引用典故,多數是某詞彙或某一句用典,蘇軾詩作之中也有整首詩句

句用典故者,或一個典故衍生多個詩句,或一個句子融會多個典故等不同的用法,分述如下:(一) 句句用典

211

Page 215: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

蘇軾〈遊諸佛舍,一日飲釅茶七盞,戲書勤師壁〉詩:「示病維摩元不病,在家靈運已忘家。何須魏帝一丸藥,且盡盧仝七碗茶。」(《蘇軾詩集》,頁 508)這是一首七言絕句詩,四句之中引用四個人的四件事當作典故。首句典出《維摩經》:「維摩詰言:從癡有愛,則我病生;以一切眾生病,是故我病;若一切眾生得不病者,則我病減。」第二句語出《傳燈錄》:「烏窠禪師曰:『汝若了淨智妙圓體自空寂,即真出家,阿假外相,汝當為在家菩薩戒施俱修,如謝靈運之流也。』」第三句語出《宋史‧樂志》:「魏文《折楊柳行》:西山一何高,高高殊無極。上有兩仙童,不飲亦不食。賜我一丸藥,光耀有五色。服之四五日,身體生羽翼。」第四句語出盧仝《謝孟諫議寄新茶》:「一椀喉吻潤,二椀破孤悶,三椀搜枯腸,惟有文字五千卷;四椀發輕汗,平生不平事,盡向毛孔散;五椀肌骨清;六椀通仙靈;七椀喫不得也,惟覺兩腋習習清風生。」

(二) 多句用一典1. 六句一典:〈和蔡景繁海州石室〉詩:「芙蓉仙人舊遊處,蒼藤翠壁初無路。戲將桃核裹黃泥,石間散擲如風雨。坐令空山出錦繡,倚天照海花無數。」(《蘇軾詩集》,頁 1178)這首詩的前六句都是引用石延年生前死後的事蹟為典故。第一句見歐陽修《六一詩話》:「石曼卿自少以詩酒豪放自得,氣貌偉然,詩格奇峭,又工於書,體兼顏、柳,為世所珍。……曼卿卒後,其故人有見之者,云恍惚如夢中。言我今為鬼仙也,所主芙蓉城。欲呼故人往遊,不得,憤然騎一素驢,去如飛。」(《宋詩話全編》,頁 218),後五句〈施註〉引《歐陽公詩話》:「石曼卿通判海州,以山嶺高峻,人路不通,了無花卉點綴映照,使人以泥裹核桃為彈,拋擲於山嶺之上,一二歲間,花發滿山,爛如錦繡。」(《蘇軾詩集》,頁 1178)以石延年事鋪寫為六句,顯見蘇軾善以典故敷陳的技巧。

2. 四句一典:〈破琴詩,并敘〉:「陋矣房次律,因循墮流俗。懸知董庭蘭,不識無絃曲。」(《蘇軾詩集》,頁 1769)房次律即唐代房琯,典出《舊唐書‧房琯傳》:「此時琯為宰相,略無匪懈之意。但與庶子劉秩、諫議李揖、何忌等高談虛論,說釋氏因果、老子虛無而已。此外,則聽董庭蘭彈琴,大招集琴客筵宴,朝官往往因庭蘭以見琯,自是亦大招納貨賄,姦贓頗甚。顏真卿時為大夫,彈何忌不孝,琯既黨何忌,遽託以酒醉入朝,貶為西平郡司馬。憲司又奏彈董庭蘭招納貨賄,琯入朝自訴,上叱出之,因歸私第,不敢關預人事。諫議大夫張鎬上疏,言琯大臣,門客受贓,不宜見累。二年五月,貶為太子少師,仍以鎬代琯為宰相。」(《新校本舊唐書》,頁 3322)蘇軾這首〈破琴詩〉藉房琯事諷刺劉摯、賈易、朱光庭等人之作為,劉摯最後也如同房琯一樣獲罪被貶。

3. 二句一典:〈次韻劉景文見寄〉:「莫因老驥思千里,醉後哀歌缺唾壺。」(《蘇軾詩集》,頁 1797)典出《晉書‧王敦傳》:「每酒後輒詠魏武帝樂府歌曰:『老驥伏櫪,志在千里。烈士暮年,壯心不已。』以如意打唾壺為節,壺邊盡缺。」(《新校本晉書》,頁 2557)

(三) 一句用多典蘇軾常將二個以上的典故融入一個詩句裡,而彼此又有詩意上的關連性,例如:

1. 一句二典:〈次韻景仁留別〉:「倒屣髮一握」(《蘇軾詩集》,頁 721)「倒屣」典出《三國志‧魏書‧王粲》:「獻帝西遷,粲徙長安,左中郎將蔡邕見而奇之。時邕才學顯著,貴重朝廷,常車騎填巷,賓客盈坐。聞粲在門,倒屣迎之。」(《新校本三國志》,頁 597)「髮一握」典出《史記˙魯世家》,周公戒其子伯禽曰:「我於天下亦不賤矣。然我一沐三捉髮,一飯三吐哺,起以待士,猶恐失天下之賢人。子之魯,慎無以國驕人。」(《新校本史記》,頁1518)。

2. 一句三典:〈張安道樂全堂〉:「步兵飲酒中散琴」(《蘇軾詩集》,頁 642)「步兵飲酒」,步兵指阮籍,典出《晉書‧阮籍傳》:「籍本有濟世志,屬魏晉之際,天下多故,名士少有全者,籍由是不與世事,遂酣飲為常。籍聞步兵廚營人善釀,有貯酒三百斛,乃求為步兵校尉。」(《新校本晉書》,頁 1360)、「中散琴」,中散即嵇康,典出嵇康〈與山濤絕交書〉:「今但願守陋巷,教養子孫,時與親舊疏闊,陳說平生,濁酒一盃,彈琴一曲,志願畢矣。」(《昭明文選》,頁 1929)以及庾信〈詠懷〉詩:「步兵未飲酒,中散未彈琴。」一句詩共計

212

Page 216: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

引用二個事典,一個語典。三、 用典含義(一) 直用其義

直用其義應是使用典故最簡單的技巧,例如:〈臨安三絕:錦溪〉:「楚人休笑沐猴冠」(《蘇軾詩集》,頁 490)引用《漢書‧陳勝、項籍傳》:「韓生說羽曰:『富貴不歸故鄉,如衣錦夜行。』韓生曰:『人謂楚人沐猴而冠,果然。』羽聞之,斬韓生。」(《新校本漢書》,頁 1808)

(二) 多典多轉折蘇軾使用典故被認為「不易讀」,是因為蘇軾時常將二個以上的典故融合在一個句子裡,

取用的詞義又經過轉折,舉例如下:〈和董傳留別〉:「麤繒大布裹生涯,腹有詩書氣自華。厭伴老儒烹瓠葉,強隨舉子踏槐花。囊空不辦尋春馬,眼亂行看擇婿車。得意猶堪誇世俗,詔黃新濕字如鴉。」(《蘇軾詩集》,頁 221)蘇軾這首詩寫於從鳳翔回到長安時,蘇軾在鳳翔時,董傳曾與之相從,有詩名於當時。文獻對董傳的記載很少,從這首詩看來,董傳當時應是貧困的。詩中「囊空不辦尋春馬」句引用孟郊《登科後》詩:「昔日齷齪不足誇,今朝放蕩思無涯。春風得意馬蹄疾,一日看盡長安花。」及《南史‧虞玩之傳》:「玩之為少府,猶躡屐造席。高帝取屐親視之,訛黑斜銳,瓚斷以芒接之。問曰:『卿此屐已幾載?』玩之曰:『初釋褐拜征北行佐買之,著已三十年,貧士竟不辦易。』」(《新校本南史》,頁 1178)引用孟郊詩而不直接引用其詩語,而引用其「春風得意馬蹄疾,一日看盡長安花。」之詩意,但轉化為「尋春馬」;引用虞玩之因貧困而舊屐著三十年不辦易的事典,而轉化為「囊空不辦」,引用二個典故融合為一句,語多轉折。

(三) 出處相同,取義不同: 蘇軾有時引用同一個典故在不同詩作中,但因心境不同,所要表達的詩意不同,所以同一

個典故,會因前後文不同,使典故取義也因而不同,例如〈別黃州〉:「病瘡老馬不任鞿,猶向君王得敝幃。」(《蘇軾詩集》,頁 1201)與〈和陶詠三良〉:「我豈犬馬哉,從君求蓋帷。」(《蘇軾詩集》,頁 2184)同樣引用《禮記‧檀弓下》;「仲尼之畜狗死,使子貢埋之。曰:『吾聞之也,敝帷不棄,為埋馬也;敝蓋不棄,為埋狗也。』丘也貧,無蓋,於其封也,亦予之席,毋使其首陷焉。路馬死,埋之以帷。」的典故,蘇軾因烏臺詩案於神宗元豐二年被貶黃州,元豐七年獲赦離開黃州時,寫下〈別黃州〉詩,以「病瘡老馬」自居,因獲赦而有「猶向君王得敝幃」的感激,但是後來屢為讒言所害,一再遭貶,謫居惠州時寫〈和陶詠三良〉:「我豈犬馬哉,從君求蓋帷。」心境已從感激轉為悲憤,同一個典故,側重之詞義不同。

(四) 詞彙相同,出處不同,詞義不同:蘇軾詩典故難解,還有一個原因是因為蘇軾詩使用典故,有詞彙相同,出處不同,詞義不

同的情形,如〈於潛僧綠筠軒〉:「可使食無肉,不可使居無竹。無肉令人瘦,無竹令人俗。人瘦尚可肥,俗士不可醫。旁人笑此言,似高還似癡。若對此君仍大嚼,世間那有揚州鶴。」(《蘇軾詩集》,頁 448)〈夜直秘閣呈王敏甫〉:「共誰交臂論今古,只有閑心對此君。」(《蘇軾詩集》,頁 225)二詩均有「此君」詞,「此君」在詩詞裡通常指「竹子」,典出《晉書‧王徽之傳》:「徽之字子猷。……嘗寄居空宅中,便令種竹。或問其故,徽之但嘯詠,指竹曰:『何可一日無此君邪!』」(《新校本晉書》,頁 2103)蘇軾〈於潛僧綠筠軒〉的「此君」指竹子,殆無疑義,但是〈夜直秘閣呈王敏甫〉:「只有閑心對此君」句下有馮、翁二人的註,所註不同。馮應榴註曰:「『此君』用王子猷語。」(《蘇軾詩集》,頁 225),但翁方綱引白居易〈效陶潛體詩十六首(并序)之六〉:「天秋無片雲,地靜無纖塵。團團新晴月,林外生白輪。憶昨陰霖天,連連三四旬。賴逢家醞釀熟,不覺過朝昏。私言雨霽後,可以罷餘尊。及對新月色,不醉亦愁人。床頭殘酒榼,欲盡味彌淳。攜置南檐下,舉酌自殷勤。清光入杯杓,白露生衣巾。乃知陰與晴,安可無此君。我有樂府詩,成來人未聞。今宵醉有興,狂詠驚四鄰。獨賞猶復爾,何況有交親。」認為此處的「此君」指的是酒,二人註解不同。唐宋詩寫「此君」雖然多數是指竹子,但除了唐代白居易用以指酒,宋代秦觀〈送張和叔兼簡魯

213

Page 217: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

直〉:「未試霹靂手,低回從此君。……豈無一樽酒,誰與通殷勤。」陸游〈拄杖歌〉:「禪房按膝秋聽雨,野店敲門暮賒酒。……老矣更踏千山雲,何可一日無此君?」也都用以指酒。檢視蘇軾詩,有六首詩用「此君」,五首指的是「竹」,只有這一首指的是「酒」。這一首詩之前一句「共誰交臂論今古」典出《九州春秋》:「韓遂、樊稠交臂相加,共語良久。」整首詩雖未言及酒,也未言及竹,但想來蘇軾夜直秘閣,作詩呈好友,與好友交臂論今古,對的應是酒不是竹,翁方綱的註解是對的,而馮應榴的註解是錯的。

四、 用典修辭(一) 對仗工整

蘇軾用典,除了引用典故精當之外,還能兼顧對仗的工整,實為不易,舉例說明如下:〈次韻和王鞏六首:其五〉:「巧語屢曾遭薏苡,廋詞聊復託芎藭。子還可責同元亮,妻

卻差賢勝敬通。」(《蘇軾詩集》,頁 1130)這是一首七言律詩,中間兩聯需要對仗,蘇軾引用四件事典寄託感慨。

蘇軾這首詩寫於宋神宗元豐五年,也就是他被貶謫到黃州的第四年。王鞏與蘇軾是至交,因受蘇軾烏臺詩案連累而被貶廣南西路賓州,有詩寄蘇軾,蘇軾以此詩和之。「巧語屢曾遭薏苡」引用《後漢書‧馬援傳》:「初,援在交阯,常餌薏苡實,用能輕身省慾,以勝瘴氣。南方薏苡實大,援欲以為種,軍還,載之一車。時人以為南土珍怪,權貴皆望之。援時方有寵,故莫以聞。及卒後,有上書譖之者,以為前所載還,皆明珠文犀。」(《新校本後漢書》,頁846)蘇軾以馬援遭流言譏讒之事寄託自己於守喪期間也曾被謝景溫誣指販賣私鹽之流言所害的往事。「廋詞聊復託芎藭」引自《春秋左傳‧宣公傳十二年》:「冬,楚子伐蕭……蕭潰。……還無社與司馬卯言,號申叔展,叔展曰:有麥麴乎?曰:無。有山鞠窮乎?曰:無。河魚腹疾奈何?曰:目於眢井而拯之。若為茅絰,哭井則已。明日,蕭潰。申叔視其井,則茅絰存焉,號而出之。」(《十三經‧春秋左傳》,頁 85)還無社是蕭邑大夫,司馬卯與申叔展是楚國大夫,還無社與申叔展素相識,楚國伐蕭時,二人以麥麴、眢井為喻,作為約定相救的暗語,蘇軾藉此比喻王鞏於烏臺詩案相救之事。「子還可責同元亮」,元亮即陶淵明,以「親老家貧,起為州祭酒,不堪吏職,少日自解歸。州召主簿,不就,躬耕自資,遂抱羸疾。復為鎮軍、建威參軍,謂親朋曰:『聊欲絃歌,以為三徑之資可乎?』執事者聞之,以為彭澤令。……素簡貴,不私事上官。郡遣督郵至縣,吏白應束帶見之,潛歎曰:『吾不能為五斗米折腰,拳拳事鄉里小人邪!』義熙二年,解印去縣,乃賦歸去來。」(《新校本宋書》,頁 2287)蘇軾謫居黃州已四年,難免感慨自己「為五斗米折腰」,因此引用陶淵明典故託喻。「妻卻差賢勝敬通」用漢代馮衍的典故,馮衍字敬通,京兆杜陵人,「衍幼有奇才,年九歲,能誦詩,至二十而博通群書。王莽時,諸公多薦舉之者,衍辭不肯仕。」(《新校本後漢書》,頁 962),《新校本梁書‧劉峻 》載曰:「峻又嘗為自序,其略曰:『余自比馮敬通,而有同之者三,異之者四。何則?敬通雄才冠世,志剛金石;余雖不及之,而節亮慷慨,此一同也。敬通值中興明君,而終不試用;余逢命世英主,亦擯斥當年,此二同也。敬通有忌妻,至於身操井臼;余有悍室,亦令家道轗軻,此三同也。』」(《新校本梁書》,頁 707)蘇軾次韻王鞏詩之後,曾有〈題和王鞏六詩後〉曰:「僕文章雖不逮馮衍,而慷慨大節乃不愧此翁。衍逢世祖英睿好士,而獨不遇,流離擯逐,與僕相似。而衍妻悍妒甚,僕少此一事,故有『勝敬通』之句。」(《蘇軾文集》,頁 2132)

蘇軾這一首詩,除了以典故寄託自己的心事,豐富詩意,頷聯「巧語/屢曾/遭/薏苡,廋詞/聊復/託/芎藭。」頸聯「子還/可責/同/元亮,妻卻/差賢/勝/敬通。」上下二句之句法、詞性對仗均極為工整。其餘如〈王中甫哀辭,并敘〉:「已知/毅/豹/為/均死,未識/荊/凡/定/孰存?」(《蘇軾詩集》,頁 1282)前句典出《莊子‧達生篇》,後句典出《莊子‧田子方篇》;〈蔡景繁官舍小閣〉:「素琴/濁酒/容/一榻,落霞/孤鶩/供/千里。」(《蘇軾詩集》,頁 1289)前句典出江淹〈恨賦〉,後句典出王勃〈滕王閣序〉;〈次韻王定國南遷回見寄〉:「妄心/不復/九迴腸,至道/終當/三洗髓。」(《蘇軾詩集》,頁 1293)前句典出司馬遷〈答任少卿書〉,後句典出《太平廣記》,都是引用典故於對

214

Page 218: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

仗之二聯,能兼顧典故詞義與對仗工整之作品,可見蘇軾於引用典故時,修辭之精當講究。(二) 使用倒裝句

蘇軾詩使用典故,因格律的限制,使用倒裝句,使詩法更奇妙,詩意更多層,也與其他詩人有了區隔。蘇軾〈和子由柳湖久涸,忽有水,開元寺山茶舊無花,今歲盛開二首:其一〉:「如今勝事無人共,花下壺盧鳥勸提。」(《蘇軾詩集》,頁 336)提壺盧(蘆)是鳥名,又名提壺鳥,也叫提葫,最早出現於《樂府詩集‧相和歌辭‧對酒》詩:「行行日將夕,荒村古塚無人跡。朦朧荊棘一鳥飛,屢唱提壺沽酒喫。古人不達酒不足,遺恨精靈傳此曲。寄言當代諸少年,平生且盡杯中淥。」(卷第二十七)《漢語大詞典》:「提壺即鵜鶘」(頁 745),但鵜鶘是水鳥,群居澤畔捕魚為生,應該不是詩人筆下常出現在花叢樹梢勸人喝酒的提壺鳥。

唐宋詩人詩裡常寫及提壺鳥,寫及提壺鳥時幾乎都與「花」、「酒」合寫,如:白居易〈早春聞提壺鳥因題鄰家〉:「厭聽秋猿催下淚,喜聞春鳥勸提壺。誰家紅樹先花發,何處青樓有酒酤。」;杜牧〈對花微疾不飲呈坐中諸公〉:「花前雖病亦提壺,數調持觴興有無。」;晁補之〈梁州令疊韻〉:「清樽滿酌誰為伴。花下提壺勸。何妨醉臥花底,愁容不上春風面。」;蘇軾詩也三次寫提壺鳥,另二首是:〈攜妓樂游張山人園〉:「提壺勸酒意雖重,杜鵑催歸聲更速。」;〈和陶歸園田居六首其二〉:「提壺豈解飲,好語時見廣。」;「提壺」究竟是什麼鳥,不得而知,詩人以「提壺」、「提壺盧」為鳥命名,是否以「壺」、「壺盧(葫蘆)」喻酒壺,不得而知。蘇軾寫這首詩時任杭州通判,因見山茶花盛開而寫這首詩,應是感於歐陽修〈啼鳥〉:「獨有花上提葫蘆,勸我沽酒花前傾。」而寫,蘇軾寫「如今勝事無人共,花下壺盧鳥勸提。」所要表達的詩意應是與其他詩人一樣寫花下提壺鳥勸人喝酒,蘇軾將詩句化為「花下/壺盧/鳥/勸提」,其他詩人都用「提壺」或「提壺盧」,沒有用「壺盧」者。蘇軾用「壺盧」,而不用「提壺」,「提壺」與「壺盧」平仄相同,所以也不是格律的因素,想來蘇軾是取「壺盧」與可以盛酒的「葫蘆」同音,再則後面接「鳥」,讀者可以知道蘇軾寫的是「提壺盧鳥」,「提」字放在同句句末,一者讀者很容易聯想到前面的「壺盧」即是「提壺盧鳥」,且這種倒裝句法在詩詞裡常見,再者「提」字之前是「鳥」、「勸」二字,「提」字緊接在後變成動詞,更生動的以擬人化的筆法傳遞提壺鳥勸人「提」起「壺盧」喝酒的詩意,較之其他詩作更為靈動,更添逸趣。

(三) 數字換算〈趙郎中見和,戲復答之〉:「趙子飲酒如淋灰,一年十萬八千杯」(《蘇軾詩集》,頁

692)典出李白〈襄陽歌〉:「百年三萬六千日,一日須傾三百杯。」一天三百杯,一年三百六十五天,當飲十萬九千五百杯,在顧及平仄及取整數的考量下,蘇軾化為「一年十萬八千杯」,可說是不著痕跡。

伍、與資訊科技結合對典故研究的影響以及可以延伸的研究典故恐怕是所有人讀詩的最大困難,歷來很多學者為詩詞典故做註解,但未必能正確判斷典故的出

處,也未必能完整呈現詩人引用典故作詩之原意。當代也有多本詩詞等韻文之典故辭典問世,編撰者嘗試訂出典故之詞彙,標註典故之出處。為很多人共同引用的典故訂定詞彙,雖然比較容易,但問題在於詩人引用典故時,所使用的詞彙未必相同,以秦東陵侯召平於秦破後因家貧於長安城東種瓜的故事為例〔註四〕,唐代詩人引用這個典故所使用的詞彙共有如下十四種:東陵侯、東門瓜、東陵瓜、邵平瓜、邵平、邵平園、邵平田、青門瓜、青門故侯、青門隱、賣瓜侯、故侯瓜、故侯、種瓜侯。可見詩人不僅在使用相同典故時詞彙有很多變化,引用典故時的取材(引用之出處)範圍廣泛,取義(取用之詞義)角度也有很多變化,所以要從詩句判斷出處及從典故探索詩作原意,誠非易事。

范寧先生編撰《全唐詩典故辭典》,收錄近萬筆典故詞條,編纂時在每一條典故之下列出「相關典故」(典故出處相同,詩句中所側重的詞義不同,用詞或相同或不同。)、「同義典故」(典故出處相同,詩句中所取的詞義相同,用詞相同。)、「參見典故」(典故出處不同,詩句中所取的詞義相同或相近,用詞不同。)並且逐條舉出典故出處及唐詩例句,解決了一部份辨識典故出處之用詞取義的問題,

215

Page 219: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

但是全唐詩四百多萬字,引用典故的詞條當然不只這一萬筆,讀者讀唐詩時,遇到疑似典故的詩句,仍難免會遇到無法從《全唐詩典故辭典》查到典故出處的情形。唐詩之後,全宋詩的數量是全唐詩的十倍,宋代詩人使用典故比唐代更多,更講究,後人讀宋詩,因典故而引起的困難也相對提高,要編撰全宋詩典故辭典的困難度恐怕比全唐詩高出很多,所以迄今未有全宋詩典故辭典問世,唐宋詩之外,還有宋詞元曲,明清詩詞曲,要一一編撰典故辭典,談何容易。

王文誥、馮應榴輯注,孔凡禮點校的《蘇軾詩集》可說是註解相當完備,但仍難免有錯漏,如〈與參寥師行園中,得黃耳蕈〉:「寒蔬病甲誰能採,落葉空畦半已荒。」(《蘇軾詩集》,頁 904)句下,各家均無註解,「病甲」何意讓人費解,查檢歷代典籍未曾出現這個詞彙,依辭書解釋,「甲」有「植物某些部分的外皮」的含義,語出《易‧解》:「雷雨作而百果草木皆甲坼」(《十三經‧周易‧解》,頁 13),孫星衍〈集釋〉引鄭玄曰:「皮曰甲」。杜甫〈種萵苣〉詩有:「兩旬不甲坼,空惜埋泥滓。」句,張耒〈理東堂隙地自種菜〉詩有:「幽居無一事,隙地自畦蔬。秋雨忽甲坼,青青千萬餘。」,李賀〈南園十三首之四〉詩有:「三十未有二十餘,白日長飢小甲蔬」。「甲蔬」意指菜殼,蘇軾「寒蔬病甲」句,應是「寒病蔬甲」因平仄而倒裝的句子,「蔬甲」即蔬菜的外殼,因寒病而葉落,致使無法收採。

《蘇軾詩集》誤註典故的情形也有,馮應榴在註解蘇軾〈夜直秘閣呈王敏甫〉:「只有閑心對此君」(《蘇軾詩集》,頁 225)將「此君」誤註為典出《晉書‧王徽之傳》所指的「竹子」,已如前述;讓馮應榴發出「甚矣,公詩之不易讀也。」感慨的是蘇軾〈章質夫送酒六壺,書至而酒不達,戲作小詩問之〉:「豈意青州六從事」句(見〔註三〕)。蘇軾共有五首詩寫到「青州」,分別是:〈九日次韻王鞏〉:「我醉欲眠君罷休,已教從事到青州。」(《蘇軾詩集》,頁 870);〈次韻周開祖長官見寄〉:「從今更踏青州麴,薄酒知君笑督郵。」(《蘇軾詩集》,頁 981);〈次韻趙令鑠惠酒〉:「青州老從事,鬲上非所部。」(《蘇軾詩集》,頁 1395);〈真一酒,並引〉:「人間真一東坡老,與作青州從事名。」(《蘇軾詩集》,頁 2124);〈章質夫送酒六壺,書至而酒不達,戲作小詩問之〉:「豈意青州六從事,化為烏有一先生。」(《蘇軾詩集》,頁 2155);引用《世說新語》:「桓公有主簿善別酒,有酒輒令先嘗。好者謂『青州從事』,惡者謂『平原督郵』。青州有齊郡,平原有鬲縣。『從事』言『到臍』,『督郵』言在『鬲上住』。」(《世說新語 ‧ 術解 》 下卷)的故事,除了唐代皮日休、韋莊用過這個典故,蘇軾、歐陽修、蘇轍、黃庭堅、陳師道都用過〔註五〕。《蘇軾詩集》的註解,只有〈施註〉在〈九日次韻王鞏〉加上出處,其餘五處均未加註。蘇軾這五首詩都寫酒,顯然是用「青州從事」的典故,在〈章質夫送酒六壺,書至而酒不達,戲作小詩問之〉詩中,因章質夫送酒六壺,因此蘇軾將「青州從事」的典故化為「青州六從事」,難怪馮應榴要發出「不易讀」之嘆。

詩人寫詩,上窮碧落下黃泉的引用典籍做典故,後人讀詩也必須能通古知今,旁徵博引才能讀懂,「旁徵博引」需要皓首窮經,需仰賴記憶與理解,談何容易?所幸現在拜資訊科技之賜,電腦強大的記憶、搜尋、比對等能力,使得「旁徵博引」變成可能,而且電腦徵引範圍的深廣度及正確度(文字)都勝過人腦千萬倍,但是在電腦只能「辨認字形」,無法「理解字義」的限制之下,藉助電腦做「旁徵博引」的工作也只限於字形的比對,而且即便只是字形的比對,還可能因為詞彙認定的偏差或詞同義不同(如「此君」)而產生錯誤,因此先行對文本做詞彙切分以及初步的詞義標誌,使電腦從辨認字形提升到理解語意,使電腦「旁徵博引」的品質更接近人腦,便可藉助電腦處理典故標誌的問題。

藉助資訊科技建立詩詞典故系統,可行的方式如下:我們既已分析出詩人用典的方式分為「語典」、「事典」、「語事混合典」三種,三種典故之詞彙所含有的元素包含:一、人名(某人之某語、某人之某事),二、書篇名(某人某書、某人某文),三、關鍵詞(相關的詞彙)。如果我們建立一個跨資料庫之詩詞典故辭典系統,建立典故資料時,將欄位做如下設定:以「青門瓜」典故為例典故 青門瓜相關人物 召平=邵平關鍵詞

相關典故 邵平瓜;同義典故 青門故侯; 青門隱;參見典故 青門;

216

Page 220: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

典故出處 典故內容《史記》卷五十三《蕭相國世家》

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

詩詞典故例句序號 作者 詩題 詩句1. 杜甫 投簡成華兩縣諸子 南山豆苗早荒穢,青門瓜地新凍裂。

權德輿 送張將軍歸東都舊業 白草辭邊騎,青門別故侯。2. 溫庭筠 贈鄭處士 醉收陶令菊,貧賣邵平瓜。3. 白居易 新昌新居書事四十韻因寄元

郎中張博士 跡慕青門隱,名漸紫禁仙。……節錄……將典故資料依上述所設定之欄位建立之後,即可據以開發詩詞典故系統,檢索欄位包括「典故詞

彙」、「相關人物」、「相關出處」、「出處內容」。使用者遇到「可能是典故」的詩句時,便可以選擇適當的欄位,輸入適當的詞彙查詢,每一次的查詢結果所列出的資料,都可以做進一步的擴充查詢,便可以從中查詢到以某人、某事、某典籍、某詞彙作為典故的典故資料。以「青門瓜」為例,「青門瓜」典故的相關人物是「召平=邵平」,依所設定欄位建立資料之後,當我們讀唐詩時,遇到與「召平=邵平」相關的詩句如:「杜甫,〈舍弟觀赴藍田取妻子到江陵喜寄三首之三〉:『卜築應同蔣詡徑,為園須似邵平瓜。』」〔註六〕,即可在詩詞典故檢索系統之「相關人物」欄位輸入「召平=邵平」查詢與「召平=邵平」相關的典故,查詢結果如下:

序號 典故 相關

人物 典故出處 出處內容 同義典故

1 東陵侯 召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

東門瓜;東陵瓜;

2 邵平瓜  召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

邵平;邵平園;邵平田;

3 青門瓜  召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

青門故侯;青門隱;

4 賣瓜侯  召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

邵平;邵平園;邵平田;

5 故侯瓜  召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

故侯;

6 種瓜侯  召平 史記

召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之「東陵瓜」,從召平以為名也。

邵平;邵平園;邵平田;

利用電腦超連結的功能,將所有人名、書篇名等詞彙設定超連結,即可看到相關詞彙的其他資料,所以點選「青門瓜」,可以看到與「青門瓜」相關的典故資料如上表。同樣的,以「典故出處」之「《史記》」也可以看到所有出自「《史記》」的典故,檢索結果略。

除了可以從典故查詢詩詞例句之外,在程式設計上,可以將所累積的典故詞彙建立典故詞彙資料庫,

217

Page 221: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

與詩詞資料庫進行詞彙比對,從詩詞資料庫建立典故自動標誌功能,以【全唐詩網站】所收權德輿〈送張將軍歸東都舊業〉詩為例,以這首詩選擇「典故標誌」功能,可以比對出「青門別故侯」之「故侯」含有典故,點選「故侯」即可連結「故侯」之典故資料,結果如下(左邊為全唐詩網站介面,右邊為典故標誌之介面):

由上述可知,將典故資料經過描述,並依所設定欄位分析、建立,即可依所建立的典故資料開發典故系統,提供查詢、比對、自動標誌的功能,除了使用的方便性比紙本典故辭典高,還可以從所建立的典故資料庫分析每一位詩人所使用的典故有那些?其相關出處是那些?典故用語構詞的特色是什麼?可進一步作為文學典故研究之用。附註〔一〕 劉勰著,王師更生教授注譯,《文心雕龍讀本》,文史哲出版社,1983年 11月出版,頁

168。〔二〕 范之麟、吳庚舜主編主編,《全唐詩典故辭典》,湖北辭書出版社,1989年出版。〔三〕 參見《蘇軾詩集》,〈章質夫送酒六壺,書至而酒不達,戲作小詩問之〉:「豈意青州六從

事」之〈合註〉(即馮應榴註):「何焯曰:皮日休:〈醉中寄魯望一壺絕句〉云:醉中不得親相倚,故遣青州從事來。第三正用其語刻畫。送酒六壺,與韋相泛用(青州從事來偏熟)者又別,甚矣,公詩之不易讀也。」,頁 2155。皮日休:〈醉中寄魯望一壺絕句〉全文是:「門巷寥寥空紫苔,先生應渴解酲杯。醉中不得親相倚,故遣青州從事來。」韋相是韋莊,「青州從事來偏熟」語出〈江上題所居〉,全文:「故人相別盡朝天。苦竹江頭獨閉關。落日亂蟬蕭帝寺。 敝雲歸鳥謝家山。青州從事來偏熟。泉布先生老漸慳。不是對花長酩酊。永嘉時代不如閒。」

〔四〕 語出《新校本史記》,頁 2027:「召平者,故秦東陵侯。秦破,為布衣,貧,種瓜於長安城東,瓜美,故世俗謂之『東陵瓜』,從召平以為名也。」

218

Page 222: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

〔五〕 歐陽修,〈留題南樓二絕(之二)〉:「醉翁到處不曾醒,問向青州作麼生。公退留賓誇酒美,睡餘欹枕看山橫。」歐陽修,〈春晴書事〉:「莫笑青州太守頑,……嘉客但當傾美酒,」蘇轍,〈和青州教授頓起九日見寄〉:「莫思太室杉松外,且醉青州歌舞前。」黃庭堅,〈醇道得蛤蜊復索舜泉舜泉已酌盡官醞不堪不敢送〉:「青州從事難再得,牆底數樽猶未眠。」陳師道,〈九日無酒書呈漕使韓伯修大夫〉:「慚無白水真人分,難置青州從事來。」

〔六〕 查詢【全唐詩網站】,含有「邵平=召平」的詩句共有「沈佺期,〈初冬從幸漢故青門應制〉:『蕪沒邵平園』」、「孟浩然,〈南山下與老圃期種瓜〉:『邵平能就我』」等十六首詩,詳見:http://cls.hs.yzu.edu.tw/QTS/BIN/fz_next.asp。

引用書目〔一〕 劉義慶著,《世說新語》,大眾書局,1972年。〔二〕 黃師錦鈜註譯,《新譯莊子讀本》,台北:三民書局,1977年。〔三〕 嚴中其編注,《蘇軾軼事彙編》,長沙 : 岳麓書社 , 1984 。〔四〕 孔凡禮點校,《蘇軾文集》,北京:中華書局,1986年。〔五〕 范之麟、吳庚舜主編主編,《全唐詩典故辭典》,湖北辭書出版社,1989年出版。〔六〕 孔凡禮點校,《蘇軾詩集》,北京:中華書局,1996年。〔七〕 吳文治主編,《宋詩話全編》,南京:江蘇古籍出版社,1998年出版。〔八〕 薛瑞生箋證,《東坡詞編年箋證》,陝西西安:三秦出版社,1998年。引用網站〔一〕 中央研究院,【漢籍電子文獻網站】,網址:http://www.sinica.edu.tw/ftms-bin/ftmsw3〔二〕 羅鳳珠,【網路展書讀網站】,網址:http://cls.hs.yzu.edu.tw/

1. 【續資治通鑑長編網站】,網址:http://cls.hs.yzu.edu.tw/Tong/login.htm2. 【以XML(eXtensible Markup Language)可延伸式標注語言建立文章標誌(Content

Markup)系統研究-以蘇軾詩詞為範圍網站】,網址:http://cls.hs.yzu.edu.tw/cm/3. 【時空之旅 - 蘇軾 網站】,網址:http://cls.hs.yzu.edu.tw/su_shih/4. 【宋代名家詩網站】,網址:http://cls.hs.yzu.edu.tw/QSS/HOME.HTM5. 【全唐詩網站】,網址:http://cls.hs.yzu.edu.tw/QTS/HOME.HTM6. 【詩詞典故網站】,網址:http://cls.hs.yzu.edu.tw/ORIG/

219

Page 223: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Pan-Chinese Variation on Verbal Synonymy: A Study of Common Reportage Verbs in News Texts

Chi Man CHENG Oi Yee KWONG Benjamin K. TSOULanguage Information Sciences Research Centre

City University of Hong [email protected] [email protected] [email protected]

Abstract This paper discusses the semantic and syntactic analysis of four very common transitive verbs in newspaper reportage: shuo1 (說/say), biao3shi4 (表示/express), zhi3chu1 (指出/point out) and cheng1 (稱 /claim). These four verbs have high frequencies in various Chinese-speaking communities, including Hong Kong, Taiwan and Beijing. On the basis of authentic linguistic data from the LIVAC (Linguistic Variation in Chinese Speech Communities) synchronous corpus, we compare the constructions and usages of these four verbs in the three regions. Our analysis unveiled the subtle difference in usage among these four near-synonyms, and provided useful data on verb argument structures for benchmarking the competence of humans in the verb acquisition process. This contrastive analysis will also aid the construction of Chinese semantic networks and thesauri which are applicable in many Chinese-speaking communities.

1 IntroductionStudies on verbal synonymy have seldom addressed the variations between the standard written form of a language and local dialects. In this study, we analyze four closely-related common verbs used in news reportage: shuo1 (說 /say), biao3shi4 (表示 /express), zhi3chu1 (指出 /point out) and cheng1 (稱 /claim). According to the LIVAC98 synchronous corpus, these four verbs are amongst the most frequently used transitive verbs in Hong Kong news texts in the past few years. Similar dominance99 is also observed in Taiwan news and magazine texts (CKIP, 1993). Interestingly, all of them can correspond to the very general verb in reported speech, waa6 (話/say), in colloquial Cantonese.

In HowNet (Dong, 1999), these four verbs are arranged into two sememes: biao3shi4 and zhi3chu1 belong to the sememe “express|表示”, and shuo1 and cheng1 belong to “speak|說”. These two sememes have hypernym-hyponym relation, such that “express|表示” is the parent of “speak|說”. These four verbs have very similar syntactic and semantic valencies that are hard to be recognized solely by intuition. Therefore corpus data is needed to reveal some important but opaque distributional differences among them.

Both syntactic and semantic information are crucial to the study of synonymy. It is assumed that “the syntactic realization of arguments – their syntactic type and grammatical function – is predictable to a large extent from the meaning of a word” (Liu cf. Levin and Rappoport, 2003). Roland and Jurafsky (1998) compared the subcategorization frequencies between different types of corpora 100 and classified the subcategorization frames into sixteen categories. Arppe and Järvikivi (2002) uncovered the preferences of the usage of near-synonymous verbs in Finnish, and realized that syntactic and semantic analysis can be used to enhance and enrich lexical description.

Similar approaches are adopted in the study of synonyms in Chinese. Chief et al. (1998) differentiated two Chinese adjectives through corpus-aided studies. Syntactic difference between near-synonyms is used to indicate the existence of subtle semantic difference. Similarly, Tsai et al. (1998)

98 Linguistic Variation in Chinese Speech Communities. http://www.livac.org/99 biao3shi4, shuo1, zhi3chu1 and cheng1 ranked 11, 16, 23 and 298 respectively among 19,907 verbs.100 Corpora analyzed: psychological sentence production data, written text, and telephone conversation data.

220

Page 224: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

used the distributional differences in the syntactic patterns of near-synonymous Chinese predicates to deduce the relevant components of verb meanings. Four different types of syntactic information were also proposed for the guideline of similar research: syntactic function, argument structure, aspectual type and sentential type. Recently in 2003, Liu distinguished between the Chinese synonymous verbs tao3lun4 (討論 /discuss) and shang1liang2 (商量 /discuss), and suggested that a huge difference in frequency of use readily indicates that the verb with lower frequency might be semantically more restricted and marked, and hence more restricted in use. On cross-language verbal synonymy, Gao and Cheng (2003) investigated “verbs of contact by impact” in English and their equivalents in Mandarin Chinese, and showed the dissimilarity of semantic components between English and Mandarin Chinese.

However, there is not yet any significant study of verbal synonymy between formal literate and literary dialect, or between standard and local dialect. Chinese dialects do not readily enjoy mutual intelligibility. Although Modern Standard Chinese (MSC) is regarded as the official language of China, dialect speakers do write in a dialectal style which is different from MSC in terms of lexicon and syntax. This research thus aims at studying verbal synonymy in the Pan-Chinese context with the corpus linguistic approach, which has been popular and useful in similar studies.

Apart from corpus studies, other experiments might help in discovering the mapping between dialect and formal literate. For example, the “subjective acceptability rating” (Arppe and Järvikivi, 2002) is used for testing the relation between corpus-based results and the linguistic intuitions of native speakers. Together with the syntactic and semantic characteristics of the verbs deduced from corpus data, we can test human subjects for their performance and competence on the verbs, so as to better study the process of verb acquisition, as part of our future work.

In Section 2, we will present the methodology, with which we analyzed the data for frequency distribution, semantic features and syntactic properties. The results will be presented in Section 3 and then discussed in Section 4. Section 5 will be the conclusion and the preview of future work.

2 MethodologyA subset of the LIVAC101 corpus (Tsou et al., 2000) was used in this study. The data consist of Chinese news texts from three Chinese-speaking communities: Hong Kong (HK), Taiwan (TW) and Beijing (BJ), collected from 1995 to 2002. The analysis on frequency distribution was based on the data of all seven years, and the sample sentences containing shuo1, biao3shi4, zhi3chu1 and cheng1 were extracted from the data of 1997-1998.

2.1 Frequency Distribution

From the subset of the corpus, frequencies of the four verbs in every year are calculated, as well as the total frequency of words. As the sentences containing the target verbs were sampled from 1997 to 1998, figures of that year were analyzed in detail.

2.2 Semantic Analysis

Within the data collected from 1997 to 1998, 50 sample sentences for each verb from each place were randomly selected for investigation. All sample sentences have the target verbs as the main verbs with objects corresponding to “message”102. The constituents of the sentences were annotated with one of the eleven abstract thematic roles, which are generally organized into “major” and “minor” roles:

Major roles: AGENT, PATIENT, EFFECTOR, THEMEMinor roles: GOAL, TIME, LOCATION, INSTRUMENT, SOURCE, FREQUENCY, QUANTITY

101 LIVAC consists of newspaper texts from Hong Kong, Beijing, Taiwan, Singapore, Shanghai and Macau, covering local news, international news, financial news, sports news, and entertainment news, collected over the same period of time.102 For example, in the sentence 他說實話(he says the truth), 實話(truth) is not the “message” communicated by 說(say), and therefore this sentence will not be sampled.

221

Page 225: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Major roles are essential to the formation of a sentence, and minor roles are optional. Features of the major roles and the distribution of the minor roles should give hints to the preference and constraint of a verb respectively. Three major features of AGENT were identified:

Name: Phrases with human proper name or surname as head Pronominal: Simple pronouns (e.g. 你/ 我/ 他/ 他們) excluding 誰/ 雙方/ 各人/ 後者/ etc. Inanimate: Inanimate subject excluding name of places or organizations. E.g. 它/ 報導/ 報告/ 消息/

文章/ 評論/ 會議Others103: E.g. 美國/ 首相/ 時報/ 美聯社

2.3 Syntactic Analysis

Our syntactic analysis was focused on the association pattern and the collocation behavior. With reference to the subcategorization frames classified by Roland and Jurafsky (1998), as well as the authentic corpus data, three frames were roughly identified:

Quotation104: Direct quotations with quotation marks. E.g. 江澤民 表示 「今後來香港的機會愈來愈多,但具體什麼時候去,現在就說不好」

Sentence: Complete sentences. E.g. 他們 說 該建築計劃會導致當地水浸Reflexive: Speaker being the subject of the clause. E.g. 董 稱 樂做任何有需要的事

3 Results3.1 Frequency Distribution

Among the transitive verbs in HK in the year 1997-1998, our target verbs shuo1, biao3shi4, zhi3chu1 and cheng1 ranked 2, 3, 7 and 8 respectively. The outstanding ranking of shuo1 can be explained mainly by its diversity in English translation105 (Ding, 2001), and hence the generality of its meaning. However, the explanations on the frequency distribution of the other three verbs need more in-depth syntactic and semantic analysis.

HK TW BJshuo1 0.366% 0.359% 0.375%

biao3shi4 0.330% 0.142% 0.399%zhi3chu1 0.131% 0.078% 0.213%cheng1 0.111% 0.017% 0.015%

Table 1: Relative frequencies of the verbs from 1995 to 2002

First of all, we will look into the total relative frequencies106 of the four verbs in the three places from 1995 to 2002, which are shown in Table 1. It can be seen that shuo1 is similarly frequent in the three regions, and the figures of biao3shi4 and zhi3chu1 are comparatively low in TW, and that of cheng1 is high only in HK.

Figures were then broken down by year in order to observe the trends and tendencies of the relative distribution of each verb across the various places. Throughout the years in HK, the steady relative frequencies separated the four verbs into two groups, with zhi3chu1 and cheng1 at the bottom and shuo1 and biao3shi4 on the top. For BJ, relative frequencies of shuo1 and biao3shi4 were high and increasing, but that of cheng1 was far less than that of zhi3chu1. In HK and BJ, the verb with highest relative frequency alternated between shuo1 and biao3shi4. The figures of TW were different from those of the others, with shuo1 dominating the other verbs, while decreasing in relative

103 This category will not be shown in the results.104 Partial and embedded quotations are not counted.105 Ding (2001) translated shuo1 into over ten English verbs including “mention”, “state” and “describe”, and classified the translation into four means, namely direct, extended, alternative and elliptical translation.106 Relative frequency is equal to the frequency of the verb divided by the total number of words.

222

Page 226: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

frequency.The trends of the relative frequency of the four near-synonyms within each place were then

investigated. In the seven years, the relative frequencies and the tendencies of shuo1 were similar among the three regions. Within the same period of time, the trend for biao3shi4 was diverging. Its relative frequency remained highest and increased over years in BJ data, but decreased and remained lowest in TW. Similar relative distributions were also seen in the data of zhi3chu1. For cheng1, large discrepancy was found, in which the figures of HK were often five times higher than those of TW and BJ.

In summary, from the distributions of the relative frequency, shuo1 exhibited greatest similarity among the three regions and cheng1 the least, and the trend of the four verbs differs in the three places.

3.2 Semantic and Syntactic Analysis

Totally 600 sample sentences were annotated. The figures are shown in Table 2 to Table 4107.

3.2.1 Summary of the Results

Table 2 shows the summary of the frequency distributions of the thematic roles among the four verbs, disregarding the sources of the corpus data. From the table, the general preference and restriction of the verbs were deduced.

shuo1 biao3shi4 zhi3chu1 cheng1 Total

AGENTName 23.48% 28.34% 26.32% 21.86% 100%

Pronominal 42.99% 22.43% 26.17% 8.41% 100%Inanimate 18.03% 3.28% 27.87% 50.82% 100%

Minorroles

GOAL 36.36% 54.55% 9.09% 0.00% 100%FREQUENCY 0.00% 50.00% 50.00% 0.00% 100%

TIME 18.87% 45.28% 17.92% 17.92% 100%LOCATION 0.00% 75.00% 25.00% 0.00% 100%

PATIENTQuotation 70.83% 10.42% 14.58% 4.17% 100%Sentence 21.91% 23.31% 28.29% 26.49% 100%

Reflexive 12.00% 56.00% 2.00% 30.00% 100%Table 2: Summary of thematic role distributions

Interestingly, in every region, the minor roles FREQUENCY and LOCATION were absent from the monosyllabic verbs shuo1 and cheng1, and all the four near-synonyms could take proper names as AGENT and full sentences as PATIENT. Pronominal and inanimate AGENTs were not preferred by cheng1 and biao3shi4 respectively. Similarly, zhi3chu1 and cheng1 did not take reflexives and quotations as PATIENT respectively.

3.2.2 Cross-regional Comparison

The frequency distributions of the thematic roles for the four verbs were compared across the three regions, and the resulting percentages are shown in Table 3. The distributional differences showed the regional variation on the verbs’ usage.

For shuo1, constraints and preferences on both AGENT and PATIENT generalized from HK texts differ from those deduced from TW and BJ data, but the usages of shuo1 are similar in the latter regions. In HK, inanimate AGENTs are rarely used, and quotations and reflexives are mostly preferred.

For biao3shi4, greatest restriction is found in TW as FREQUENCY and LOCATION are always absent. In contrast, all the minor roles are found in both BJ and HK, and therefore the restriction of biao3shi4 is relatively flexible in these two regions. For the major roles, pronominal AGENTs and reflexive PATIENTs dominate in BJ. On the other hand, inanimate subjects and proper names are mostly used for AGENT in TW. The preference on PATIENT is similar in HK and TW.

In general, no significant similarity on the usages of zhi3chu1 is found among various regions,

107 As EFFECTOR, THEME, INSTRUMENT, SOURCE and QUANTITY were not seen in the sample sentences, their frequencies are not shown in the tables.

223

Page 227: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

i.e. different complexities with similar extent are observed. Most inanimate AGENTs, and quotations and reflexives for PATIENT are found in BJ. For the minor roles, FREQUENCY and TIME are often seen in TW texts, whereas GOAL and LOCATION are only found in HK and BJ respectively.

For cheng1, strong preferences are seen in HK and TW as proper names and inanimate subjects are often taken as AGENT in these two places respectively. The fact that GOAL, FREQUENCY and LOCATION do not collocate with cheng1 in any region reflects the verb’s strong restriction. In short, the constraint on cheng1 is similarly high in the three places.

3.2.3 Cross-word Comparison

Table 4 shows the comparison of the four near-synonyms within each region. In HK, zhi3chu1 welcomes all kinds of AGENT. Pronominal and inanimate AGENTs often

collocate with shuo1 and cheng1 respectively, but seldom with biao3shi4. For the minor roles, GOAL comes with shuo1 most of the time, and the rest often come with biao3shi4. Discrepancy in the preference on PATIENT is observed in HK, such that shuo1, zhi3chu1 and biao3shi4 frequently collocate with quotations, sentences and reflexives correspondingly.

In TW, only TIME is frequently seen among all the four minor roles. For AGENT, pronominal and inanimate subjects are preferred by shuo1 and cheng1 respectively. For PATIENT, quotations often come with shuo1, and reflexives collocate only with biao3shi4 and cheng1.

From the BJ texts, surprisingly, the restriction on minor roles is the same for both the frequent shuo1 and the infrequent cheng1. On the other hand, biao3shi4 exhibited the least constraint as all the minor roles can collocate with it. For the major roles, biao3shi4 and cheng1 do not prefer inanimate and pronominal AGENTs respectively. For PATIENT, shuo1 and biao3shi4 prefer quotations and reflexives respectively.

4 DiscussionsDue to the nature of news reportage, the focus is more often on the content of the message than the speaker or other relevant information. The message content is best stored in direct quotations, and it will be highlighted when pronoun is serving as AGENT. The strong collocation tendency with quotations and the dominance of pronominal AGENTs can therefore accounts for the top ranking of shuo1 in the news texts.

The verb biao3shi4 is widely used in HK and BJ, sometimes even more than shuo1, as illustrated in Section 3.1. From the results of the semantic and syntactic analyses, biao3shi4 exhibited no constraint on minor roles in HK and BJ, and it only collocated with some of them in TW. The general high frequency of biao3shi4 is thus explained by its generally flexible usage. That this verb was used least in TW is probably because its usage is comparatively restricted in this region.

According to Section 3.1, biao3shi4 has higher frequency than zhi3chu1. As shown in Table 2, with respect to the capacity to collocate with minor roles, the usage of zhi3chu1 is as flexible as that of biao3shi4, although the former took on minor roles less often than the latter. This observation is therefore coherent with the claim of Liu, that semantically more restricted and marked verbs will have lower frequency than its more flexible counterpart.

As demonstrated in Section 3.2.2, significant regional variation was found on zhi3chu1 as there was inconsistency on its preference and restriction across the three regions. As a result, zhi3chu1 is worth further inspection of temporal and regional variation in linguistic convergence.

From Section 3.2.1, it was shown that the constraint of cheng1 is comparable to that of shuo1, with respect to the distributions of minor roles. These two verbs differ mainly on their preference on AGENT and PATIENT, where direct quotations and pronominal subjects do not frequently collocate with cheng1. However, the strong preference of the latter on inanimate AGENTs distinguished itself from the other three near-synonyms. In addition, with its monosyllabic characteristic, it is often seen in the headlines or subheadlines of the news texts. These characteristics keep cheng1 at a relative high position within all the reportage verbs. In addition, the restricted usage of these two monosyllabic verbs implied the relationship between a Chinese verb’s restriction and its word length.

In general, the restrictions of the four near-synonyms are identified. It was found that the constraints of shuo1 and cheng1 are similar with respect to the possession of the minor roles, and so

224

Page 228: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

are those of biao3shi4 and zhi3chu1. These groupings are coherent to the definition of HowNet, as mentioned in Section 1. However, this analysis has gone further to unveil the difference in preference within a synonym group, and most importantly in the Pan-Chinese context.

5 Conclusions and Future WorkIn conclusion, this research distinguishes four near-synonyms by disclosing their underlying preferences and restrictions through semantic and syntactic analysis. The regional variation of near-synonyms across three Chinese-speaking communities is unveiled. It was found that, across the three regions, the same verb can have distinctive usages.

Temporal variation on linguistic convergence, which is the study of the chronological change in the usage of a verb, will be the next step. The synonym pair biao3shi4 and zhi3chu1, given their apparent difference in preferences and restrictions, will be suitable for such an investigation.

In addition, all the semantic and syntactic knowledge denoted by the annotations will provide useful data on verb argument structures for benchmarking the competence of humans in the verb acquisition process. The results and the methodology adopted in this study will help modify Chinese lexico-semantic resources and capture the linguistic norms in different Chinese-speaking communities, and thus contribute to the construction of Chinese semantic networks and Pan-Chinese thesaurus.

AcknowledgementsThis work is supported by Competitive Earmark Research Grants (CERG) of the Research Grants Council of Hong Kong under grant Nos.CityU1233/01H and CityU1317/03H.

References Arppe, A. and Järvikivi, J. (2002) Verbal Synonymy in Practice: Combining Corpus-Based and Psycholinguistic

Evidence. In Proceedings of the Workshop on Quantitative Investigations in Linguistics (QITL-02), Osnabrück, Germany. http://www.cogsci.uni-osnabrueck.de/~qitl/

Chief, L.C., Huang, C.R., Chen, K.J., Tsai, M.C. and Chang, L. (1998) What Can Near Synonyms Tell Us. International Journal of Computational Linguistics and Chinese Language Processing, 5(1): 47-60.

Chinese Knowledge Information Processing Group (CKIP). (1993) The Most Frequent Verbs in Journal Chinese and Their Classification. Taiwan: Institute of Information Science, Academia Sinica.

Ding, X. (2001) English Translation of the Chinese verb “Say” or “Speak”. Journal of Shangqiu Teachers College, 17(5).

Dong, Z. (1999) HowNet. http://www.keenage.com.Gao, H and Cheng, C.C. (2003) Verbs of Contact by Impact in English and Their Equivalents in Mandarin

Chinese. Language and Linguistics, 4(3): 485-508.Liu. M.C. (2003) From Collocation to Event Information: The Case of Mandarin Verbs of Discussion. Language

and Linguistics, 4(3): 563-585.Roland, D. and Jurafsky, D. (1998) How Verb Subcategorization Frequencies Are Affected By Corpus Choice.

In Proceedings of the 17th International Conference on Computational Linguistics and the 36 th Annual Meeting of the Association for Computational Linguistics (COLING-ACL 1998), Montreal, Canada, pages 1117-1121.

Tsai, M.C., Huang, C.R., Chen, K.J. and Ahrens, K. (1998) Towards a Representation of Verbal Semantics – An Approach Based on Near-Synonyms. In Proceedings of the 10th Conference on Computational Linguistics and Speech Processing (ROCLING X), pages 34-48.

Tsou, B.K., Tsoi, W.F., Lai, T.B.Y., Hu, J. and Chan, S.W.K. (2000) LIVAC, A Chinese Synchronous Corpus, and Some Applications. In Proceedings of the International Conference on Chinese Language Computing (ICCLC), Chicago, pages 233-238.

225

Page 229: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

shuo1 (100%) biao3shi4 (100%) zhi3chu1 (100%) cheng1 (100%)HK TW BJ HK TW BJ HK TW BJ HK TW

Name 32.76% 34.48% 32.76% 28.57% 40.00% 31.43% 32.31% 29.23% 38.46% 40.74% 33.33%Pronominal 36.96% 26.09% 36.96% 12.50% 37.50% 50.00% 39.29% 21.43% 39.29% 11.11% 44.44%

Inanimate 9.09% 45.45% 45.45% 0.00% 100.00% 0.00% 17.65% 29.41% 52.94% 12.90% 64.52%GOAL 100.00% 0.00% 0.00% 16.67% 33.33% 50.00% 100.00% 0.00% 0.00% /

FREQUENCY / / / 50.00% 0.00% 50.00% 0.00% 100.00% 0.00% /TIME 30.00% 30.00% 40.00% 37.50% 31.25% 31.25% 10.53% 68.42% 21.05% 31.58% 26.32%

LOCATION / / / 66.67% 0.00% 33.33% 0.00% 0.00% 100.00% /Quotation 55.88% 23.53% 20.59% 60.00% 40.00% 0.00% 28.57% 14.29% 57.14% 100.00% 0.00%Sentence 23.64% 38.18% 38.18% 33.33% 35.90% 30.77% 33.80% 34.51% 31.69% 32.33% 33.83%

Reflexive 83.33% 0.00% 16.67% 28.57% 21.43% 50.00% 0.00% 0.00% 100.00% 33.33% 33.33%Table 3: Cross-regional frequency distributions of thematic roles for shuo1, biao3shi4, zhi3chu1, and cheng1

HK (100%) TW (100%) BJ (100%)shuo1 biao3shi4 zhi3chu1 cheng1 shuo1 biao3shi4 zhi3chu1 cheng1 shuo1 biao3shi4 zhi3chu1

Name 23.17% 24.39% 25.61% 26.83% 23.53% 32.94% 22.35% 21.18% 23.75% 27.50% 31.25%Pronominal 53.13% 9.38% 34.38% 3.13% 38.71% 29.03% 19.35% 12.90% 38.64% 27.27% 25.00%

Inanimate 12.50% 0.00% 37.50% 50.00% 15.63% 6.25% 15.63% 62.50% 23.81% 0.00% 42.86%GOAL 66.67% 16.67% 16.67% 0.00% 0.00% 100.00% 0.00% 0.00% 0.00% 100.00% 0.00%

FREQUENCY 0.00% 100.00% 0.00% 0.00% 0.00% 0.00% 100.00% 0.00% 0.00% 100.00% 0.00%TIME 18.75% 56.25% 6.25% 18.75% 15.38% 38.46% 33.33% 12.82% 22.86% 42.86% 11.43%

LOCATION 0.00% 100.00% 0.00% 0.00% / / / / 0.00% 50.00% 50.00%Quotation 73.08% 11.54% 7.69% 7.69% 72.73% 18.18% 9.09% 0.00% 63.64% 0.00% 36.36%Sentence 16.67% 25.00% 30.77% 27.56% 23.60% 23.60% 27.53% 25.28% 25.00% 21.43% 26.79%

Reflexive 27.78% 44.44% 0.00% 27.78% 0.00% 54.55% 0.00% 45.45% 4.76% 66.67% 4.76%Table 4: Cross-word frequency distributions of thematic roles in HK, BJ and TW

226

Page 230: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

The Usage and Perception of Judgement Termsin the Pan-Chinese Context

Oi Yee Kwong and Benjamin K. TsouLanguage Information Sciences Research Centre

City University of Hong KongTat Chee Avenue, Kowloon, Hong Kong

{rlolivia, rlbtsou}@cityu.edu.hk

Abstract This paper reports on a synchronous corpus-based study of the everyday usage of a set of Chinese judgement terms. An earlier study on Hong Kong data found that these terms were more polysemous than their English counterparts within the legal domain where they originate; and are even more fuzzily used in general news reportage. The current study further compares their usage in general texts from other Chinese-speaking communities (Beijing, Taiwan, and Singapore) to explore the regional differences in lexicalisation and perception of the relevant legal concepts. Corpus data revealed the distinctiveness of the Singapore data, and that the contrasting frequency distributions of the terms and senses could be a result of the varied focus in reportage or the use of alternative expressions for the same concepts in individual communities. The analysis will contribute to the construction and enrichment of Pan-Chinese lexico-semantic resources, which will be useful to many natural language processing applications such as machine translation.

1 IntroductionIn this paper, we discuss a synchronous corpus-based study of the everyday usage of a set of semantically related legal terms in news reports from various Chinese-speaking communities. These terms were shown to be close in meaning and easily confusable (Tsou & Kwong, 2003). Although the confusion might be insignificant to the perception of the general readers, the subtlety therein could bear significant conceptual difference in the stricter legal domain, which is far less tolerable of impreciseness and ambiguity. Tsou and Kwong (2003) have discussed that while the legal system in Hong Kong has operated through English solely for more than 150 years, the difference in cross-lingual lexicalisation of legal concepts between English and Chinese has become a substantial linguistic hurdle in the implementation of legal bilingualism since the 90’s. It was observed, from a corpus of bilingual court judgments and a general corpus of news articles from Hong Kong, that the set of Chinese legal terms under investigation was considerably polysemous. They also identified sets of near-synonyms among the observed senses of the various Chinese legal terms, and attempted to arrange them in terms of their semantic relatedness into a verb hierarchy and a noun hierarchy, in a similar manner as in WordNet (Miller et al., 1990).

The current work aims at expanding on the above study, to further explore and analyse the different usages and finely grained senses of the same set of Chinese legal terms, but among news texts from various Chinese-speaking communities including Hong Kong, Beijing, Taiwan, and Singapore. From the usages of these terms as manifested in the corpus texts from different communities, we look for any local differences in the lexicalisation and thus the perception of the corresponding legal concepts, which might be a result of the differences in social structure or legal system.

Efforts have been made by researchers in lexical semantics on the study of semantic relations among Chinese lexical items, with a view toward organising the lexical items into semantic networks.

227

Page 231: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Gao (2001), for example, proposed a quantitative measure for the closeness and differentiation of near-synonyms among verbs denoting physical actions from a range of lexical semantic features. Cheng (2001) discussed the differentiation of related words from their individual focus and orientation. Nevertheless, work on lexical semantics and corpus-based lexicography often only drew reference from one particular corpus. Huang et al. (2000) worked on verbal semantics and near-synonyms, but of Mandarin Chinese as used in Taiwan only. Tongyici Cilin ( 梅等 , 1984) is based exclusively on Chinese as used in post-1949 Mainland. However, linguistic variation is significant and especially salient for Chinese language used in different communities (Tsou et al., 2004). Our corpus-based, Pan-Chinese approach, initiated with a set of domain-specific lexical items, thus has an additional advantage for its indigenousness, portability and versatility. Such a Pan-Chinese lexical resource, when done in large scale, would contribute to natural language processing applications like machine translation and would make a rich reference for legal and paralegal professionals, and more importantly, the resource would capture the linguistic norms from more than one Chinese-speaking community.

In Section 2, we first briefly review the polysemy of legal terms and the complexity manifested in the translation of legal terms from English to Chinese. Then in Section 3, we present the approach and the corpus analysis done in the current study. Results are discussed in Section 4, and we will conclude with future directions in Section 5.

2 Polysemy of Legal TermsTsou and Kwong (2003) started with a set of Chinese legal terms, all with senses related to “judgement”108 or “the action of judging” in the legal context, to study how the preciseness of legal concepts lexicalised in English is captured in their Chinese translations as shown in bilingual court judgments, and how the preciseness of the latter is in turn preserved in a general corpus. The set of “judgement” terms includes “裁定” (hold, convicted), “裁決” (determine, verdict), “判決” (judgement, conviction), “裁斷” (find, finding), and “裁判” (Magistracy)109. They observed that in Hong Kong, despite the implementation of legal bilingualism for several years, legal concepts are not as precisely lexicalised in Chinese as in English. The fuzziness is carried over from legal contexts as in court judgments to informal contexts as in news reports. For instance, “裁決” has been identified as the translation equivalent for “decision”, “verdict”, and “award” in a bilingual corpus of court judgments. Similarly, the word “decision” has been rendered as “裁定”, “決定”, “裁決”, and “判決”, among many possibilities. Such a complex correspondence (as shown in Fig. 1) between English and Chinese legal terms can be explained by the fact that English is much more maturely used in the Common Law system in Hong Kong. Many legal concepts are thus lexicalised and can be precisely expressed in English, whereas this preciseness is greatly weakened when terms are translated to Chinese.

108 An explicit distinction between the use of “judgment” and “judgement” is drawn here, as the inclusion or omission of the “e” is not arbitrary. “Judgment” refers specifically to the concluding writing upon a court trial, while “judgement” refers to the action of judging in general.109 The English terms are the more common translations of the corresponding Chinese terms as observed from Hong Kong court judgments, included here for reference only and are not necessarily the absolute or correct translations per se.

determine

decision

hold

verdict

award

find

裁定判決裁決裁斷

228

Page 232: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Fig. 1 Example of Multiple Renditions between English and Chinese Legal Terms

Despite the complexity of multiple renditions, the morphemic structure of the individual Chinese terms might nevertheless indicate a core sense of the term, and thus suggest the focus of the relevant concept. For example, sharing an identical morpheme “裁” (to judge), the words “裁定”, “裁決” and “裁斷” could be differentiated by their second morphemes, which focus on “conclusion”, “decision”, and “inference” respectively. This distinction is similar to Cheng’s (2001) discussion of word families where similar and related words could be differentiated by their individual focus and orientation, or meaning facet.

In the current study, we are interested to see if the same kind of polysemy appears in the usage of the same legal terms among different Chinese-speaking communities. It is hypothesised that we may not find exactly the same usage of the same terms among the various communities, as the different social structures and legal systems among them might lead to different perception of the corresponding legal concepts and the same concepts may not be equally salient for people in different communities. We will probe, from authentic corpus data, the perception of the various legal concepts by different communities, and see how the salience of “judgement” is reflected in the language used in different places; and if they do not use the terms in the same way, what words alternative to those investigated here are used to express similar concepts.

3 A Synchronous Corpus-Based Study3.1 MaterialsIn this study, we further analyse three terms (called “target words” hereafter) which Tsou and Kwong (2003) studied, namely “裁定” (hold, convicted), “裁決” (determine, verdict), and “判決” (judgement, conviction). We leave out “裁斷” (find, finding), as it was only found in the bilingual court judgment corpus but not at all in the general corpus (LIVAC, as introduced below), and “裁判” (Magistracy), as it mostly referred to the sense of “umpire” or “adjudication in a contest” when used in the general corpus.

Sentential contexts for the target words were extracted from a subset of the LIVAC corpus (Tsou et al., 2000). LIVAC (http://www.livac.org) is a synchronous corpus developed by the Language Information Sciences Research Centre of the City University of Hong Kong. The corpus contains mostly newspaper articles collected synchronously and regularly from six Chinese speech communities. The subset we use in the current study consists of texts from Hong Kong (HK), Beijing (BJ), Taiwan (TW) and Singapore (SG), covering local news, international news, sports news, entertainment news, and financial news, collected over the same period of time (for two years, 1997-98 and 2002-03). Each sub-corpus, i.e. texts from each of the four places, contains about 5M Chinese characters, which yields about 3M words upon segmentation.

3.2 The AnalysisFor each target word, 30 samples of their sentential contexts (where there is sufficient data) were randomly selected from each sub-corpus, and assigned a sense from the sense inventory as in Tsou and Kwong (2003) where appropriate. New senses were recorded when found. Upon sense tagging, the samples from the various sub-corpora were further analysed with respect to the sense distribution for each word in each community, and the similarity and difference of such distributions across the various communities. Again, the assignment of senses takes into account the collocation patterns of the different senses and subcategorisation patterns of the verbal usages where applicable. In addition, bi-syllabic words containing the

229

Page 233: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

morphemes “裁”, “定”, “決” or “判” were retrieved from the sub-corpora. The retrieved words and their relative frequency were studied, to disclose any perceptual difference of the related legal concepts and any alternative expressions of such concepts by the different communities.

4 Results and Discussion4.1 Relative Frequency DistributionThe frequency of the target words from the various sub-corpora is shown in Table 1. The relatively low frequency of all the target words in BJ data is most notable. The small numbers readily indicate that court news does not enjoy as much attention in Beijing newspapers as in other places.

Word HK BJ TW SG

裁定 122 38 80 19

裁決 142 32 54 139

判決 160 66 210 341

Table 1 Frequency of the Target Words in the Sub-corpora

Just comparing the absolute frequencies, “判決” ranked highest across the board. Its relative frequency is especially high for TW and SG. In the most dramatic case of SG data, there are 341 occurrences of “判決” but only 19 occurrences of “裁定”. This is very different from, for example, HK data where the relative frequency of “判決” and “裁定” differs less than 10%. To a certain extent, this difference in relative frequency suggests the variation of focus in the reportage of the two communities, assuming their use of the words is not arbitrary. According to many legal dictionaries (e.g. 《法學詞典》編輯委員會, 1985; 劉清景, 2001), “判決” and “裁定” refer to different aspects of the ruling of a court. In particular, “判決” is often associated with the final determination on the main issue in a trial, whereas “裁定” usually refers to other factual disputes during the trial.

4.2 Sense DistributionSample sentences of the target words from BJ, TW and SG data were examined and each occurrence of the words was assigned a sense with reference to the sense set defined in Tsou and Kwong (2003). The sense distributions were compared to those reported for Hong Kong data in the same study. The results are tabulated in Tables 2 to 4 for “裁定”, “裁決” and “判決” respectively (the number in brackets next to each place refers to the number of samples checked and all figures reported are percentages). The second and third columns refer to data gathered from a bilingual corpus of Hong Kong court judgments and a subset of the current HK data from LIVAC respectively as reported in the earlier study. In this subsection we focus on the sense distribution with respect to individual words, and in the next we will further explore the regional difference observed.

4.2.1裁定“裁定” was earlier distinguished into four verb senses and two noun senses. No new sense was found from the data in the current study. The dominance of its verb usages is observed in all places except BJ. Over 70% of the samples for BJ were assigned sense 6 (as in “作出終審裁定”, “阻礙判決、裁定的執行”, “維持原判的裁定”, etc.). This is an enormous contrast not only with other places but also with data from the legal domain. There is also a dramatic contrast from SG data where no nominal usages

230

Page 234: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

were found at all for “裁定”. This may be a consequence of the small number of SG samples but is more likely a genuine difference in the usage of the word, as we will further discuss below. Another interesting observation is that in the legal corpus, “裁定” is seldom used to state the order given by the court (sense 3) and the BJ data were more or less in line with this. However, over 25% of the samples from HK, TW and SG fall under sense 3. This thus raises interesting questions regarding the saliency of the concepts for individual places.

Sense and Example Legal (30) HK (30) BJ (30) TW (30) SG (19)1. [v.] the court decides on the outcome of a case

e.g. 法庭裁定…罪名成立。 43.33 43.33 3.33 16.67 31.60

2. [v.] the court resolves an issue in a casee.g. 法官裁定所提出的要求沒有得到滿意答覆。 36.67 20.00 6.67 30.00 26.30

3. [v.] the court gives an ordere.g. 法官裁定港府要即時釋放他們。 3.33 26.67 6.67 26.67 42.10

4. [v.] to judge on some issue to resolve disputee.g. 法庭需要裁定臨立會的合法性。 0.00 6.67 0.00 3.33 0.00

5. [n.] the resolution of an issue of disputee.g. …裁定回覆不能令人滿意。本席認為上述裁定正確無誤。 10.00 0.00 6.67 6.67 0.00

6. [n.] the decision on the outcome of a casee.g. 我認為暫委法官的裁定是正確的。 6.67 3.33 76.67 16.67 0.00

Table 2 Sense distribution of “裁定”

4.2.2裁決Sense tagging is notorious for its difficulty as the meaning in the new occurrence of a word is not always so clear-cut that a pre-defined sense could be unambiguously assigned to it. In this regard the tagging for “裁決” remained most difficult and confusing. The difficulty may be largely attributed to its relatively general meaning. For example, according to the hierarchies suggested in Tsou and Kwong (2003), the verb sense 裁決/1 and the noun sense 裁決/5 are the top nodes110 in their respective hierarchy. Having the most general sense amongst others, it means that the word can be used in a relatively wide variety of contexts. When it comes to general news reports, they are not necessarily the correct and legitimate contexts. This is evident in two respects from Table 3.

Sense and Example Legal (30) HK (30) BJ (25) TW (30) SG (30)

1. [v.] the court makes a decision based on evidencee.g. 若有法律觀點分歧,最終交由法庭裁決。 16.67 6.67 0.00 23.33† 33.33

2. [v.] the court decides on the outcome/sentence/etc.e.g. 法官裁決…把謀殺罪減為誤殺罪… 0.00 3.33 0.00 23.33 20.00

3. [n.] the court’s decision on the outcome of a casee.g. 陪審團達至誤殺的裁決。 30.00 6.67 20.00 13.33 0.00

4. [n.] the court’s decision on monetary compensatione.g. …拒絕執行公約裁決… 23.33 0.00 0.00 0.00 3.33

5. [n.] the court’s decision on a case and orderse.g. …會就法院上月底裁定港府要釋放十名越南人的裁決上訴。 16.67 53.33 40.00† 30.00 23.33

6. [n.] the resolution of an issuee.g. …關於證據接納性的裁決… 13.33 20.00 40.00† 0.00 0.00

7. [n.] religious orders, etc.e.g. …聽命於這類宗教裁決… 0.00 10.00 0.00 0.00 0.00

*8. [v.] the court decides on the outcome of a case {裁定/1, 判決/1} 3.33 10.00

110 For the verb hierarchy, {裁決/1} subsumes {裁定/1, 判決/1}, {裁定/2, 判決/2}, {裁定/3, 裁決/2, 判決/3}, while {裁定/2, 判決/2} further subsumes {裁定/4}. For the noun hierarchy, {裁決/5, 判決/4} subsumes {裁定/6, 裁決/3}, {裁定/5, 裁決/6}, {裁決/4}, while {裁定/6, 裁決/3} further subsumes {判決/5}. Senses within curly brackets belong to the same synonym set. (Tsou & Kwong, 2003)

231

Page 235: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

e.g. 法官路易斯迪蘇沙裁決他的罪名成立。*9. [v.] the court resolves an issue in a case {裁定/2, 判決/2}

e.g. …裁決搭客沒有起訴保險公司的權利。 6.67

*10. [v.] to judge on some issue to resolve dispute {裁定/4}

e.g. 三司必須裁決的只是關係到公眾利益的法律問題。 3.33

*11. [v.] the action of judging by referee in sports eventse.g. …但二壘審竟判定外野手是接殺,然後訴請裁決… 6.67

Table 3 Sense distribution of “裁決”

First, the use of “裁決” is almost abused in the SG data. Senses 8 to 10 in Table 3 were unexpectedly found from SG. Their low relative frequency and their absence from other regions suggest that these senses might more appropriately and specifically be replaced by the relevant senses of “裁定” and “判決” instead, as the examples for these senses in Table 3 do sound slightly unnatural. Second, the loose restriction on “裁決” is also reflected from the BJ and TW data (marked with † in Table 3) as it is often used to refer to the decisions (or the action of making decisions) from non-judiciary units (e.g. “完全由行政機關裁決” – TW, “世貿組織曾做出裁決” – BJ, etc.). Apart from that, an additional sense for “裁決” relating to referee’s judgement (sense 11) was found from the data; while sense 4 (decision on monetary compensation) is so domain-specific and technical that it is rarely found outside the legal documents.

4.2.3判決As seen from Table 4, all regions show a similar sense distribution for “判決”, where senses 4 and 1 are the major senses. Sense 5 (i.e. conviction) is specific enough to appear only in the legal texts. Additional uses referring to referee’s judgment in sports events were observed from TW and SG data.

Sense and Example Legal (30) HK (30) BJ (30) TW (30) SG (30)1. [v.] the court decides on the outcome of a case

e.g. 本席判決上訴得直。 13.33 20.00 20.00 36.67 16.67

2. [v.] the court resolves an issue in a casee.g. 上訴法院判決受託人有權提出呈請。 3.33 6.67 0.00 0.00 3.33

3. [v.] the court gives an order or sentencee.g. 國際法庭未被授權判決罪犯死刑。 0.00 6.67 3.33 3.33 0.00

4. [n.] the decisions made by court, and related orderse.g. …一宗上訴案的判決… 56.67 66.67 76.67 53.33 70.00

5. [n.] conviction, the judgment of being guiltye.g. 以上是二項罪名定罪判決的立場。 26.67 0.00 0.00 3.33 0.00

*6. [v.] the action of judging by referee in sports eventse.g. 眾多裁判判決爭議的確曾阻擾比賽。 3.33

*7. [n.] the judgement of referee in sports eventse.g. …因為不滿裁判的一個判決而摔球拍… 10.00

Table 4 Sense distribution of “判決”

4.3 Regional Variation

An obvious difference among the three target words is that verb uses tend to dominate for “裁定”111 whereas “裁決” and “判決” are more used as nouns. However, from Table 2, it can be seen that BJ has a lot more nominal usages (sense 6) of “裁定”. This observation is nevertheless in line with the

111 In particular, sense 1 and sense 6 of “裁定” both refer to the same meaning but differ in syntactic category.

232

Page 236: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

findings in Kwong and Tsou (2003) on verb-noun categorial fluidity in Chinese, where texts from BJ were shown to have about 18% of the verbs undergoing the verb-noun shift, compared to about 15% for TW and HK data. Hence this linguistic phenomenon might account for the dominance of sense 6 of “裁定” in BJ data.

There remain some interesting questions regarding the difference in sense distribution across the various regions:

1. Table 2 shows that “裁定” is mostly used in SG to state the order given by the court, i.e. sense 3. Does this tell us anything about the salience of court orders in SG reportage?

2. Table 2 also shows that “裁定” is least used in sense 3 in BJ, compared to other places. The frequency of its synonymous senses 裁決/2 and 判決/3 is also extremely low in BJ data. So is the concept missing or alternatively expressed?

3. 裁決/3 is absent from SG data, and so is its synonym 裁定/6. Do SG news reports not care about verdicts? Otherwise where have they absorbed the concept with other expressions?

The difference in sense distribution across various regions is on the one hand a result of the different linguistic norms and styles of language use, as exhibited by the dominance of nominal usages in BJ. Hence even though BJ does not use 裁定/3 or its synonyms, the relevant concepts might have been expressed via nominal uses such as 判決/4. On the other hand, it could reflect the varied approaches and perception by different communities regarding the judgemental concepts. For instance, these concepts are apparently less salient in BJ contexts given the relatively low frequency of the target words in BJ data. Moreover, since SG is found to use 裁定/3 heavily but not 裁決/3, it suggests that SG news tends to treat the conclusion (verdict) and the consequence (sentence and order) as a whole. Meanwhile, a preliminary survey of the words mined from the seed morpheme “判” reveals that words like “判刑”, “判監”, “判罰”, “判囚” and “判處” (all related to sentencing) are relatively more abundant in HK or TW than in SG, suggesting that HK and TW tend to distinguish between the verdict and the sentence more clearly. The use of these words and their relations with the target words calls for further investigation.

5 ConclusionThus in this study we have further analysed the usage and sense distribution of a set of closely related legal terms pertaining judgement in the Pan-Chinese context. Linguistic data reveals the variation in salience of these concepts in various Chinese-speaking communities and the distinctiveness of the SG data. Based on the subtleties among various uses, we have further probed the salience of these concepts in the various communities, which might be a result of the difference in legal system. For instance, the use of the target words in HK and SG might be more influenced by translation from English legal terms than in BJ and TW. Alternatives for expressing similar and related legal concepts should be further explored and the study should be expanded with other sets of closely related legal terms.

As mentioned in the beginning of this paper, the subtle differences among the target words may be insignificant for the general readers. However, when it comes to high quality translation, especially translations which bear legal implications, the preciseness therein will definitely be indispensable. Hence our analysis and study on the use of legal terms in various Chinese-speaking communities will provide useful information for the construction of a Pan-Chinese legal term lexical resource as we witness the growing maturity of the Chinese language in the legal domain. Such an enriched lexical resource should be useful to legal and paralegal professionals, and for legal document translation between English and Chinese, by machine or by human, as well as for many other natural language processing tasks.

233

Page 237: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

AcknowledgementsThis work is supported by Competitive Earmarked Research Grants (CERG) of the Research Grants Council of Hong Kong under grant Nos. CityU1233/01H and CityU1317/03H.

References Cheng, C.C. (2001) 論同義詞的語意輕重與側重 . Presented at the Second Workshop on Chinese Lexical Semantics,

Peking University, Beijing, China. Gao, H. (2001) A Specification System for Measuring Relationship among Near-synonyms of Physical Action Verbs.

Presented at the Second Workshop on Chinese Lexical Semantics, Peking University, Beijing, China.Huang, C-R., Ahrens, K., Chang, L-L., Chen, K-J., Liu, M-C. and Tsai, M-C. (2000) The Module-Attribute Representation

of Verbal Semantics: From Semantics to Argument Structure. Computational Linguistics and Chinese Language Processing, 5(1): 19-46.

Kwong, O.Y. and Tsou, B.K. (2003) A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese. In Proceedings of the 17th Pacific Asia Conference on Language, Information and Computation (PACLIC 17), Singapore, pp. 194-203.

Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K.J. (1990) Introduction to WordNet: An on-line lexical database. International Journal of Lexicography, 3(4): 235-244.

Tsou, B.K. and Kwong, O.Y. (2003) When Laws Get Common: Comparing the Use of Legal Terms in Two Corpora. Language and Linguistics, 4(3): 609-629.

Tsou, B.K., Lai, T.B.Y. and Chow, K. (2004) Comparing Entropies within the Chinese Language. In Proceedings of the First International Joint Conference on Natural Language Processing (IJCNLP-04), Sanya, Hainan, pp. 475-481.

Tsou, B.K., Tsoi, W.F., Lai, T.B.Y., Hu, J. and Chan, S.W.K. (2000) LIVAC, A Chinese Synchronous Corpus, and Some Applications. In Proceedings of the ICCLC International Conference on Chinese Language Computing, Chicago, pp. 233-238.《法學詞典》編輯委員會 (1985) 《法學詞典(增訂版)》 上海辭書出版社

劉清景 (2001) 《新編法律大詞典》 學知出版事業股份有限公司梅家駒、竺一鳴、高蘊琦、殷鴻翔 (1984) 《同義詞詞林》 商務印書館/上海辭書出版社.

234

Page 238: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

漢語詞語與詞素之正負面:三地褒貶詞語初探袁偉文 蔡永富 鄒嘉彥

香港城市大學語言資訊科學研究中心香港九龍塘達之路

{wmyuen, rlwftsoi, rlbtsou}@cityu.edu.hk

Abstract

詞素(morphemes)是語言的最小意義單位,而漢語中的詞素不單可構詞,很多時更可獨立成詞。因此可以假設,在短語凝固成詞語的過程中,詞素的意義或構詞方法很多時都得以保留,那麼褒貶詞語也有可能承襲了詞素的原始褒貶色彩。本文利用LIVAC共時語料庫和「視窗研究方法」,嘗試分析貶詞素在香港、北京和台灣衍生詞語的情況,從而推論其衍生的詞語會否承襲原來的色彩。

1 引言詞素(morphemes)是語言的最小意義單位。漢語的詞素多為單音節(或單字),多音節詞素只屬少數,且多為外來語,例如「葡萄」、「咖啡」。另一方面,現代漢語中雙音節詞語佔很大比重,而這些詞語很多時是由常用短語固定下來所得(董秀芳 2002),換言之,組成這些詞語的單音節詞素往往可獨立成詞,這也與古代漢語多使用單音節詞語有關。因此可以假設,在短語凝固成詞語的過程中,詞素的意義或構詞方法很多時都得以保留。

無論甚麼語言,部分詞語都可按其意義分為正面(褒詞)和負面(貶詞),例如「美麗」、「誠實」是正面,「醜惡」、「虛偽」是負面。按以上的假設推斷,詞語由詞素組成,而詞素來身又是單詞,那麼褒貶詞很有可能承襲了詞素的原始正負色彩。

本文嘗試分析貶詞素在香港、北京和台灣衍生詞語的情況,從而推論其衍生的詞語會否承襲原來的色彩。藉龐大語料庫之助,我們將以統計方法計算出詞素的正負面概率,繼而抽取合適的詞素,並借用 LIVAC共時語料庫和「視窗研究方法」,抽取香港、北京和台北的語料,研究詞素衍生的詞語在三地的正負色彩,從而推斷詞素的正負面在詞語中承襲的可能。本文將先集中討論負面詞素。2 正負面的決定準則「褒」和「貶」一般涉及讚許或批評,屬評注性範疇(evaluation),例如「誠實」、「虛偽」是用來評價人的性格。不過,有很多詞語給人好或壞的感覺,卻不屬評注性,例如「那人生病了」是描述事實而非評注,「癌症」是個沒有評注性的名詞,可是我們卻會承認「生病」和「癌症」不是好的東西。

由於本文探討的並不限於評注性詞語,所以我們採用「正面」和「負面」來代

235

Page 239: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

替「褒」和「貶」,並借用「語義偏向」(Semantic Orientation, Lehrer, 1974)來介定正負面。所謂正面詞就是「己所欲者」(Desirable),負面詞就是「己所不欲者」(undesirable)(Hatzivassiloglou and McKeown, 1997; Hatzivassiloglou and Wiebe, 2000),所以「快樂」、「利潤」是正面詞,「癌症」、「痛苦」是負面詞,即使他們不屬評注性的「褒貶」。當然,有些事物很難介定正負面,且是主觀或相對的,例如「下雨」,有人喜歡,有人不喜歡,甚至是有時喜歡,有時不喜歡,很難有定論。為方便起見,這類詞語我們暫時歸為中性。3 詞素的選取選取詞素前,我們參考了兩本褒貶義詞語詞典(郭先珍等 1999,王國璋等 2001)。兩本詞典合共收錄了 629個正面詞和 721個負面詞。將 721個負面詞分拆為單字,從而抽取頻率高的單字,再經人手判斷,把帶有負面意思的單字抽出。我們也會聯想那些詞語的近義詞,主觀選取部分負面詞素。至於判斷準則,仍然以上述的「語義偏向」為基礎,看一個詞的意義是「己所欲」還是「己所不欲」,如果兩者間難以判定,則暫時歸為中性。最後我們共篩選出 595個負面詞素。

詞素的負面意義概率,可藉其引申的詞種(word types)的正負面反映。我們抽取的既然是負面詞素,那麼理論上由其引申的詞語必以負面為多。可是,如果詞語在日常生活中甚少使用,不為社會認識,便欠缺代表性。因此,我們使用 LIVAC共時語料庫(鄒嘉彥 1998,http://www.livac.org)來抽取包含

負面詞素的詞語。LIVAC語料庫定期收集九個華語地區的新聞語料,包括香港、北京、台北、新加坡,至今九年共收錄了超過一億個詞標(tokens)。因為該語料庫共時收錄新聞語料,故可提供緊貼社會的語料,並取得詞語在各地的使用頻率。我們從 LIVAC語料庫的五年資料中,抽取負面詞素在九地媒體所衍生的詞種。由於詞種眾多,我們只抽取最高頻的首 50個詞種,但不包括人名、地名等專有名詞。所抽取的詞種再經人手以「語義偏向」為準則標類為「負面」或「其他」(即正面或中性),再從其頻率計算出「負面概率」。為提高代表性,如果一個詞素引申的首 50個高頻詞種,仍不及其全部詞種的八成,我們在下面的研究便暫時擱置該詞素。表一列出詞素負面概率的分布情況。3.1 詞素的再選取我們從 595個詞素中,抽取其負面概率高於 0.5的詞素,作三地詞語比較,最後共得449個詞素。我們使用「視窗研究方法」來比較帶負面詞素的詞種在三地的異同。我們在 LIVAC語料庫的三年資料中(共 1,700 萬個詞標),「開啟」了三個「視窗」,即2000年至 2002年的「香港」、「北京」和「台北」,從而抽取包含該 449個詞素的詞種,最多仍為高頻的首 50個,最後共得 14,835個詞種。3.2 詞種在三地的分布表二列出所抽取的詞種在三地的分布情況。我們可以看到,449個詞素衍生的眾多詞語

236

Page 240: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

中,只有 23.86%屬三地常用,而超過一半(57.48%)的詞語屬一地常用。詞種數目太多,不易逐一檢視。我們嘗試引入兩個參考指標,一個是「詞頻指

標」,另一個是「詞類指標」。「詞頻指標」是以各地獨有詞種的詞頻為參考,即抽出各地獨有詞種中最高頻

的 50個,從而觀察各地負面詞的普遍現象。我們只考慮各地獨有的詞種,而捨卻三地共用的詞種,是因為三地共用又常用的詞語很少有意義的異變,其研究價值在於社會

語言學多於語義學。例如「受傷」一詞在香港用得最多,表示香港社會較關注如意外、災難等突發新聞,而不表示「受傷」一詞在三地有各自不同的意思。

「詞類指標」是利用詞素衍生的詞種總數作為指標,幫助我們檢視詞素在三地構詞時的個別現象。我們首先計算詞數在三地所衍生的詞種總數,理論上最多為 150個(每地最多 50個),但實際上是不可能的,因為某些詞種必定為各地共用。繼而我們個別計算出每個地區所得詞種佔全部詞種的百分比,即把各地所得詞種數目,除以三地所得詞種總數。理論上,如果三地詞種總和高,而三地的詞種百分比卻同樣低,便表示各地的詞種有很大差別。所以,我們的選取準則是:如果某詞素在三地衍生的詞種數目加起來超過 50,而三地詞種百分比的平均值低於 60%,那麼該詞素便給選取,以分析其衍生的詞語在三地的異同。表三列出其中幾個例子。

詞種數目 詞種百分比詞素 三地詞數總和 香港 北京 台灣 香港 北京 台灣 百分比平均值

1 硬 91 50 50 49 54.95%

54.95%

53.85% 54.58%

2 困 89 49 50 44 55.06%

56.18%

49.44% 53.56%

3 荒 86 49 49 41 56.98%

56.98%

47.67% 53.88%

4 狂 85 49 38 50 57.65%

44.71%

58.82% 53.73%

表三:詞素在三地衍生的詞種數目數據(部分例子)

負面概率 詞素數目 百分比0.81-1 375 63.03%

0.61-0.8 68 11.43%

0.41-0.6 47 7.90%

0.21-0.4 53 8.91%

0 - 0.2 52 8.74%

Total 595 100.00%

表一:詞素負面概率的分布情況

地區數目 地區 詞種數目 百分比3 香港、北京和台灣 3540 23.86%

2香港和北京香港和台灣北京和台灣

7001412656

4.72%9.52%4.42%

小計 2768 18.66%

1香港獨有北京獨有台灣獨有

359023902548

24.20%16.11%17.17%

小計 8528 57.48%總數 14836 100.00%

表二:貶詞種衍生的詞種在三地的分布情況

237

Page 241: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

4 三地獨有的高頻詞比較三地獨有的高頻詞,各有特點。以下我們分別從「音節」、「正面」、「負面」和「中性」等性質來觀察各地獨有詞種的普遍特色。表四是各地對這四個性質的統計。

香港 北京 台灣雙音節 三音節 四音節 總計 雙音節 三音節 四音節 總計 雙音節 三音節 四音節 總計

正面 3 0 0 3 5 3 11 19 2 0 2 4負面 29 3 0 32 9 8 2 19 14 10 1 25中性 15 0 0 15 8 4 0 12 13 8 0 21總計 47 3 0 50 22 15 13 50 29 18 3 50表四:三地獨有詞語的性質比較4.1 音節與正負面香港的雙音節詞種共有 47個,壓倒性地佔多,四字詞一個也沒有。與香港相似,台灣只有 3個四字詞,反而三音節詞比兩地多(18個)。北京則相反,雙音節詞只有 22個,四字詞有 13個之多。

值得注意的是,沒有四字詞是中性的。這可能因為詞語當中用字(詞)越多,對語義的限制相對更大,所以如果一個四字或以上的詞語用上了正負面詞素,很多時都附有正負面意思 (專名除外),而且這種正負面是用作評注的褒貶。事實上,四字成語是漢語一個獨特的修辭法,幾乎所有四字成語都可用作褒揚或貶抑,而四字詞看來也有相類似的色彩。4.2 負面詞素構成的中性詞負面詞素構成中性詞,往往因為該詞素屬同形異義(homonym),即詞素有至少兩個互不相干的解釋。例如「差」除了解作「差劣」(bad)外,還有「相差」(difference)、「差事」(affairs)等意思。「差」更有形成準詞綴的趨勢,放在詞尾表示某事物的「相差程度」,例如香港的「息差」,台灣的「正價差」、「逆價差」、「勝差」。香港「食肆」這個詞種也有類似情況。「肆」除了解作「大肆」外,也可解作「市集貿易的地方、店舖」。「食肆」就是所有與飲食有關的商舖的總稱。

「險」有很強烈的負面色彩,常與其他詞素結合,構成帶有「危險」意思的詞,例如「險境」、「驚險」、「風險」,香港更有「好險」、「險過剃頭」等俚語。不過,隨著金融保險業的興盛,「險」漸漸成為「保險」的縮略語,甚至成為準詞綴,形成「壽險」(人壽保險)、「水險」(水災保險)、「產險」(台獨有,即房地產保險)等新詞。這與「股」隨著股市發展產生大量「股」詞的情況相似,例如「二手股」、「垃圾股」、「強勢股」(賀國偉,2003) 。

不少動詞被歸為中性,但並不表示它們沒有正負面,而是動詞所描述的情況發生時,必然同時涉及正面和負面。「力壓」(港)、「完封」(台)都有「在比賽中擊倒對手」的意思,且為二價動詞,即必然涉及主語和賓語。對主語來說,能把對手「壓

238

Page 242: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

倒」或「完封」,自然是件好事,但對賓語便表示落敗,並非好事。我們暫時把這類詞歸於中性,只為方便,事實上這些詞有明顯的正負面色彩。

另一個相似的情況是香港獨有的「封路」和「解封」。香港地少人多,不少節日都有大批市民出外慶祝,於是當局便要實施「封路」,待人群散去便「解封」。「封路」對開車的人來說未必是好事,但對大批市民來說是件方便的事,「解封」時情況則相反。這類詞的正負面往往取決於觀點與角度,甚至受制於當時情況,或者將這些詞語當作事件的客觀描述會更為恰當。

除同形異義詞和動詞外,其他中性詞種則多為一般名詞,是對客觀世界的描述,例如香港的「病歷」、「波幅」、「手扣」;北京的「黑匣子」(飛行記錄儀)、「凍土」(青藏高原的寒冷土地)、擊劍(即劍擊);台灣的「撞球」(桌球)、「波段」、「捕手」(捧球的比賽位置)。這顯示詞素的正負面色彩在名詞中很多時沒有凸顯。4.3 負面詞素構成的負面詞香港獨有的負面詞種有 32個,當中只有「泄」這個詞素衍生了三個詞種,其他詞素最多只衍生出兩個詞種,分布十分平均。不過「泄」衍生的「泄漏」、「泄露」、「外泄」其實並非香港獨用,只是「泄」這個字獨是香港使用,京台都用「洩」而不用「泄」。這應與個別媒體的用字規範有關,並不代表香港只懂「泄」而不知「洩」。

與「泄」、「洩」的情況相似,台灣媒體同時使用「砲轟」(44次)和「炮轟」(11次);香港只有「炮轟」沒有「砲轟」,北京則沒有使用過這個詞。

台灣獨有的負面詞種有 25個,當中有 6個由「敗」衍生,包括「二連敗」、「三連敗」、「四連敗」、「敗投」、「敗部」和「敗戰」,全都與棒球賽事有關,這顯示詞素「敗」已成為捧球活動用語的特有詞素,從而可衍生更多新詞。

跟台灣的「敗」相似,由於大陸面對農村貧困的問題,故出現不少含有「困」字的詞種,負面的有「特困戶」、「困難戶」、「貧困村」;中性的有「貧困線」;正面的有「扶貧濟困」、「扶貧幫困」。

北京獨有的負面詞種中,有些只是命名有異,而非中國大陸獨有的事物,例如「艾滋病」(愛滋病)、「赤潮」(紅潮)、瘋牛病(瘋牛症、狂牛症)等。4.4 負面詞素構成的正面詞香港獨有的正面詞只有三個,分別是「趕及」(及時趕上)、搶鏡(演員在戲中演出矚目)和「贏波」(贏了球賽)。當中較特別的是「搶鏡」,台灣有「搶戲」一詞,例如:

劉玉玲戲約不斷,但負面消息也不少,與三位嬌娃打打鬧鬧的消息時有所聞,最近更傳出她在「艾莉的異想世界」搶戲太兇,被人群起圍攻的消息。

239

Page 243: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「搶戲」表示「太著眼於爭取表現」,屬貶義的評注。香港的「搶鏡」原來可能也有這個意思,但今天一般都是褒義,用來讚賞演員演得出色。與「搶鏡」意思相近的是「搶眼」,三地皆見,而「鏡(頭)」實在是另一隻「眼」,可能是香港借「搶眼」的結構和語義創造出來。

北京視窗反映的現象最為有趣。我們的假設是「負面詞素大多會衍生負面詞或中性詞」,但北京視窗的情況卻偏離這個假設,正面詞種竟有 19個,跟負面詞種一樣多。在這些詞種中,不少都在負面詞素前加上類似「去擁有化」(dispossess)的詞素,從而使詞種變成正面。這類「去擁有化」詞素可分類如下:

否定(negation):不、無 (不失時機、無害化等)

解決/幫助(solve):扶、濟、幫、解、助、治、攻 (扶貧濟困、治污、助殘等)

移除/防止(Remove/Prevent):拒、防、扭、排、減 (拒腐防變、排憂解難等)

這 14個詞素都可加在負面詞素前面,表示「去除負面性質」的意思。在 19個負面詞種中,有 11個用了這些字,有些詞種更用了兩個。這些例子中,負面詞素能構成正面詞,並不是意義的質變或因同形異義而來,而是通過語法手段來達到「轉性」的目的。

不過,究竟這些詞語反映的是否一定屬正面色彩,則可堪玩味。如果我們按照「己所欲/不欲」的準則,「腐(敗)」「殘(障)」、「貧(困)」、「污(染)」、「憂」、「難」等,都肯定是「己所不欲」(undesirable),那麼把這些不好的東西加以「拒(絕)」、「防(止)」、「排(除)」、「治(理)」、「解(決)」等等,自然是「己所欲者」(desirable)的好事,或者是應該要做的事。問題是,沒有前者(不好的東西),便不需要後者(解決)。換言之,我們希望解決不好的東西時,已表示不好的東西已經出現,甚至已嚴重到不得不解決的地步。或者這類詞語可以進一步引證在「去擁有化」詞素後面的詞素屬負面,但當這類詞語大量出現的時候,在語義上是不是絕對的正面,又或在社會語言學上是不是反映一個正面的局面,卻是一個值得深思的問題。5 個別詞素構成的獨特例子5.1 詞素在香港的粵語特色一般而言,香港的口語是粵語,書寫語則為現代漢語,但由於粵語是香港的強勢方言,故往往在印刷媒體中讀到粵語與現代漢語夾雜的文本。某些詞素既在現代漢語中衍生很多詞語,又與一些粵語詞素結合而成為香港獨有的詞語。

「夾」就是其中一個例子。「夾」在漢語中有「一起」的意思,例如「夾攻」、「夾擊」,這些詞種都屬三地常用。而在香港這個詞素的意思卻大行其道,於是衍生出很多香港獨有的詞語,例如「夾分」(大家都付一分錢)、「夾埋」、「夾晒」(一早

240

Page 244: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

計劃、預謀好)、「夾啱」(配合好)、「夾 band」(一起組樂隊)、「唔夾」(合不來)等,這些詞語在其他地方都十分罕見。

「埋」也是粵語多義且常用的字,意思包括「靠近」(埋嚟=過來)、「結帳」(埋單)、「一起」(加埋=加在一起)等等。所以「埋」在香港衍生了 35個獨有詞語。5.2 詞素在某地發展出獨特意義5.2.1 「夾」「夾」除了在香港變成常用的粵語詞素外,還衍生了一個獨特的詞語:「夾心」。「夾心」其實是「三文治」的隱喻,喻作「兩塊麵包中的夾縫位置」,意思為「不高不低」的社會地位,一般指入息僅超出標準的不富不貧階層,可說是一個負面詞。由此而衍生的複合詞也不少,例如「夾心人」、「夾心階層」、「夾屋」(政府為夾心階層而推出的私人屋苑)。5.2.2 「狂」、「盲」「狂」在大部分詞種裏是一個負面詞,例如常與近義詞結合組成並列結構式的形容詞,例如「瘋狂」、「癲狂」;又能與其他詞素組成偏正結構,擔當定語或狀語角色,例如「狂言」、「狂牛症」、「狂瀉」。不過,「狂」也可以是黏附詞素,作偏正結構的中心語,用法如「者」、「漢」,專指那些為某類事物熱愛如狂的人。這種用法的經典例子是「工作狂」,在三地都有使用。香港則把這種用法大力發展,例如「偷窺狂」、「購物狂」、「露體狂」、「戀物狂」等都只在香港視窗找到。在北京視窗找到的「足球狂」和「偏執狂」,前者為外地酒吧的譯名,後者則為一種病態。雖然香港這種用法也可以指一種病態,例如「他有購物狂」,但只有香港才常說:「他是個購物狂」,但又不能說「*他是個狂」。

與「狂」類似的是「盲」。「盲」同樣可以是作中心語的黏附語素,專指對某事物一竅不通的人。經典例子為「文盲」,其結構與「工作狂」相同,而其他例子則有「電腦盲」、「外交盲」(香港)、「科盲」、「半文盲」(北京、台灣)。其實,「狂」和「盲」作黏附詞素時,同屬負面,但它們又是兩個極端,「狂」是熱愛的極端,「盲」是冷待的極端。

最有趣是,在北京視窗找到「掃盲」一詞,且使用頻率不低(21次),其意思是「解決文盲問題」,從上文下理看來,「掃盲」是一種教育運動,是以教育減少文盲,而不是把文盲從社會清除。但「掃盲」令人聯想「掃除文盲」的意思,「掃除」有貶意,令「掃盲」給人的感覺與其運動的正面性相違。另外,「盲」顯現在北京只屬於「文盲」的縮略,因此「掃盲」才不會令人誤以為是「掃除盲人」。5.2.3 「荒」「荒」是一個多義詞素,其中一個意思是「荒涼」,可作定語組成偏正結構,如「荒山」。由於地理關係,「荒」以這個意思在北京衍生的詞種特別常用,包括「荒野」、

241

Page 245: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「荒島」、「荒地」、「荒山」、「荒漠」、「荒原」、「荒丘」、「荒溝」、「荒沙」、「荒坡」、「荒灘」,合共用了 190次,遠多於香港的 28次和台灣的 11次,有些詞種如「荒沙」等更是北京視窗獨有。

上述這種用法只是描述客觀世界中事物的特點,並無正負色彩,不過「荒」從「荒涼」的意思可引申到「短缺」的意思,則屬負面。一般而言,「荒」可與其他詞語組成主謂結構,以指某事物的嚴重短缺,傳統的用法是與有關自然資源的詞語結合,例如「糧荒」、「水荒」、「石油荒」等,但香港卻把這種用法「發揚」,衍生的詞種包括:「油荒」、「汽油荒」、「金牌荒」、「中場荒」、「門將荒」、「前鋒荒」、「教師荒」、「局長荒」、「錦標荒」、「入球荒」,「人才荒」,幾乎甚麼也可以「荒」;台灣視窗則只見「血荒」和「人才荒」,以上詞種卻全不見於北京視窗。5.3 詞素的詞類(Lexical type)轉移5.3.1 「怒」和「危」「怒」是負面形容詞,可與近義詞構成並列結構,又可作定語或賓語,例如「憤怒」、「惱怒」;「怒容」、「怒目」;「遷怒」、「動怒」、「息怒」等。「怒」也會用作狀中結構的狀語,表示行動帶有憤怒,常見例子為「怒吼」和「恕罵」,三地皆見。在香港的視窗中,這種用法卻十分盛行,由此衍生的詞種包括「怒斬」、「怒喊」、「恕稱」、「怒責」、「怒擲」、「怒射」,「怒指」則香港台灣皆見。除了「怒射」(形容球員射球時的勁度)外,其他的詞種都保留了負面色彩。北京則有「怒放」一詞,其使用都與花或煙花有關,明顯只是「怒」的另一個意思——形容氣勢強盛,與「憤怒」無關,反是個正面詞。同樣,「危」也是個負面詞,在香港也有類似的詞類轉移。與「怒」一樣,危可作

形容詞,作並列結構(危險、危急)、作定語(危房)或賓語(瀕危),又可作補語(病危)、作主謂結構(命危),本身又可作動詞中心語(危及、危害),「危」幾乎可以擔當所有詞類,獨少見於狀中結構。不過,香港視窗中已出現以「危」作狀語的狀中結構,詞種包括「危站」、「危立」和「危坐」,全部與跳樓自殺的新聞有關,其中「危坐」更有 24次。「危坐」這種表示「危險地坐著」的意思,可謂香港獨有,北京和台灣只有「正襟危坐」,這個「危坐」卻是古語,表示「挺直身軀端坐」,一點也不「危險」。6 總結可以推斷,詞的正負面色彩很多時已由詞素的正負面所主導,即使詞素在構成詞組時改變其語法類別 (例如由定語轉變成狀語),其原來正負色彩很多時都不會改變,「狂」、「盲」、「怒」、「危」等都是其中的重要例子。詞語發展出褒貶色彩,一般循兩個途徑,一個是造詞時一開始已形成褒貶傾向,例

如「誠實」、「雄偉」、「暴君」,這些詞有明顯的褒貶印記;另一個是後來而成的褒貶傾向,如「後果」、「勾當」、「嘍囉」,當中有不少更是因比喻意義而引申的,

242

Page 246: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

例如「草包」。事實上,漢語是孤立語,構詞以合成為主,而不是像英語般的屈折語,構詞以派生(derivation)為主 (賀國偉,2003)。所以經第一個途徑而來的詞語,往往都用上正負面詞素;而經後者而來的,原來造詞時都沒有正負色彩,自然沒有用上相應的詞素,它們的正負色彩只是因社會約定俗成而來,而非原意。在漢語詞匯的發展史上,色彩轉移會隨著社會的發展變化而來,例如「勾當」原指

「辦事」、「處理」,直到明清時期仍然屬中性,但今日大家都會認同這是個貶詞(賀國偉,2003)。我們在是次研究只發現極少量這類色彩轉移的詞,而且也不是完全轉移,極其量只可稱為「半轉移」,例如台灣在使用「針對」時,開始有轉向中性的傾向,例如:

乃至於五月初一份針對上市上櫃公司問卷調查顯示,有高達八成三的受訪者贊成盡快開放兩岸三通、一成四沒有意見、只有不到百分之二的受訪者持反對態度。針對一般帶有貶義,給「針對」或要「針對」的對象多數是個「問題」,但以

上句子只是向上市上櫃公司作問卷調查,其實沒有需要用上「針對」,單單寫成「對上市上櫃公司問卷調查…」也無不妥,但將「對」寫成中性的「針對」,卻在台灣大行其道,從數字上看,在三年的視窗中,台灣使用「針對」的次數是 2,823次,遠遠比香港(917次)和北京(581次)多,這極可能與「針對」的色彩轉向中性並取代常用的介詞「對」有很大關係。

不過,從歷史來看,一個詞的色彩轉移並非一朝一夕的事,往往要經過數十年甚至數百年才成。「針對」雖然在台灣開始偏向中性,但同樣在大量例子中它還是個負面詞,而且香港和北京都沒有明顯的相似轉變,那麼最終這個詞會不會像「勾當」般完全轉變其色彩,還不可定論。

另外,從表二的某地獨有的詞種數目得知,香港的詞種數目是 3,590,北京和台灣則分別是 2,390和 2,548,相差超過 1000個;這 3,590個香港詞種中,約有 500個屬於粵語詞彙(14%),撇開 14%的方言因素,香港仍比其他三地高。各地發展出來的獨有詞彙往往與地理、經濟、政治等因素有關,而香港的獨有詞語特別多,則很可能和香港造詞靈活有關。從「工作狂」、「文盲」、「怒吼」等結構衍生出更多詞種,都屬香港獨有現象,反映香港社會對創造和接受新詞抱較開放的態度。

是次研究只集中在負面詞,至於正面詞的情況如何,則是我們將來的研究方向之一。參考 LEHRER, A. 1974. Semantic Fields and Lexical Structure. North Holland, Amsterdam and New York.HATZIVASSILOGLOU, V., AND MCKEOWN, K.R. 1997. Predicting the semantic orientation of adjectives.

Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL, Madrid, Spain, 174-181.

HATZIVASSILOGLOU, V. AND WIEBE, J.M. 2000. Effects of adjective orientation and gradability on sentence subjectivity. Proceedings of 18th International Conference on Computational Linguistics (Coling’00), Saarbrücken, Germany.

鄒嘉彥 1998 《中文各地區共時詞語研究報告LIVAC1.0》 香港城市大學語言資訊科學研究中心郭先珍、張偉、劉縉、王玲玲 1999 《常用褒貶義詞語詳解詞典》 商務印書館

243

Page 247: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

王國璋、郭先珍、劉縉、張偉 2001 《漢語褒貶義詞語用法詞典》 華語教育出版社董秀芳 2002 《詞彙化:漢語雙音詞的衍生和發展》賀國偉 2003 《漢語詞語的產生與定型》上海辭書出版社

244

Page 248: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

词义的关系与词义——上古汉语“玉”组词的初步研究宿娟 张秀英 梁源

北京商务印书馆汉语室

香港城市大学中文、翻译及语言学系

香港城市大学电子工程学系

[email protected] [email protected] [email protected]

提 要词义的聚合研究是词汇语义学的重要课题之一。本文尝试以“玉”义为聚合中心,对上古的

“玉”组词群进行穷尽考察。《说文解字》为本文的研究提供了捷径。大凡同部之字,在意义上都有一定关联。字形上以“玉”为标准,就是语义上以“玉”为基本义素对词汇进行聚合和提取。共收集到“玉”组词一百四十三个。根据《说文解字》的释义、以及在三十部古籍中的用法和分布,上古“玉”组词群可以分为九类:玉名、美石名、礼玉名、饰玉名、生物产珠宝名及珍宝总称、玉振之声、玉石特征、玉的形貌状态、制玉的动作行为。参考“玉”的义项和用法,我们进一步抽象出命名、制作和状貌三种词义关联,从而把九类“玉”组词群构建成一个词义网络系统。本文最后比较了“ WordNet”、“知网”关于“玉”的词义网络和基于上古词汇研究得到的“玉”组词词义网络,希望对上古汉语的词汇语义分析有所贡献。1、 缘起

汉语历史词汇研究是汉语词汇语义学的一个重要组成部分。但是,和利用现代汉语词汇进行的研究(包括词典编写、本位结构建造、以及语义的推理计算等)相比,目前的历史词汇研究还显得有些薄弱,还没建立起严整的理论分析体系,更不用说相关的应用研究。汉语历史悠久,词汇量巨大,这给汉语历史词汇研究带来一定困难。《说文解字》(以下简称《说文》)在这方面为我们提供了一条捷径。它是一部集上古字书、训诂之大成的著作,利用它,以它为基础进行上古汉语词汇的研究,有提纲挈领的作用。如果把《说文》的词汇系统研究清楚了,上古词汇的总貌也就大致明朗了。

本文选取《说文》“玉”部字为研究内容,尝试将与“玉”相关的词群展示出来。这种研究和传统训诂学关系密切。首先,文字体系在很大程度上反映了文字所代表的词义的聚合关系。许慎在《说文弟十五(下)》中曾提出“其建首也,立一为耑。方以类聚,物以群分。同条牵属,共理相贯。杂而不越,据形系联。引而申之,以究万原”( 2001:319)。本着这样的原则,他将九千三百五十三个篆文,归纳为五百四十部,创建用部首来编排文字。其分部类从,相当精密。而大凡同部之字,在意义上都有一定的关联。其次,上古汉语的“字”和“词”不分,一个“字”基本上就是一个“词”。在字形上以“玉”为标准,其实就是语义上以“玉”为基本义素,对上古词汇群进行提取。基于此,我们就有可能利用传统训诂学的成果来进行汉语历史词汇语义学研究。但是,我们必须注意,利用《说文》只是为了取材上的方便,我们研究的是上古的词汇

语义系统而不是文字系统。因此,除了《说文》的释义外,我们还需要考察“玉”部词群在古籍中的具体用法和出现频率。为此,我们选取了《说文》以前的三十部古籍对“玉”部字进行穷尽考察。这些古籍包括:《周易》、《尚书》、《诗经》、《周礼》、《仪礼》、《礼记》、《左传》、《公羊传》、《谷梁传》、《论语》、《尔雅》、《孟子》、《墨子》、《孙子》、《老子》、

245

Page 249: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

《国语》、《商君书》、《楚辞》112、《晏子春秋》、《庄子》、《荀子》、《韩非子》、《吕氏春秋》、《慎子》、《山海经》、《战国策》、《淮南子》、《史记》、《吴子》、《汉书》。

基于这些材料,我们尝试构建关于上古“玉”组词的词义网络,并与现代的“玉”的词汇词义网络进行比较(如“WordNet”和“知网”),希望从中得到启发。2、《说文解字》的“玉”部字

上古的“玉”部词群很发达,这与上古中国玉文化的繁荣有不可分割的联系。古人极其喜玉,对玉的崇拜无可比拟。反映到社会生活各方面,大至国家的祭祀、军事、朝聘、政权、外交,小至个人的日常起居,都离不开玉。商周有完整的玉制,使玉从生产、装饰和玩赏等一般功能中脱拔而出,具有了更特殊、更神秘、更高等的社会内涵,因而玉文化在上古时期就达到了顶峰。反映到语言文字领域,人们所造的从“玉”之字至今高达六百多个(依《汉语大字典》1993),而用“玉”部字组成的词更是不计其数,可见“玉”同人们的生活密切相关。

在《说文》大徐本中,“玉”部字文一百二十六,重文十六,段注本文一百二十四,重文十七。依据“从多”的原则,本文的《说文》“玉”部字,文依大徐本,一百二十六个,重文依段注本,十七个。共一百四十三个。

我们根据“六书”对这些字进行了分类,发现绝大多数的“玉”部字都是形声字(共139个,占 97%),形旁为“玉”,在意义上也大多与“玉”有关。而且,这些字基本上是一个单字为一个词,少数是二字为一词,如:玟瑰、珊瑚。不少字在古籍113中已经不使用,可以称之为“死字”(60个,约占 42%),在现代汉语还保留和使用的就更少了,比如在《同义词词林》(1996)就只能找到少数(21个,约占 15%)。此外,我们还考察了甲骨文和金文的“玉”和从“玉”字。甲骨文的资料主要参考《甲骨文字释林》(1979),金文则主要参考《金文诂林》(1974)和《金文编》(1985)。3、“玉”和“玉”组词的词义与分类3.1 “玉”的词义和用法

“玉”字本身是一个象形字,产生得很早,在甲骨文中就是常用字了。甲骨文中“玉”的写法变化多端,作为独体字时,一般写作“丰、 、 ”。《说文》“王,象三玉之连,┃其贯也, 古文玉”,《说文》释义与甲骨文写法相合,“丰”恰如三玉连贯之形,“

”上的“⺌”则是贯玉之绳打成的结,与古文“ ”下部的“| |”作用相似。在甲骨文的合体字中,“丰”组字在作偏旁时一般写作“王”,少数写成“丰”,如“珏”,既写成“王王”,又写作“丰丰”。 金文中,“玉”作为独体字写作“王”,作为合体字的偏旁,写法千变万化。金文中单音词“玉”多用本义,为“玉石”,如:(1)易玉五品。(穆公鼎)金文中的“玉”已经用于复音词中,其语素义为“玉石”,表示器物的质地是玉石,如毛公鼎铭文有“玉環”,番生簋写作“玉睘”。作为语素,“玉”还表示类名,义为“玉器”。

上古时期,“玉”是常用字,在古籍中分布广泛,凡 931见,其使用情况如下:112 只选用屈原的赋。113 本文的“古籍”特指所选用的三十部书。

246

Page 250: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

表 1. 上古“玉”在古籍中的分布周易 3 左传 66 墨子 12 荀子 19 淮南子 53尚书 16 公羊传 5 老子 2 韩非子 29 史记 103诗经 17 谷梁传 5 国语 24 吕氏春秋 31 汉书 71周礼 61 论语 3 屈原赋 14 慎子 1仪礼 18 尔雅 7 晏子春秋 12 山海经 264礼记 68 孟子 8 庄子 3 战国策 16

上古“玉”的词义和用法可以概括如下:1、单音词“玉”,古籍中的用例 276个,占 29.6%。包含“玉石”和“玉器、玉石加工品”两个义项,以及其他引申义和比喻义。如:(2)他山之石,可以攻玉。(《诗经·小雅·鹤鸣》)(指玉石,尤指璞玉)(3)君子无故,玉不去身。(《礼记·玉藻》)(指玉佩)(4)王欲玉女。(《诗经·大雅·民劳》)(用为动词,有磨练、培养的意思)(5)是以圣人被褐怀玉。(《老子》七十章)(比喻美好的品质)2、“玉”和其它语素一起构成复音词,其中,“玉”是语素,具有语素义。共 655见,约占 70.4% 。(6)玉几、玉路、玉冠 、玉床、越玉、夷玉(表示玉石)(7)大丧共饭玉。(《周礼·春官·典瑞》)(表示玉制品)(8)臣之有作福作威玉食。(《尚书·周书·洪笵》)(引申为珍贵的、美好的、洁白晶莹的)(9)恐太后玉体有所隙。(《战国策·赵策四》)(敬辞,一般用于君王的言行)3.2 “玉”组词的词义和分类从《说文》的释义来看,上古“玉”组词有很高的系联性,不少字具有相同或相近的释义。比如,“瓘、璥、玒、璿、瑾、瑜、珦、琳”等字的释义都为“玉也”或“美玉也”;“玲、瑲、玎、琤、瑣、瑝”等字的释义都为“玉声也”。而且,这些字在古籍多用本义,即《说文》的释义,如“碧”。《说文》曰:“石之青美者”。“碧”是一种青色的美石,在古籍中是个常用字,其分布如下表:表 2. 上古“碧”在古籍中的分布庄子 吕氏春秋 山海经 淮南子 史记 汉书1 3 25 6 2 4

其中 39个用例,都用“碧”的本义,即青绿色的玉石,如:(10)藏其血三年而为碧。(《吕氏春秋·孝行览》)(11)清水宜碧。(《淮南子·地形训》)只有两个例子“碧”和其他字合为一词:(12)唐碧坚忍之类,犹可刻镂,以成器用,又况心意乎?(《淮南子·修务训》) 杨树达认为“唐碧”为石似玉者,唐碧为一名词。

247

Page 251: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(13)玉工眩玉支似碧庐者。(《淮南子·氾论训》)高诱注:碧庐,或云珷玞。

《说文》释义的系联性和在古籍中的稳固性为我们对上古“玉”组字的词义分类提供了初步基础。根据《说文》的释义,我们大致可以把“玉”组词分为以下 9个词群:1、玉名,在《说文》里往往被释为“玉也”、“美玉也”,如:璙、瓘、璥、球、璿,等等。共 29个。

2、美石名,在《说文》里往往被释为 “石之似玉者”、“石之次玉者”,少数被释为“石之美者”,如:琟、瑂、瑩、琇、碧,等等。共 40个。

3、礼玉名,根据玉器的功能和用途分的类,在《说文》里分别释义,如:瑞、璧、環、玦、璋,等等。共 29个。

4、饰玉名,根据玉器的功能和用途分的类,在《说文》里分别释义,如:珥、璬、琫、珌、瑵,等等。共 10个。

5、生物产珠宝名及珍宝总称,如:珠、璣、珍、璗,共 13个。6、 表示玉振之声,在《说文》里的释义都为“玉声(也)”,如:玲、瑲、玎、琤、瑣,等

等。共 6个。7、 表玉石特征,只有 2 例:瑕(“玉小赤也“)、瑛(“玉光也“)。8、玉的形貌状态,在《说文》里分别释义,如:玼、璱、玓、瑳、瑮,等等。共 7个。9、制玉的动作行为,共 7个词,在《说文》里分别释义,如:攻、理、琢、琱、瑑。等等。4、“玉”组词的词义关系

根据《说文》释义给上古“玉“组词的词义分类给我们提出了以下问题:1、 这些释义类之间有什么关联?2、根据这些关联,我们可以把上古“玉“组词构建成什么样的词义网络?3、构建出的词义系统和人类的知识系统有没有一致性?

从词性上看,上古从“玉”之字大部分用为名词,表示与“玉”相关的名物,如:各种美玉、玉器、玉石特性、玉振之声、等等;少数用为形容词和动词,描绘玉的美好形貌和玉器的制作方法。

从词义关系上看,前面我们提到,上古的“玉”作为单音词有两个基本义项:“玉石”和“玉器”,这反映了上古“器玉同称”的文化。同样,以“玉”为中心义素的“玉”组词也包括“玉石”词群和“玉器”词群两大类。其中,“玉石”词群给不同形状、颜色和质地的玉和美石进行了命名,“玉器”则给不同功能和用途“礼玉”和“饰玉”命名。此外,由于玉是珍宝和财富的象征,表示“珠宝”和“珍宝”的字也从“玉”部。在古代,由于玉石质地坚硬,制作玉器的方法相当独特,将一块刚从山上开采出来的璞玉经过各种制作工序变成一件美丽的作品,凝聚了制玉工匠高超的技艺和心血。上古时期,中国的手工业已经相当发达,到了玉制时代,玉器制作在行业中的地位更是举足轻重,与制玉相关的动作术语也相应产生、流传、并不断发展演变,如“理”字,在现代汉语还很常用。此外,在打制石器的过程中,远古先民发现美石相击发出的声音很悦耳动听,于是就用玉来制作简单的打击乐器,比如古人用球玉制作磬。进入玉制时代,玉振之声受到了人们的关注,并赋予很高的社会内涵。玉石的其他特点,比如玉上面的颜色、光泽、以及形貌状态,也受到人们的关注。反映到语言文字领域,就是产生了许多描绘玉声、玉貌的词语,造出了不少表示玉声、玉貌的从玉之字。基于此,我们大致

248

Page 252: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

上可以把《说文》“玉”组字的词义关联表述为:命名、制作、状貌,如下图所示114:

玉 命名 状貌 制作玉石 玉器 玉声 特征 形貌状态

制玉动作行为玉名 美石名 礼玉 饰玉 珠宝珍宝总称这样,我们就把《说文》的“玉”组词构建成了一个聚合的词义网络系统,其中,“玉”是基本义素。

利用基于现代语言研究构建的有关词义关系及词义的网络库,如 “WordNet”、“知网”等,我们尝试查询了“玉”的词义结构网,结果如下:1、“WordNet”(1993)以同义词集 Synsets来表示词义,以上下位、同义、反义、部分—整体等表示词汇关系。英文的“jade”(“玉”字)在“WordNet”(2004)表述为:

名词组 : 1. jade, jadestone 玉石-- (a semiprecious gemstone that takes a high polish; is

usually green but sometimes whitish; consists of jadeite or nephrite)2. adulteress, fornicatress, hussy, jade, loose woman, slut, strumpet, trollop --

(a woman adulterer)3. jade green, jade -- (a light green color varying from bluish green to

yellowish green)4. hack, jade, nag, plug -- (an old or over-worked horse)动词组 : 1. tire, pall, weary, fatigue, jade -- (get tired of something or somebody)2. tire, wear upon, tire out, wear, weary, jade, wear out, outwear, wear down,

fag out, fag, fatigue -- (exhaust or tire through overuse or great strain or stress; "We wore ourselves out on this hike")形容词组 :

1. jade, jade-green -- (similar to the color of jade; especially varying from bluish green to yellowish green)

2、“知网”(2000)以主体述项角色与谓词搭配关系作为义素分析,当中包含范畴类、属性值和动态角色等知识构建概念之间与概念具有属性之间关系的一个知识库。英文的“jade”和中文的“玉”字在“知网”(2000)中分别表述为:W_E=jadeDEF=aValue| 属 性 值 ,property| 特性,#material|材料-玉制DEF=livestock|牲畜,weak|弱

W_C=玉DEF=aValue| 属 性 值 ,prettiness| 美丑,beautiful|美,desired|良-beautiful(adj), beautifully(adv), fair (adj), handsome(adj) = 玉(adj)

114 实线表示直接关联,虚线表示不直接关联;红色表示不同的关联,蓝色表示《说文》中的释义类。

249

Page 253: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

-驽, 驽马DEF=material|材料,?tool|用具,#decorate|装饰,precious|珍-琼, 玉, 玉石, 珲, 琨, 琰

DEF=material|材料 ,?tool| 用具 ,#decorate|装饰,precious|珍-jade(N) 玉(n)

“知网”英文的“ jade”的查询结果中多含有“WordNet”英文的“ jade”的名词的意思 “livestock|牲畜”,但是,我们这里并不是要提出中英文玉字义的不同之处,而是重点比较两者的词义网关系。“WordNet”从同义词连系词义并以词性为分类,名词类有四项,动词类有两项,形容词类有一项。其中,相关的义项有:玉与玉石、表绿、表黄的玉色;不相关义项有:表马,表疲倦等。而“知网”以概念定义(definition[DEF])来表示词义。玉字有两个概念定义:一是以属性值(aValue)表示,“prettiness|美丑 ,beautiful|美,desired|良”;二是实体类“material|材料, tool|用具,#decorate|装饰, precious|珍”,我们理解“珍”为珍宝义。可见,“知网”所表达的词义关系更为相关,它以知识实体为基础 , 如“玉石”是“玉”的原材料,“玉”的制作成工具,“玉”可作为装饰,进而“玉”有什么特性。这和我们利用《说文》“玉”部字群得出的词义网络很相似。5、余论

通过以上分析和比较,我们得到以下的启示:1、词义关系网络中最重要的是由一个中心义素联系至其他其个体 ,如中心词“玉”字联系至不同的“命名”(nomination)、“制作”(process)和“状貌”(characteristics),从而聚合成一个紧密的词义网络,这些关系不止是上下位、同义、反义、部分—整体关系 ,而是围绕中心义素词在现实世界中可以联想而得的可能关系。2、我们尝试了以部首作为古汉语词义网络的中心义素的可行性。虽然部首与部首之间的关系我们还不很清楚,但传统训诂学的研究成果可以为我们研究汉语历史词汇提供方便。

参考文献:段玉裁,《说文解字注》,上海古籍出版社,1981 年。于省吾,《甲骨文字释林》,中华书局,1979 年。梅家驹,《同义词词林》,上海辞书出版社,1996 年。容庚(编着,张振林、马国权纂补),《金文编》,中华书局,1985 年。宿娟,《上古玉部字研究》,北京大学硕士研究室学位论文(未刊),1999,北京大学许慎(撰),《说文解字》,中华书局,1963 年。江苏古籍出版社,2001。周法高(主编),《金文诂林》,香港中文大学,1974 年。《十三经注疏》(上、下),阮元校刻,中华书局影印,1980 年。《墨子閒诂》,孙诒让著,《诸子集成》,中华书局,1978 年。《孙子十家注》,孙武著,曹操等注,《诸子集成》,中华书局,1978 年。《老子注》,王弼注,《诸子集成》,中华书局,1978 年。《国语》,上海古籍出版社,1982 年。《商君书》,严可均校,《诸子集成》,中华书局,1978 年。《楚辞补注》,洪兴祖撰,中华书局,1983 年。《晏子春秋校注》,张纯一著,《诸子集成》,中华书局,1978 年。

250

Page 254: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

《庄子集解》,王先谦撰,《诸子集成》,中华书局,1978 年。《荀子集解》,王先谦撰,《诸子集成》,中华书局,1978 年。《韩非子集解》,王先谦撰,《诸子集成》,中华书局,1978 年。《吕氏春秋》,高诱注,《诸子集成》,中华书局,1978 年。《慎子》,钱熙祚校,《诸子集成》,中华书局,1978 年。《山海经校译》,袁珂校译,上海古籍出版社,1985 年。《战国策》(上、中、下),刘向集录,上海古籍出版社,1985 年。《淮南子校释》,张双棣撰,北京大学出版社,1997 年。《史记》(全十册),司马迁撰,中华书局,1959 年。《吴子》,孙星衍校,《诸子集成》,中华书局,1978 年。《汉书》(全十二册),班固撰,中华书局,1962 年。《文选》,萧统编,李善注,上海古籍出版社,1986 年。《十三经索引》,叶绍钧编,中华书局,1983 年。《周易引得》,哈佛燕京学社,1935 年。《毛诗引得》,哈佛燕京学社,1934 年。《周礼引得》,哈佛燕京学社,1940 年。《仪礼引得》,哈佛燕京学社,1932 年。《礼记引得》,哈佛燕京学社,1937 年。《论语引得》,哈佛燕京学社,1940 年。《尔雅引得》,哈佛燕京学社,1941 年。《孟子引得》,哈佛燕京学社,1941 年。《墨子引得》,哈佛燕京学社,1947 年。《庄子引得》,哈佛燕京学社,1946 年。《荀子引得》,哈佛燕京学社,1950 年。《吕氏春秋索引》,张双棣等编著。(未出版)《韩非子索引》,周钟灵等编,中华书局,1982 年。《史记索引》,李晓光、李波主编,中国广播电视出版社,1989 年。《汉语大字典》,汉语大字典编辑委员会,四川辞书出版社、湖北辞书出版社,1993 年。Miller , G. A , Beckwith , R. . , Fellbaum , C. , Gross , D. , and Miller , K. , “Introduction to WordNet :An Online Lexical Database”, in Five Papers on WordNet , CSL report , Cognitive Science Laboratory , Princeton University , 1993. online WordNet 2.0 http://www.cogsci.princeton.edu/cgi-bin/webwn2.0?stage=1&word=jadeDong zhendong (2000) HowNet System (1.0 beta) http://www.keenage.com/

251

Page 255: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

词义性质与“X了”中“了”的词义武汉大学语言与信息研究中心 萧国政

“了”(le)是现代汉语使用频率最高的词之一,“了”的意义和用法是现代汉语词汇和语法研究的重大难题。20世纪八十年代以来,尤其是九十年来,研究“了”的文章时渐增多,但是未见取得突破性进展的成果。原因甚多,但最主要的可能有三:一是现代汉语普通话是一个融合性的语言系统,“了”的来源和用法都较为复杂;二是受传统词义观和研究思路的影响,未能把“了”的词义、词义的语法性质和作用区别开来,把“X了”的格式义(或句式义)和作用与“了”的词义区别开来;三是未能对“了”的意义做出具体系统的调查研究之前,就从概念出发,仓促进行理论概括、语言对比和事实解释。这样一来,使本来就比较复杂的问题更为复杂了。为了更好地推进研究的进展,本文从语言理解的角度出发,用信息语义理论来定义词的意义,分离“X了”的作用、格式义和“了”的词义,揭示不同词义显现或实现的有关条件,以之为“了”的进一步研究做点基础性的工作。

一 词义的特性与“了”的词义因为从理论上讲,如果说语言是信息传递的工具,词、短语和句子是信息的载体,

那么词义就是词在一定的句子或格式中所负载的信息和语义。“X了”中“了”的词义,就是“了”在特定句子和语言片段“X了”中所负载的语义信息。在现代汉语里,“了”是一个词,其所表的意义应该是词义。

词义是词的意义。如果说句子或短语中某个意思或信息是某词的词义,那么这个意思一定要具有以下几个特性:1)对于词表的依附性;2)可分离性;3)同义词表的可替换性(或可转换性)。并且用这三个特性,我们可把一个词负载不负载信息辨别出来,才能把所负载的信息是词义还是非词义分别开来。

1.1 词表依附性。由于词义是词表达或负载的意义或信息,因此词义的第一个重要属性就是对于词的依附性。就是说,一个短语或句子中的某部分意义(C)是由某个词负载的,如果该词删除,那么意义 C就必然随之消失,此时我们说该词是负载词义的。比如说“走了”的意思是“已走”或“走是已然的”,当“了”删除时,其“已然”的意义也随之消失,“走[ ]”就不再是“已走”的意思。这时我们可以说,其“了”是负载意义的。其“了”所表意义对于“了”的依附性可图示为:(1)走了=已走/走是已然的 走[ ]≠已走/走是已然的但是“了”负载怎样的词义?我们了用词义的可分离性来求取。1.2 可分离性。由于词义是词在一定的句子或短语中负载的信息,那么该句子或

短语的意义就是由该词和其他词的意义(或加上其他意义)组合而成的,否则,某种意义只能是该词所在句子或短语的格式义或其他意义,而不是该词的词义。因此,只要需要,该词的词义是可以从句子或短语中分离出来的,并且可分离性或曰可剥离性

252

Page 256: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

是词义的第二个重要属性。假若一个句子或短语的意义可描写为 ABCD,其中 C或D是某个词的词义,那么ABCD就可分解为“ABD+C”或“ABC+D”。比如“走了”所传递的信息可描写为:已经离开或离开是已然的,并且可分解为:“了”(已经/已然)+“走”(离开)。即:(2)走了=已经(/已然)离开 已经(/已然)离开→已经(/已然)+离开

了 1=已(经)/已然通过可分离性,我们可以得知句子和句子片断——短语中的某部分信息是某个词负载的,或者说这部分信息就是该词在特定句子中的词义。

为了保证求取的意义不是词以外的意义,我们可用同义词的可替换性来验证。1.3 同义词表的可替换性。同义词的替换其实就是词表——词义载体的改变,如

果“X了”的某个意义是“了”的词义,那么我们一定可以找到同义形式的词或短语而构成一个“X了”同义式。如“走了”中的“了”的词义是“已经”,就可用“已经”的“已”替换“了”而形成同义式:(3)我去时,他走了。→我去时他已走。

又如例(4)的“大了”的“了”的词义是“偏”的意思,我们就可直接用“偏”替换“了”而构成其原句的同义式:(4)这件衣服你穿好像有点大了→这件衣服你穿好像有点偏大1.4 词义三性从理论上讲对于所有的词的词义应该都是适用的,反之,如果辞书

给出的某种意义或表述不是词的词义,那么它就不具有以上三种特性。比如《现代汉语八百词》(简称《八百词》)对于“了”的作用的表述:“[助]1‘了’有两个。‘了 1’用在动词后,主要表示动作的完成。如动词有宾语,‘了 1’用在宾语前。‘了 2’,用在句末,主要肯定事态出现了变化或即将出现变化,有成句的作用。如动词有宾语,‘了 2’用在宾语后。” (商务印书馆,1999,增订本 351页)“动+宾+了 2。肯定事态出现了变化。”(其所举之例为:)刮风~(已经开始刮风)|小明也喜欢跳舞~(已经开始喜欢)|他同意我去~(已经同意)(同书第 352页)

《八百词》关于了 2“肯定事态出现了或即将出现变化”的表述,就不是“了”的词义。因为其“X了”不能分解成“X”+肯定事态出现了或即将出现变化,即作为词义不具有可分解性。例如: (5) 刮风~≠刮风+肯定事态出现了或即将出现变化 或 刮风~≠刮风+事态出现了 (6) 小明也喜欢跳舞~≠小明也喜欢跳舞+事态出现了变化相反“肯定事态出现了变化或即将出现变化”是“X了”作为一种结构格式具有的功能,不仅“X了”具有此功能,其同义形式也具有此功能。《八百词》例句括号中的注释其实就是其“X了”的同义句,如“刮风了”就的一个意义是其括号中的注释“已经开始刮风”的意思,“喜欢跳舞~”的一个意义就是“已经开始喜欢”的意思,而其举例括号内外的表述式就都具有“肯定事态出现了变化或即将出现变化”的功能。比较下面例中括号内外句子:(7)刮风~(已经开始刮风)

253

Page 257: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(8)小明也喜欢跳舞~(已经开始喜欢)(9)他同意我去~(已经同意)

比较上面几例括号内外的句子,我们不难发现,括号内的句子减去与括号外相同的动词,剩下的词语表达的就是括号外“了”的信息或意义。细心比较不难发现,前两例中“了”有“开始”和“已经”两种意义,后一例的“了”只有“已经”一种意义,似乎不好理解,其实不是后一例的“了”也有“开始”义,只是“同意”为非过程动词,具有状态性,“开始”一义被置换成“出现”,这种“VP了”可变换为“出现VP情况或状况”,如例(9)可注释为“已出现他同意我去的情况”,“开始”、“出现”和“进入”是了的同一个意义的几个不同的表现。(进一步参看 2.2和 3.3)

“开始”(或“出现”)和“已经”是“了”的两种词义,三例中的“了”都是其两个“了”——了 1和了 2的加合,并且《八百词》做这样的注释是以说话为参照视点,即说话时“开始VP”是已然的,即已经“完成”或已经“实现”。i但是当离开现实已然世界进入虚拟世界即表假设时,“了”表已然的义项消失,只剩下“了”表开始或出现的词义。例如:(10)如果刮风~,你就收衣服。=如果开始刮风,你就收衣服。(11)如果小明也喜欢跳舞~,……=如果小明也开始喜欢跳舞,……(12)如果他同意我去~,……=如果出现他同意我去的情况,……

二 词义性质与“了”的义项把“了”分为带下标的了 1、了 2是《八百词》等著作分别句中“了”和句末“了

”的做法,为了问题讨论的简洁,对“了”我们不再作这样的区分,只统一地用下标表示“了”的义项。研究实践告诉我们,确立词的义项要坚持词义的概括性和对立性。

2.1 由于词义总是与词的语形——特定的语音和书写形式相联系的,因此一个相同语形所负载的几个词义一定是对立的,彼此不能存在交叉、包含关系和蕴含关系,ii

即同形词或同“体”词词义具有对立性。如萧国政(1998在北大 98 国际汉语语法讨论会上宣读、后来收进陆俭明等主编山

东教育出版社 2000年出版的《面临新世纪挑战的现代汉语语法研究》)的文章《现代汉语句末“了”意义的析离》(《析离》)的一文中区分“了”的意义、“了”字句的蕴涵义和“了”的语用功能,析离出现代汉语句末“了”的 8种意义——8 个义项,并把这 8 个义项表述为:了 1表已然、了 2表消失、了 3表开始、了 4表继续、了 5表变化、了 6表偏离、了 7表强调、了 8表委婉。分别举例和论证如下:

(13)(他吃了饭没有?)吃~1。 (吃~=已经吃, ~=吃~ - 吃=已经;且 吃≠已经吃,故:) ~1 表“已然”

(14)(这苹果,你)把它吃~。 (吃~=吃掉,~=吃~ - 吃 =掉, 且 吃≠吃掉,故:) ~2 表“消失” (15)吃饭~,(快来!) (吃饭~=吃饭开始, ~=吃饭~ - 吃饭 =开始,

且 吃饭≠吃饭开始 故:) ~3 表“开始” (16)(你)别吃~! (别吃~=别再吃,~=别吃~ - 别吃 = 再, 且

254

Page 258: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

别吃≠别再吃 故:)~4 表“继续” (17)(他)能吃~。 (能吃~=原来不能吃,现在能吃 =能吃+变化, ~=能 吃~-能吃=变化, 且 能吃≠原来不能吃,现在能吃

≠能吃+变化 故:)~5表“变化”(18)(衣服买)大~。 (大~=过(于)大,~= 大~ - 大 =过(于), 且

大≠过(于)大 故:) ~6 表“偏离” (19)(这个办法)最好~! (“最好~”是“最好”的强调语气式, 删除~,强调语气消失, 故:) ~7 表强调 (20)(大叔!吃了饭再走。)不~ ! (“不~”是“不”的委婉语气式***, 删除~,委婉语气消失, 故:) ~8 表委婉进一步研究发现,~5表“变化”的意义可从 ~1表“已然”的部分用法中推出。从用例不难发现,“可能”是一种状态,只要X可以理解为一种状态或状况。比如NP是一种状况,故“NP了”就既可将“了”解释为~1表“已然”(即NP了=已NP),也将“了”解释为~5表变(即过去不是NP,现在是NP)。例如:

(21)中学生了|老夫老妻了|党委书记了如“中学生了”=已经中学生/过去不是中学生了,现在是中学生。其余类推。由此可见,“了”表变化的义项应该删去。 由此看来“了”只有 7 个义项了,但是研究发现“X了”有“马上X”或“即将 X”的意思,故“了”有“马上”或“即将”的词义。例如: (22)老师进教室了(快坐好)|下雨了(要带伞)|开会了(外面的同志赶快进来)这三个“VP了”在不同时间说,意思不同:比如VP是未然的行为和现象时,“VP了”=马上VP;当 VP正在发生时“VP了”=正在VP,当 VP结束于说话前时,“VP了”是VP过的意思,句子表某种经历。

2.2 概括性是词义义项各自独立的前提。只要某个意思一个可以解释为另一个的变体时,这个意义就不是一个单独的义项。比如“开始”“出现”和“进入”孤立看应是“了”的三个义项,但都是“了”跟意义类别不同的对象结合的结构。例如:

(23)下雨了|失火了|如果不注意那就更困难了又比如,“了”所表的“已经”和“过”,也是一个义项的两个角度变体,在有

的环境中是自由确定的,在有的环境中是强制选择的。例如: (24)你吃点吧? 不,我吃了。“我吃了”既可说“我已吃”,也可说“我吃过”,究竟选哪一种,是自由的。但

是在“吃了饭去”中,“了”的词义更倾向于“过”,即某个行为事件前已经出现的事件行为等。因而“已”和“过”属于同一义项的两个成员。

2.3经过以上研究和分析,现代汉语可用于句末的“了”有以下新 8 个义项:了 1表已然、经历,了=已(经)、已然/过

255

Page 259: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

了 2表消失,了=掉/下去了 3表开始,了=开始/出现/进入了 4表继续,了=再/继续了 5表即将,了=马上/即将了 6表偏离,了=偏/过于了 7表强调,了=真的了 8表委婉。了=您家(方言)

2.4 了 2、3、语义上是指向X中的VP

三 “了”的义项域“了”的义项域是X的性质和“X了”的功能分布形成的应用场和领域。一个“X

了”所在的义项域,“了”的义项数即义项内容不同。 3.1 “VP了”的“了”拥有的义项可描写为:了 1、2、3、4、5,其中,了1、3、4、5是指向动词的,了 2是指向动词的对象的。了 2 对动词有选择。 “VP了”可用于陈述句、祈使句和疑问句。

“不(没/别)VP了”的“了”拥有的义项可描述为:了。否定词与其后的成分有不同的切分层次:如 1)不VP/了;2)不/VP了。切分布同,“了”的意义不同。其能使用的句类也不同。

3.2 “AP了”的“了”拥有的义项可描述为:了 1、3、4、6、7。“AP了”可用于陈述句、感叹句和疑问句。3.3 “NP了”“数量了”的“了”拥有的义项可描述为:了 1。其“X了”可用

于陈述句和疑问句。3.4 “不(没/别)了”的“了”拥有的义项可描述为:了 4,“不了”表谢绝

“了”为了 8。其“X了”可分别用于陈述句、祈使句和疑问句。

* 只可惜《八百词》把句末的“了”指标为了 2。** 包含其实是一种特殊的交叉。*** “不~”的~表委婉的理据,参看萧国政 1985,或 1997 第 40-51页。

256

Page 260: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

作者单位:中国 武汉大学文学院通信地址:430072中国 武汉大学文学院电子信箱:[email protected]

汉语词义的微观结构及其切分与描写赵世举

摘要:词义不是一个个封闭性孤立体,而是具有多向联系性的多维信息载体。是几乎包含了与该词相关的各种语言信息的复合体。其主要构成成分如下:1.主体意义,包括理性意义、色彩意义和风格特征。2.关系意义,包括类属特征和关系特征。3.功能意义,包括配价特征、              选择特征、分布特征、语域特征和格式意义。三类意义相互区别又相互联系。各类成分都可用一定的方法分析和描写,并可进行形式化标示。

关键词:词义;语义;结构;切分;描写;标示一、引言什么是词义?其内部构成如何?怎样切分和描写?这是古今中外哲学家、语言学家、逻辑

学家、心理学家等共同关心并不懈探索的重要而困难的问题。无数学者对此作了很多不同的回答。应该说,无论是“指称论”、“观念论”、“真值论”,还是“行为论”、“用法论”、“关系论”、“成份论”等等,都以其合理要素,为解决上述问题贡献了力量。但也都未能圆满解决问题。总的来看,不少研究也许受“语法决定论”的影响和单个词的独立性的迷惑,往往局限于狭隘的词汇层面,不由自主地把一个词的意义当作静态的孤立体对待,而较少注意它的多维性和外部关系(如与整个词义系统、语义系统的关系,与运用语境的关系等)。致使对词义的剖析与描写往往是孤立的而非联系的、平面的而非立体的,因而让人难于把握词义的全貌。即使一些很有理论意义和实践价值的分析方法在实际运用中也有一定的局限性。我们无意一一评论既有观点的是非得失,只想面向语言运用和应用的实际,在既有研究的基础上,突破过去狭隘的词汇观和和片面的词义观,以现代语义学的观念,从大的词义系统、语义系统中全方位观照词义的微观结构,并就其切分和描写问题提出一些粗浅的看法,试图为科学分析词义,准确理解词义,全面掌握词义以及进行语言教学、词典编纂和语言信息处理等提供一些参考。二、关于词义的基本认识我们认为,语言运用和应用中的词义问题,一般只应限定在语言范畴中来讨论。只有这样,

才能避免问题复杂化,有利于理清词义问题。这是我们的前提性看法。因此,我们将给词义下这样的简单定义:  词义是指词所承载的各种语言信息。这个定义不采用通常的“内容”、“概念”等词语而使用“语言信息”这一说法,意在强

调“语言”特性,而排除非语言因素的干扰,比如哲学的、心理学的、关于客观事物本体的认识。这有利于在语言层面弄清词义问题。同时,也意在区别科学概念和语言意义的不同。这也是解决词义问题的一个很关键的方面。因为作为语言成分的一个词,它在语言系统中所具有的经常性意义与它所表示的科学概念相联系但有很大的差别,不能混同。例如:

  水:  [科学概念]氢和氧的最普遍的化合物。化学式 H2O。无色、无臭、无味。在自然界中以固态(冰)、液态(水)和气态(水蒸气)三种聚集状态存在。空气中含有水蒸气,土壤和岩石层中有时也积存着大量的水。

257

Page 261: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

水是动植物肌体所不可缺少的组成部分,在 101.325千帕下,水的沸点为100℃,冰点为 0℃。水的密度在 4℃时最大(1 克/毫升)……(《辞海》)

      [语言意义]无色、透明、无味、无臭的液体。   直线:  [科学概念]一点在平面上或空间中沿一定方向和其相反方向

运动,所形成的轨迹是直线,它可向两个方向无限延伸。通过两点只能引一条直线。两点间以直线距离为最短。(《辞海》)

        [语言意义]不弯曲的线。 (《现代汉语词典》)在人们的日常语言运用中,说话人和听话人恐怕一般不会用到和联想到“水”和“直线”的科学概念。尤其是“水”,如果按照科学概念来理解,日常表达中的“冰”“水”“水蒸气”就成了同义词了。因此,必须区别词所表示的科学概念和语言意义。在进行词义分析时,必须依据“对说这种语言的普通人相关的东西,而不是通过科学研究才能感知的特点。”(兹古斯塔1983:348)正如谢尔巴所强调的:“必须记住,没有任何理由给语言强加一些不是它固有的概念,因为这些概念并非语言交际过程中必需的因素。”(石肆壬 1981:21)

这个定义使用“各种语言信息”的说法,加上了限定强调成分“各种”,意在避免过去那种对词义的片面理解,关注词所承载的各方面语言信息,以期对词义有全面的认识和把握。因为词作为基本的也是最重要的语言成分,它所承载的语言信息并不仅仅是词汇层面的,也有语法层面的,语用层面的;它不仅仅有作为独立体的“主体意义”,也有作为系统成分和组合体成分的“关系意义”。过去一般只注意到词在词汇层面的和作为独立体的意义,而忽视了它的其他层面的意义和关系意义,认识和掌握的只是词的部分意义。因而,在词义分析和运用时总会遇到困难和问题。这就犹如一个机器组装员只了解了某个零件的名称、形状、质料、规格这些本体情况,而没有了解它的功能和位置一样,当你想要把它装入机器的适当位置,自然是非常困难的。这正是我们过去在词义理解和运用时为什么总会遇到困惑的症结所在。因此,只有对词的“全息”意义有全面的认识和把握,才能实现对词语的准确理解和熟练运用。这对于语言信息处理,也具有更特别的意义。此外,“信息”一词,似乎也比“内容”、“含义”等词更能凸显词义的多维性和丰富性。三、词义微观结构的基本模型根据我们对词义的理解,借鉴国内外学者的研究成果,我们认为词义的微观结构大体上具

有如下样态:                                       

理性意义    

色彩意义

风格特征

 

主体意义类属特征关系特征

关系意义

功能意义

配价特征              选择特征分布特征语域特征格式意义

258

Page 262: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

为了便于理解,我们也可把词义的构成分析为如下平面图式:      理性意义主体意义   色彩意义

           风格特征             类属特征      词义    关系意义                    关系特征                  配价特征              

       选择特征   功能意义   分布特征

            语域特征格式意义             根据以上模型我们可以推知:

1.词义不是一个个封闭性孤立体,而是具有多向联系性的多维信息载体。它不仅在词汇层面与他词他义相联系,而且与大的语义系统和句法层面相联系。因而词义不仅包含着词汇层面的主体意义,而且也包含着与其他成分的关系信息和功能特征。也就是说,作为语言成分(注意:并不是单纯的词汇成分)的词,它的意义是一个几乎包含了与它相关的各种语言信息的复合体。只有对词义的“全息”状况进行彻底揭示,才是对词义的全面认识。

2.词义的三类构成成分的关系是:主体意义是主干,是词义的核心部分,它决定着关系意义和功能意义;关系意义和功能意义是主体意义的伴随成分,是主体意义的综合表现,由主体意义所决定。三者浑然一体,并非机械组合。

3.就人们的感知而言,词义三类成分的隐显度是不同的:主体意义是显性的,易为人感知;关系意义次之,为或隐或显状态,一般需要经过推理才被认知;功能意义可以说是潜在的势能,是隐性的,不易为一般人所察觉,只有具有一定语言知识和言语经验的人才能感知它的存在。

4.并不是所有的词都有模式中全部的意义成分,有些词有某些成分空缺。四、关于各构成成分的分析描写1.主体意义主体意义是词义的核心,它决定词的性质、地位和功能。主体意义包含如下成分:1.1理性意义 主体意义的核心部分,实际上也是词义的核心部分。其内容是对客观事物

和现象重要特征的概括。需要指出的是,一直以来的主流看法是,词的理性意义是对客观事物本质属性的概括。这实际上只是一种理想的假设,事实并非如此。因为,任何一个语言使用者都不可能、实际上也不需要对语言所涉及的客观对象都进行本质属性的概括,只要抓住了客观对象的重要特征即可,以能够满足人们的言语交际需要为度。例如,一般人用到“水”这个词的时候,脑子里不一定就有“氢氧化合物”这一概念;我们的古人用到“日“这个词的时候,不可能对太阳有本质的认识,但并没有因此而影响人们的言语交流。因此我们认为词的理性意义是对客观事物和现象重要特征的概括。这也表明,词义分析,只应关注作为语言成分的理性意义,应尽量排除没有进入到语言层面的因素。

259

Page 263: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

对于理性意义的分析和描写,一般可采用“扩展性词语表述”法(符淮青 1996)。也可采用语义成分分析法(Componential analysis)作进一步解析。常见,不示例。

1.2 色彩意义 即具有主观色彩的感受性、态度性、评价性意义,是理性意义的伴随成分。它大体包括通常所谓感情色彩、形象色彩等。例如:  羊羔)温顺 (表示“羊羔”含有“温顺”的色彩义。下例类推。)  母亲)慈祥  山) 高大  宝宝)喜爱英俊)褒扬

  嘴脸)贬斥 对于色彩意义,通常可进行定性分析,并可范畴化。可用一定的形式标记标示。1.3风格特征 即词的表现格调。它取决于词的理性意义、色彩意义、词的来源及背景等

因素。它决定词的语域。例如:  开幕)郑重庄严 (表示“开幕”一词含有郑重庄严的风格特征。下例类推。)  先生)典雅古朴  小气)通俗平易  拉屎)粗俗对于风格特征,可进行范畴化定性分析和形式标示。2.关系意义关系意义是词在一定的系统中与其他成分之间的关系表现。它是词的地位和价值的体现。

关系意义包含如下成分:2.1 类属特征 即词的意义范畴特征。它取决于词所指客观对象的属性。它在一定程度

上决定词的关系特征和功能意义。对此,古今中外学者已有不少研究。示例如下:  马∈动物 (表示“马”属于动物范畴。下例类推。)  小麦∈植物  跑∈动作  美∈特征对于类属义也可进行范畴化定性分析和形式标示。2.2 关系特征 即词与他词他义的关系样态。它体现了词义的系统性,决定词的地位和

价值。词的关系特征主要有上下位关系、整体部分关系、同义关系、反义关系等。例如:  鱼:↓水族(表示鱼是水族的下位词)  心:内脏 1(表示整体与部分的关系)  感谢:≈谢谢(表示同义关系)  大::小(表示反义关系)对关系特征可进行类型化标示。3.功能意义 功能意义是词的运用潜能和价值,是词义的综合表现。它决定词的用法。其构成成分主要

有如下类别:3.1 配价特征 即词的组配要求。它反映的是该词与一定数量的特定语义角色之间的依

存关系。它包括两个方面:一是价的数量,二是价的语义类型。配价特征实质上是词的语义要求,它是词在表达上足意的条件,表现在句法上就是词的组合能力。配价特征决定词的具体用法。例如“吃”为二价动词,它在运用中要求有一个表示施事的和一个表示受事的语义角色与

260

Page 264: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

之组配,来共同表达意义。例如:你吃苹果/我吃梨/小张吃葡萄

不仅动词有配价特征,名词、形容词也有配价特征。例如:  热情 2(二价):他对我很热情。  父亲 1(一价):你的父亲/我的父亲/小张的父亲我们可运用配价语法和格语法理论来研究确认词的配价特征,并可将其形式化。例如“吃

”的配价特征可标示如下:吃 2[A/施事;P/受事]还可对它的组配模式作进一步描写:吃 2[A;P]:A+~+P/A+P+~/P+A+~/~+P+A

3.2 选择特征 即词所表现出的对组合成分的语义特征要求。选择特征是词的重要的区别性特征,既可借以确认与其他成分的联系,又可借以弄清与其他同类成分的差异。在句法层面,它规定了组合对象的入位条件。例如:喝[+液体]:“喝”的选择特征是[+液体],它表明受其支配的对象必须具有这一特

征,否则就不能组合。因此,可以说“喝酒/水/果汁”,而不能说“喝苹果/馒头”。同时,还可以借[+液体]这一选择特征将“喝”与同类动词“吃[+固体]”区别开来,而与同类动词“饮[+液体]”关联起来。英俊[+男性]:同上,这也表明“英俊”要求与之组合的词语必须具有[+男性]这一

语义特征。选择特征的确认,必须运用语义成分分析法和有关句法格式归纳法来完成。3.3 分布特征 指词具有的充当句法成分的全部可能性。分布特征由词的主体意义所决

定,它则决定词的语法面貌和句法价值。例如:  清楚{谓语;状语;补语;定语}(括号内的项目是“清楚”可充当的成分)可用分布分析法(distributional analysis)来分析概括词的分布特征。3.4 语域特征 指词的适用角色对象和场景范围。它包括地域、场合、行业、阶层、角

色等社会类别和语体类型这两个方面。语域特征与词的风格特征、词的来源等因素有关。语域特征决定词的使用范围和使用习惯。例如:  果果:>儿童;口语 (表示适用于儿童,口语语体。下同。)  熊市:>股市  按揭:>粤方言  仙逝:>书卷3.5 格式意义 即词在特定句法结构中产生的意义。离开了特定结构,该意义就自动消

失。不过,由于这些格式意义大多已较固定,所以人们通常在意识中已把它看作该词意义的一个组成部分。例如:  非:必须,坚决(~+意愿性谓语) 例:我非要看!  断断:绝对(~+否定式)     例:你断断不能看!  日:每天,一天天地(作状语时)  例:日积月累。  海:大,多(作修饰语时)     例:海量/海饮   以上是我们对词义构成的简略分析与描写,限于篇幅,举例也只是单项示意,“全息”性

举例姑从略。

261

Page 265: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

参考和引用文献(按作者姓氏音序排列)冯志伟《现代语言学流派》,陕西人民出版社 1999。符淮青《词义的分析和描写》,语文出版社 1996。戴维·克里斯特尔《现代语言学词典》,沈家煊译,商务印书馆 2002。陆俭明《现代汉语语法研究教程》,北京大学出版社 2003。石肆壬《词典学论文选译》,商务印书馆 1981。束定芳《现代语义学》,上海外语教育出版社 2000。王寅《语义理论与语言教学》,上海外语教育出版社 2001。伍谦光《语义学导论》,湖南教育出版社 1997。袁毓林《汉语动词的配价研究》,江西教育出版社 1998。章宜华《语义学与词典释义》,上海辞书出版社 2002。张志毅等《词汇语义学》,商务印书馆 2001。郑远汉《言语风格学》(修订本),湖北教育出版社 1998。 兹古斯塔《词典学概论》,商务印书馆 1983。

262

Page 266: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

汉语的韵律成分界定与句法郑敏,蔡莲红

(清华大学计算机科学与技术系,北京 100084)摘要:本文主要研究了汉语的韵律成分界定和句法之间的联系。通过大量数据的分

析,首先指出韵律词不同于词典词,韵律词和复合词之间存在着主次、从属的关系;接着讨论了韵律与句法间相互制约的关系;然后通过比较韵律的树状层级结构和语法的递归嵌套结构,论述了基于句法信息进行韵律成分界定的方法及可行性,给出并分析了韵律成分界定结果。

关键字:韵律成分;韵律词;韵律短语;复合词;句法学;语音特征1 引言

汉语语音处理离不开自然语音理解。语音不仅是词汇的物质外壳,同样也是语法构造的物质外壳;汉语语法结构的区别、语法单位的归类、歧义的区分等,在语音形式上有充分的体现。赵元任先生系统地探讨了语法和语音的密切关系,林焘、冯胜利、王洪君等学者也研究了相关的问题,取得了不少成果。中国文字是一字一言的文字,言不同,意义不同,字也不同。但言语携带了比文字

更多的信息,如说话者的口音,情感信息等。在研究语音合成的过程中,除了关注音段特性外,更多的是研究语音的超音段(韵律)特性。包括“节律”(rhythm) , “声律”(metrics) ,“重音”( stress,accent) ,“轻重”( strong weak) 等韵律(prosody) 现象。我们在语音合成的研究和开发中,深切体会到句法、韵律的密切关系,故撰文与学

者们交流。本文首先在第二部分中综合介绍了各种韵律成分的概念,在第三、第四部分讨论了韵律成分、节奏、句法的关系,最后在第五部分重点分析了如何基于句法信息进行汉语韵律成分的界定,解释了韵律与句法间的联系与制约关系。2 汉语的韵律成分韵律是指语音的超音段特性。韵律是语音所抽象出的节律、重音和语调(intonation)

特性。如果把每一个韵律元素称作韵律成分。那么韵律成分从小到大依次是莫拉、音节、音步、音系词、附着语素词组、音系短语、语调短语和韵律语句。在汉语语音合成的研究与开发中,简化为韵律词(prosodic word)、韵律短语(Prosodic phrase)、语调短语(intonation phrase)和韵律语句。一个较小的韵律成分包含在一个更大的韵律成分中,由此形成韵律的层级结构。韵律词是从韵律角度来研究词,即找到语流中节律的基本单位,为了同语素词或句

法词分开而定义为韵律词。音步可以构成韵律词,在韵律词内部不能停顿,在韵律词边界的停顿不是必须的。韵律词具有类似语法词的连调模式和词重音模式,内部不出现节奏边界。

263

Page 267: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

韵律短语对应于音系短语,由一个或多个韵律词组成。通常认为韵律短语的长度是七个音节,变化长度为两个音节,这与呼吸群的长度相当。韵律短语具有相对稳定的短语调模式,即音高音阶的逐步下倾走势;还具有短语重音配置模式,即与句法结构相关的常规重音模式。

语调短语是最长的音系成分。一般长于韵律短语。在语法上,相当于较长的短语或较短的语句。语调短语内部可能包含不止一个韵律短语调模式和韵律短语重音模式,会出现相关的节奏分界,有特定的语调模式。它可能通过一些方式与句法或篇章结构相联系。3 韵律成分与节奏人说话时,会在词语之间插入长短不一的停顿(Break,静音),形成语声流的节

奏。正确的节奏,可以提高语流的自然度,也有助于对话音的理解,有时还能分化文字上的歧义。自然语流中,不同长短的停顿与韵律成分相对应,也与句法成分息息相关。在语音标注标准ToBI中,专门定义了停顿级别。郑秋豫教授将停顿分为六级:B0-简化音节边界,B1-音节边界,B2-次短语边界,B3-主短语边界,B4-呼吸群边界,B5-韵律群边界。她统计了大语料库中各级停顿的长度和分布,研究了停顿与韵律成分的关系。

在TTS系统中,文本分析的一个重要工作是分词,它应为语音合成器提供节奏和停顿信息。通常的做法是:基于(语法)词典,对文本进行分析理解,确定词或短语的边界。然而自然语流中的节奏是以韵律为基础的。我们分析了5000多个语句,结果表明韵律词与词典词(Lexical Words)的重合率约60%。微软中国研究院在进行汉语韵律词预测研究时,通过人工听音,标注韵律词语料库(大约1.1万句)。对该语料库的统计表明,韵律词和词典词不同在于:单字的词典词多于单字的韵律词,双字的词典词少于双字的韵律词;最长的韵律词有5个汉字,而最长的词典词有13个汉字。韵律词切分时一方面要满足语义的需求,另一方面要满足汉语双音韵律(disyllabic rhythm)的需求。从句法学的角度来定义的“词”,是指“最小的能够自由运用的语言单位”;而从

韵律学的角度来定义的“韵律词”,是指“最小的能够自由运用的语言单位”。韵律词一般是三音节以下的语法词或词组,属于一个音步的结构,所以不满一个音步的单音词或者单音语素要成为韵律词就必须再增加一个音节。如果从韵律词跟复合词的相互作用上看,在汉语中,一个音节就是一个语素,一方面,简单复合词(一个语素加一个语素)的实现必然可以满足音步的要求;另一方面,音步(即韵律词)的实现(一个音节加一个音节)则不可避免的导致复合词的出现,汉语里这种音步(音节+音节)跟复合词(语素+语素)的对应关系导致两个单音语素组合的结果既是韵律词又是复合词的现象极其普遍。但二者的关系并不是绝对平等的,就是说韵律词跟复合词之间存在着主次、从属的关系,这种关系简而言之就是:韵律词不必是复合词,但是原始复合词必须是一个韵律词。4 韵律与句法韵律离不开句法,句法支配韵律,但有时也会制约句法。有些学者研究了韵律与句

264

Page 268: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

法之间的相互影响和制约。我们在 TTS的研究中,需要从文本信息来预测韵律特征,而文本提供的是词法、句法规则信息。因此特别关注韵律和句法的关系。4.1 句法支配韵律

在语言的文本表示中,语言符号线性排列。语法结构的分析表明,语言单位呈现出层次结构,语音中的语言意义单元通过语音韵律单元的切分来体现;句法单位可能是语素、词、短语和句子等;韵律单位可能是莫拉、音节、音步、音系词、附着语素词组、音系短语、语调短语和韵律语句等。句法单位与韵律单位之间不存在一一对应关系。语音分段的价值必须通过表达一定的语法意义的段落来体现。句法对韵律分段的支配作用体现在: 语流中韵律边界必须以句法结构为基础,韵律边界总是出现在句法结构允许的位置,并在句法结构成分之间。但是句法结构的边界并不是设置韵律边界的必要条件。

韵律边界的层次总是倾向于同句法结构的层次保持某种程度的一致。但句法结构的层次高低并不是韵律边界层次的决定因素,因为韵律边界并不总出现在较高的句法层次上。

4.2 韵律制约句法韵律与句法是相互制约的。我们已经看到,在对任何句法单位、结构、类型、规则等进行讨论

时,都必须首先考察其韵律的方面,即把韵律视为一项语法原则。“韵律跟句法之间的相互作用”包含两层意思:一是“韵律受句法的影响与控制”,二是“句法受韵律的影响与控制”。冯胜利先生在《韵律句法学》指出:在韵律与句法的相互作用中 ,不仅句法对韵律有支配作用,而且韵律对句法也有制约性的反作用: 韵律边界的正确界定可以弥补文本信息的不足,有效地分化歧义,提高表达效果。 韵律可以改变句法。如“我被/老板/训了”。句中“被老板”应是一个句法成分,可人们经常

将“我被”连起来一块读而成了一个单位。 韵律可以使一些非法句法合法化。如“三十而立”,从句法上讲“而立”不是一个词,但在韵律上, “而立”是一个韵律单位(韵律词) 。

韵律还可以制约一些合法的句法变成非法。譬如, “种植/ 花草”可以说, “种花草”也同样合法。然而却没有人说“种植花”。其实“种植花”在句法、句义均无“非法”可言,它之所以不合法,是因为汉语韵律不允许(2+1)型动宾形式。

韵律可以在句法不能运作的禁区,硬用句法使其发生效力。譬如:“鞠躬”本是一个单纯词,句法规则本不能应用于其中的“鞠”跟“躬”。但是我们却可以说“鞠了一个躬”。

语流中,语音分段首先服从于韵律分界,句法层级分界次之。5 基于句法信息的韵律成分界定5.1 韵律层级结构与句法结构的关系

图 5.1是三级韵律层级结构的例子。在图示的树状结构中,语法词是最小的单位,位于叶子节点。韵律短语的边界一定是韵律词的边界,但韵律词的边界不一定是语法词的边界。可以看到,韵律结构树是一个无递归的结构,韵律词、韵律短语、语调短语分别处于不同的层级上,没有嵌套关系的存在。作为对比,这句话的句法结构如图5.2所示。句法结构树显然不同,短语类型之间存在嵌套的包含关系,比如NP 内部可以有更小的NP等。

265

Page 269: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

图5.1 三层韵律层级结构,U 是语调短语, PP 是韵律短语,PW 是韵律词 图5.2 句法结构树由上两幅图可以看出,句法结构要比韵律结构复杂,但这并不表示两者之间没有关

系。一般来说,韵律边界只能出现在句法结构允许的位置,它与句法成分边界位置的不一致主要发生在低级层次上,而在高级层次上是可以取得一致的。例如:韵律短语边界基本都是语法短语边界;较长的语法短语边界一般是韵律短语边界,较短的一般是韵律词边界。

若进一步将韵律短语细分为复合韵律词和韵律短语两级,实验表明,韵律边界位置分布与句法结构大致有如下关系: 韵律词边界的分布:在比较平衡的句子里多数出现在主语跟谓语之间;而在不平衡的句子里,韵律词边界分布比较离散,跟其他韵律成分边界都有较多的交叉,较多出现在:1)前置状语跟主语之间;2)复合句的小句之间;3)复杂偏正结构的不同修饰语之间。

韵律短语边界的分布:相对离散,主要集中在:1)比较复杂的偏正结构的不同修饰语之间;2)述宾之间,包括动宾之间、介宾之间或系表之间;3)不平衡句的主语跟谓语之间;4)修饰语与中心语之间,包括定语跟中心语或状语跟中心语之间。

语调短语边界的分布:分布范围也很广,主要集中在:1)不带“的”或“地”的短语或词组的两词之间;2)带“的”名词短语或词组的“的”字之后,以四字格为最常见。

5.2 基于句法信息的韵律成分界定实验结果及评价5.2.1 韵律成分界定结果的评价参数 表 5.1 混淆矩阵相邻两个语法词的边界有三种类型:B_a(两个语法词在同一个韵律词内);B_b(两个语法词在同一个韵律短语内,但不在同一个韵律词内);B_c(两个语法词在不同的韵律短语内);由此可见,韵律成分界定实际上是一个边界类型分类的问题,实验中,我们把学习到的规则应用在测试集上, 对每个边界得到一个预测的边界类型。和人工标注的类型比较,得到一个分类混淆矩阵(confusion matrix)如表 5.1。其中 B_ij表示人工标注类型为 B_j的边界被预测为 B_i的数目,定义评价参数如下: 韵律词划分正确率和召回率: ,

人工标注的类型

预测得到的类型B_a B_b B_c

B_a B_aa B_ab B_ac

B_b B_ba B_bb B_bc

B_c B_ca B_cb B_cc

266

Page 270: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

韵律短语划分正确率和召回率: ,

其中 是边界类型 B_i的召回率, 是把 B_c作 B_b 处理时,韵律词边界类型预测的正确率; 是韵律短语边界类型的总预测正确率。5.2.2 实验结果如若假定所有的语法词边界都是韵律词边界, 为 42.99%;如果都是韵律短语边界, 仅为 19.20%。因而,选取更有效的句法特征则成为提高韵律成分界定正确率的重要保证。在实验中我们选取了词性、词语、词长、词频及句子长度等一些句法信息作为界定韵律成分的特征。我们设计的一组实验如下:设窗口大小为 L+R,表示与边界左边 L 个词和右边 R 个词有关的特征都要考虑。让 L和 R 值在一定范围内自由变化,通过实验来选择最优的窗口大小和位置。实验结果如下:

表 5.2 基于句法信息的韵律成分界定的正确率和召回率词性特征 韵律词边界

界定正确率韵律词边界界定召回率

韵律短语边界界定正确率

韵律短语边界界定召回率

POS{0,1} 0.72 0.80 0.74 0.62POS{0,2} 0.72 0.77 0.76 0.66POS{-1,1} 0.72 0.74 0.77 0.70POS{-1,2} 0.73 0.73 0.79 0.71POS{-2,1} 0.74 0.73 0.79 0.68POS{-2,2} 0.71 0.73 0.79 0.70POS{0,1},WLEN{0,1} 0.79 0.80 0.86 0.68POS{0,1},WLEN{0,1},SLEN 0.78 0.75 0.87 0.71POS{0,1},WORD{0,1} 0.54 0.91 0.78 0.57POS{0,1},WORD{0,1}, WLEN{0,1},SLEN

0.83 0.90 0.88 0.76

5.2.3 实验结论1) 词性特征 POS是最基本也是最有用的特征。一般大小为 2+1的窗口已经足够了。再扩大窗口,将使学习时间变长,而正确率的提高有限。

2) 长度信息对预测正确率的提高很有帮助。3) 词语 WORD直接作为特征,没有明显改进,反而导致某些类别的召回率和精确率下降。但将词语 WORD和长度等句法特征结合起来,能最有效的提高韵律成分界定的正确率。

6 小结 语音、语义跟语法是人 类语

言中的几个独立的不同平面, 这已为语言学界普遍公认。现在, 纯句法理论已不再是汉语句法研究 的唯一目标,语音、韵律、句法等 研究不能割裂开来,它们本身就是 相互联系、相互制约的。不论是韵 律还是句法的研究,都应朝着多视 角、多层面的方向发展。韵律预测 是通

语法韵律

语义

语音表现

语义表现

语言理解

267

Page 271: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

过文本提供的是词法、句法规则信息来界定其边界类型,可见,韵律离不开句法,句法支配韵律,但韵律对句法也有制约性的反作用。 图6.1 韵律与句法、语义、语用的相互关系由此可见,将韵律与句法结合起来研究是今后研究的必然趋势。 致谢 文中基于句法信息的韵律成分界定部分的方法及结果得益并部分来源于赵晟硕士在实验室的工作,在此表示衷心感谢。参考文献[1] 赵元任,《汉语口语语法》,吕叔湘译. 北京: 商务印书馆,2001.[2] 林焘,《林焘语言学论文集》,北京: 商务印书馆,2001.[3] 冯胜利,《汉语韵律句法学》,上海:上海教育出版社,2000.[4] 尚新、刘春梅,《汉语语法研究中的韵律原则》,Vol.29,No.2,Apr,2003[5] 赵晟,陶建华,蔡莲红,基于规则学习的韵律结构预测,中文信息学报,Vol. 16,

No. 5,2002.9,PP.30-37

268

Page 272: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Taxonomy of Fine-grain Semantic Roles for Nominal Modifiers

Su-chu Lin, Shu-Ling Huang, Keh-Jiann ChenCKIP, Institute of Information Science, Academia Sinica, Taipei

{jess, josieh} @h p . iis.sinica.edu.tw , [email protected]

Abstract To assign semantic roles in building Treebanks, there is a need for annotators having a guideline in determining semantic relations between phrasal head and its modifiers or arguments. Semantic roles are hard to have clear-cut definitions. It is not always easy to determine thematic relations between two concepts. This paper aims to introduce an integrated nominal modifier system. Basically we adopt other scholars' incisive idea in analyzing semantic roles that modify general nouns. We use the approach of building a fine-grain taxonomy of role system. The taxonomy of fine-grain thematic roles makes the role determination easier for human annotators, since the meaning of a fine-grain semantic role is self explanatory and a higher-level semantic role is described by its hyponyms. The proposed taxonomy has been attested during construction of Sinica TreeBank and HowNet definitions of nominal concepts and proven to be more applicable than conventional flat structures.

1 IntroductionTo assign semantic roles in building Treebanks, there is a need for annotators having a guideline in determining semantic roles. Semantic roles establish the semantic relations between phrasal head and its modifiers or arguments. The verbal modifiers describing the semantic roles of an event are much discussed in various kinds of research, and FrameNet is the most representative among them. However discussions regarding semantics roles modifying nouns are scattered.

Semantic roles are hard to have clear-cut definitions. For instance, it is not always easy to determine thematic relations between two concepts. Dowty (1991) proposed criteria for determining proto-agent and proto-patient which means sometimes it is hard even to differentiate between agent role and patient role. We use the approach of building a fine-grain taxonomy of role system. The taxonomy of fine-grain thematic roles makes the role determination easier for human annotators, since the meaning of a fine-grain semantic role is self explanatory and a higher-level semantic role is described by its hyponyms. Another important advantage of taxonomic approach is that any flat fine-grain role system suffers the problem of completeness of role coverage, but a taxonomic role system can always find a coarse-grain hypernym role if a proper fine-grain role doesn’t exist in the system.

2 BackgroundAccording to Pustejovsky(1991, 1995), the defining attributes of an object is named as the qualia structure. Pustejovsky argues that the qualia structure of a word tells us the concept it carries in a language. The qualia is further specified into four aspects: constitutive, formal, telic and agentive. He defines constitutive "the relation between an object and its constituents". Formal in qualia distinguishes the object within a larger domain. The role telic shows the purpose and function of the object. And agentive are factors involved in how the denotation of the word came into being. The structured representation which gives relational force of a lexical item is well-discussed in qualia by Pustejovsky(1995).

Barker(1998) put forth 20 noun modifier relationships (NMRs) in his semi-automatic

269

Page 273: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

program115. However the individual NMR in this parallel framework tends to seem incomplete or fragmented. The firmness of the NMRs is to be challenged since one can add or delete a NMR easily. This is resulted from the scattered elements. Thus we decide to adopt a hierarchical order in our taxonomy of fine-grain semantic role for nominal modifiers.

3 Our analysisAt top level of taxonomy, we divide the semantic role for nouns into five categories: predication, quantifier, possessor, scene, and property. The following is our preliminary framework of fine-grain semantic role for nominal modifiers. The five categories are observable in real language and our data would not stray from these five. The subcategories in each role may not be exhausted or perfect, but they demonstrate a clearer picture on how the five roles function. We will introduce the skeleton of our analysis in the sections followed.

3.1 PossessorWithin the five, possessor and property are the two roles we get confused easily. We encounter some difficulties in assigning the semantic roles. The idea of possession seems to have less problem in examples like, wo de ya sui qian 我的壓歲錢 'my spring festival money gift' or zi ji de yi fu 自己的衣服 'one's own clothes'. The posessees in the two examples are separable from the possessors and the concept of owning something is vivid. Nonetheless, we hesitate to give the possessor role on some data like zu fu de yang zi 祖父的樣子 'the form of grandfather' and yu fu de shang huo 漁夫的生活 'the fisherman's life'. Does the grandfather own the form and does the fisherman have the life?

Heine (1997) compares many previous studies about possession in human languages. He uses criteria as alienable and inalienable, temporary and permanent, animate and inanimate, and abstract possession to subcategorize possession into seven. Hein's analyses are clear and ordered. But for us, some of the criteria are not so important as to be distinguished from the

115 The NMRs in Braker (1998) include "Agent (agt), Beneficiary (benf), Cause (caus), Container (ctn), Content (cont), Destination (dest), Equative (equa), Instrument (inst), Located (led), Location (loc), Material (matr), Object (obj), Possessor (poss), Product (prod), Property (prop), Purpose (purp), Result (resu), Source (src), Time (time), Topic (top)".

270

Page 274: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

top. For instance, the physical possession, temporary possession, and permanent possession116

in his analysis are combined to ownership in ours. The ownership means the alienable possession with an inanimate possessee. Heine leaves the inalienable possession117 to a single category. However, we consider the body-parts and relative relation which are described as inalienable possession in his study to be different; on the contrary, we think that body-parts (inalienable possession) and part-whole relationship (inanimate inalienable possession118) are similar, since they denote parts of their respective substances. Thus we have whole-part relation, head noun being a part of the modifier as well as relative in our study. In Heine's discussion, possession includes the inanimate alienable possession, such as the sentence The tree has crows on it. Yet we settle this group of data in scene for "the tree" is actually a position and the possessing connection between the two is not so close.

3.2 Property

We subdivide the property into constitutive and formal, following Pustejovsky's work. The constitutive includes the material and component parts of the noun. The phrase yu mi nong tang 玉米農湯 'corn puree' is on of the constitutive examples. Formal is describing the target noun's evaluation, attribute, apposition, gender or name. For instance, in kun nan de ren wu 困難的任務 'difficult task', kun nan is a difficulty evaluation of formal. We refer to Dixon (1982) on the features of attributes and evaluations of nouns119.

3.3 QuantifierGil (2001) distinguishes the internal and external quantification. In his studies, the external quantifiers is in the scope of syntax and thus beyond our discussion. His analysis of internal quantification is briefed as follows: 1. mass vs. count quantifiers 2. existential vs. universal quantifiers 3. numeral 4.others. Similarly our quantifier is subdivided into four, including existential, universal, mid-range quantifiers and numerals. Existential quantifiers mean that there exists something or someone to make the proposition real. The word you ge 有個 'some, certain' can be an existential quantifier which modifies nian tou 念頭 'idea'. Universal quantification refers to the range within the group, as the word quan bu 全部 'all' modifying sai cheng 賽程 'game'. The massive degree in-between existential and universal is called mid-range quantification, like shao shu 少數 'few', da duo 大多 'most' and others. Then the last type of the quantification is the numeral quantifiers. As a classifier language, the numeral quantifiers in Mandarin usually denote exact numbers along with classifiers as si tiao 四條 'four' is a possible numeral

116 According to Heine the definition of the three is as follows. Physical possession: the possessor and the possessee are physically associated with one another at reference time. Temporary possession: the possessor can dispose of the possesee for a limit time but cannot claim ownership to it. Permanent possession: the possessee is the property of the possessor, and typically the possessor has a legal title to the possessee.117 Inalienable possession: the possessee is conceived of typically as being inseparable from the possessor, e.g. body-parts, relative..118 Inanimate inalienable possession: part-whole relationship, inanimate possessor. The possessee and the possessor are conceived of as being inseparable119Dixon (1982) classifies English adjectives as dimension, age, value, color, physical property, human propensity, speed, difficulty, similarity, qualification.

271

Page 275: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

quantifier of yu魚 'fish'.

3.4 SceneLu (2001) uses "scene" in depicting the eventive case roles120. We adopt Lu's idea of scenic description and diminish it to adjust the nominal modifiers. The scenic description of location, time and domain are three self-explaining roles of nominal modifiers. The word Taipei is a locative use in Taipei de jie yun 台北的捷運 'Taipe's MRT', while the san xioa shi 三小時 'three hours' describes the duration of dian ying 電影 'movie'. Meantime, in xuan mei huo dong 選美活動 'beauty contest', we see that xuan mei is the domain of huo dong.

3.5 PredicationThe predication denotes the head noun would play an argument role rather than adjunct. The predication is an eventive modifier of the head noun. Pustejovsky's agentive aspect of qualia falls in the predication role of our system. Examples of predication are as below: ni zuo de huo gou 你做的火鍋 'the hot pot you made'. We can see that ni zuo de你做的 'you made' shows how the huo guo 火鍋 'hot pot' come into being, and also 'the hot pot' is the object in the clause of 'you made'. As to the telic use of predication, usually means that there is an omitting verb between the modifier and the head noun, such as shui guo pan 水果盤 actually means the plate used for placing fruits. The simplified phrase is without the predicate "used for placing". We arrange this kind of modifiers in telic use. Thus form the two predication use of the head noun.

4 Future workWe consult previous studies on each subcategory of the semantic roles for nouns, look for evidence form corpus and then modify the framework to fit Mandarin. The proposed taxonomy has been attested during construction of Sinica TreeBank and HowNet definitions of nominal concepts and proven to be more applicable than conventional flat structures. In the future we expect to make a complete fine-grain role system for not only nominal but also eventive semantic roles. Furthermore, we would like to compare and contrast even unify our work with other similar projects, such as FrameNet and HowNet.

References Barker, Ken & Stan Szpakowicz. 1998. Semi-Automatic Recognition of Noun Modifier RelationshipsProceedings of COLING-ACL '98. Montréal: 96-102.Chappell and McGregor. 1996. The grammar of inalienability: A typological perspective on body part terms

and the part-whole relation. Berlin, New York: Mouton de Gruyter.Dixon, R.M.W. 1982. Where have all the adjectives gone? Mouton Publishers, Berlin.Dowty, David R. 1991. Thematic Proto-roles and Argument Selection. Language, 67(3):547-619.Gil, David. 2001. Quantifiers. In Language typology and language universals : an international handbook,

edited by Martin Haspelmath et al.Heine, Bernd. 1997. Possession: cognitive sources, forces and grammaticalization. Cambridge: Cambridge

University Press.Li, N Charles and Sandra A. Thompson. 1989. Mandarin Chinese: A Functional Reference Grammar.

Berkeley: University of California Press.魯川 (Lu, Chuan). 2001. 漢語語法的語意網絡. 北京:商務印書館.Nastase, Vivi and Stan Szpakowicz. 2003. Exploring Noun-Modifier Semantic Relations. Proceedings of

International Workshop on Computational Semantics. Tillburg, Netherlands.Nichols. 1988. On alienable and inalienable possession. In In honor of Mary Haas: from the Haas festival 120See Lu (2001) for further discussion.

272

Page 276: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

conference on native American Linguistics, ed. by Shipley. Berlin: Mouton de Gruyter.Pustejovsky, James. 1995. The Generative Lexicon. Cambridge: MIT Press.

273

Page 277: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

閩南語語氣詞 hann、hio、honn 的語義比較研究柯怡姍

國立新竹師範學院台灣語言及語文教育研究所新竹,台灣

[email protected] 摘要 許多學者提到在討論語氣詞時會因句子或語調的關係模糊語氣詞的語意,故討論時以同語

調為大背景的前提下來討論語氣詞的分類。本文試圖透過比較此三個語氣詞的在用法上有何不同,在表達不同情緒時的以何者為最適用,。 本文在討論時參考於胡明揚在「語氣助詞的語氣意義」一文中所提到,在討論語氣助詞時,可使用的四種討論方式(1)去掉語氣助詞(2)保留語氣助詞-改掉或變動可能具有某種意義的語詞或結構(3)保留語氣助詞-只變動句中語調(4)在同樣的句子,使用同樣的語調的前提下加用不同的語氣助詞(5)分析整個語氣助詞系統。來作本文的語氣詞討論模式。2hann、hio、honn 的定位房玉清(1992)在討論語氣範疇時提出用語氣助詞表達語氣是漢語的特點之一。平常說話

都帶有一定的語氣。如果一個句子沒有語氣就不成句子。語氣的表達主要借助語調、語氣助詞和嘆詞。hann、hio、honn在閩南語中,固定與某種語調或語氣共同出現,所以本文針對上述三種方式。來討論其用法。許極墩指出台語的語氣助詞多在語尾,所以也是語尾助詞。又多屬擬聲詞,漢字全部加口

字旁。對於這類詞其主張不用漢字而用音標或字母。對於此三詞在詞的分類上是為語氣詞或是嘆詞,要先作個區分。根據趙元任(1979)的說法:助詞和嘆詞都是沒有固定的聲調但助詞是輕聲而嘆詞則否,嘆詞有其各種模式的語調。另外助詞是黏著的,語音上附著於前邊一個音節,在語法上是附著於前一個短語或句子。嘆詞則是自由的。若照其定義來看,hann、hio、honn以不同語調出現又非輕聲可視為嘆

詞,因為它們可以單獨出現,然而亦可視為助詞,因為常與句子或短語出現。因此以趙元任提出的觀點:助詞與嘆詞之間可以跨類的情形來作為對 hann、hio、honn的定位作解釋。在討論時不標調的原因是因為這三個詞在使用時,沒有一個固定的聲調,在句子中使用時會隨語調變化,單獨使用時又因不同情緒而有不同聲調,同時又因個人使用而異,故不加聲調。

另一位學者房玉清(1992)則是認為嘆詞是獨立的語氣助詞,綜合上述兩位學者的角度來看,如果此三個語氣詞單獨出現未與句子作結合則以嘆詞視之,如果和句子結合則以語氣助詞視之。3hann、hio、honn 的嘆詞表現當這三個語氣詞未在一個完整的句子中出現時,也就是以嘆詞的角度來看的話,其情緒的

表現更為明顯。通常是在聽到對方的一個告知的訊息後,所做的回應。3.1hann的語氣詞表現

hann的語氣詞可分為兩種。第一種為詞尾語氣上揚,與「什麼?」同語義。第二種為語氣下降,表示不耐煩啦,有時會在詞尾加上另一個語氣詞「啦」。3.2hio的語氣助詞表現單一個 hio的出現時,表示不可置信之意;或虛應的回應。其語義仍帶有懷疑的色彩,對

於對方所給予的資訊給予保留的態度。通常其聲調上揚。如果聲調下降除了懷疑外,還帶有給予負面態度中較不屑的語義成分。極至不願相信的語氣。

274

Page 278: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

連續三個 hio的重疊使用表示強烈的肯定。當對方表達一件事時,給予的回應 3.3honn的語氣詞表現

honn的音長通常拉的比較長,有發語詞的功能也是唯一可在句子說出前所使用的嘆詞。為說話者即將說的話做引導。所以發出 honn的語氣詞後。後面會在接一個句子。也可同 hio一樣;作為給予對方的一個回應。3.4三者比較han、hio、hon皆可重疊使用。但語義上 hio和 han比較相近。而 hon以聽話者著角度來看,不注意語用環境的話,在重疊使用時如果語氣詞的聲調再下降的話會令人感覺到似乎說話者有不耐煩之意。如果以單一詞出現時,hio的語義為「是喔!」的回應口吻,han表示對於對方所說的話表示認同,而 hon 若是以低降調來表達時則有表示接受對方的要求或是以高調表示「對對對!」或是「難怪」的語氣,整體來說 hon代表的語義以肯定為中心語義。4hann、hio、honn 的語氣詞表現-在句法中不同位置的表現當三個詞在句子或短語中出現時,以語氣助詞的角度來分析其在句法中的角色。過去在討

論語氣詞時,許多學者提醒要將句子的本意與語氣助詞分開看,才能真正看出語氣助詞的語意,否則語氣助詞很容易受句子的語意的影響而難看出其特性。如陆俭明(1984)在一篇文章「關於現代漢語裡的疑問語氣詞」中提到我們在判斷一個出現在疑問句末尾的疑問語氣詞是不是疑問語氣詞絕不能憑語感,而是要它是否真正付載疑問信息。4.1 確定語氣

確定語氣的表現在閩南語中只要是肯定句加上平緩的語調即可作為確定語氣,語氣助詞hon的增加,

例一彼咧絲彼咧皮給他撕掉 hon例二*這照片比本人較水 hon

在上述兩例中,如果在沒有加 honn的語氣詞的狀況下,皆是直述的肯定句,句型如下。但是加了 honn以後,第二例來講,有兩個可能性。一為確定並肯定個人看法,或是成為疑問句,尋求聽話的確定。因此判斷標準可能要以當時的上下語境來做判斷。這種模糊語義的產生是因為在句中做了一個比較的動作,有了比較等同於要做一個價值的判斷動作,所以如果說話者沒有表現出肯定的語調的話,則是暗示聽話者應該也是支持說話者的立場。由於 hio在作為嘆詞時的語義為懷疑及不肯定的語氣,所以在表達確定語氣時,並不適用。而 han的確定語氣常常在廣播節目聽見,除了在句尾作一個結束外,也給聽話者一個較為

安心確定的口吻,或是長輩表達關心時,也是常見如:家己較注意 han4.2 測度語氣根據房玉清(1992)的定義測度語氣的表現指說話者對某種事時已有推測和估計,但不敢

確定,表示這種語氣有時以疑問句的形式出現,有時以陳述句的形式出現。關於疑問句的形式在下列的疑問語氣在討論。本段針對陳述句的形式

例一伊絕對袂阿內,阿母對啦 honn例二卡早大里國小嘛出一個查某校長 hio

在進行測度語氣時,honn會出現在句末來對句子所陳述的整個事件作測度,也就是說例一中的honn是對「伊絕對袂阿內」這件事情作推測,而 hio則是對出現在 hio前面的名詞作測度,也就是說例二中所臆測的對象是「查某校長」。4.3感嘆語氣感嘆語氣是表現說話者當下的情緒高亢所發出的語氣詞可以讓聽話者強烈感受到說話者的

心態。語氣詞在這邊的作用可以使得對話更為活潑更具閩南語的特色:

275

Page 279: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

例一你今嘛台語不只 e曉講 hon閣真輪轉內,例二 han!cia貴喔。 hio仍不適用此感嘆語氣。

4.4假設語氣在閩南語句中如果出現「若..」的話,可作為假設語氣的表達。例:若這第四點 honn就要看

老天保佑。honn是這三個語氣詞中最適用的語氣詞,雖然成為假設語氣的句子主要是因為「若」字的出現,而非語氣詞來主導這個假設語氣,但是如果以 hio、han替換的話,則是相當不適用。 例一*彼若是我 e意見 hio… 例二*彼若是我 e意見 han…所以假設語氣的假設句只能和 hon這個語氣詞共同出現。4.5 疑問語氣此三個語氣詞出現在疑問語氣的情形較多所以分開討論,其各有下列幾種語意。

(1) 是非問句是非問句是指在說話者將一段話說出後接著由聽話者去判斷是或否的句法結構。除了透過

語調上揚還可以加上語氣辭作修飾。如果綜合語調以本例一來看的話:伊不知我沒 ka問 honn?如果句子改為「伊不知我沒 ka問?」也是可以成立的,所以 hon在這邊是附加上去的語尾助詞。如果再以其他兩個來替代可以發現 hio與 hon可與是非問句的句末出現,而 han顯然不合適。在對話中,han較少以上揚的聲調或語調出現,多是以降調來陳述,如果上揚的話是在敘述句中較適合出現。如果在句尾加上「喔」再加上這三個語氣詞的話,hio及 hon仍是可成立,但比較偏向嘆詞的性質。 例一伊不知我沒 ka問喔/內,hon? 例二伊不知我沒 ka問喔/內,hio? 例三伊不知我沒 ka問喔/內,han~前兩例中的 honn及 hio的出現使得「伊不知我沒 ka問喔/內」可以成為是非問句,而 hann在這邊可以出現,但還是無法形成問句,而以牽聲方式來表示不可置信或者不以為然。因此在是非問句中,只有 hon及 hio的輕聲可以被允許在此環境中產生。(2)非是非問句主要分為兩種句型一為特指句一為選擇句。

例一你是憑啥 hann?例二你是欲去唱歌還是欲返去 hann?

例一為特指句以「啥」來作為疑問的焦點,而例二則是選擇句。說話者提出兩個解決問題的方案,來給聽話者做選擇。在非是非問句中,語氣詞的地位是比較薄弱,因為就算沒有附加語氣詞,句子仍可成立。此外,三個語氣詞之中也只有 hann可與此句型結合,hio及 honn與非是非問句的結合非閩南語所常用的語氣。4.1.6反問語氣反問句就字面上的意義來看,是個問句形式。但真正的語義是表達一個肯定或否定的意義。

例一你是欲放咧生利息 hio例二你 cia愛吃是欲死 hio

如果單看「你是欲放咧生利息?」也就是語尾語調上揚的話,是在詢問是否要把這件事情拿去生利息,聽話者可以是或不是來回答。如果再加上 hio的話,則語義改變,成為一個具有反諷意味的語氣詞,通常說話者以此口氣說話的話,多是責罵的心態或是陶侃聽話者。如果是責罵的話,hio必須短而急促如第二例,如果是要陶侃他人的話則是以牽聲的方式來表示。相同情

276

Page 280: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

況,hann可用來替換;而 honn替換的話,其反問的語氣相對 hann及 hio來講,口氣較為和緩許多。同時語義也有落差 例一你是欲放咧生利息 hann/hio 例二你是欲放咧生利息 honn在例一中 hann及 hio的口吻可以讓聽話者確定不是要放著生利息,而在例二中 hon的語意則是說話者表達非常肯定的意思,也就是說據說話者的角度來看,說話者是經過一番推測,說出此訊息希望由聽話者再做確認。而成為是非問句。5 結論 han、hio、hon在生活對話中應用廣泛,本文在討論這三個語氣詞的語氣意義未涉及語用部分的討論是為不足之處。畢竟當時上下的語境及語調會對語氣詞的語義造成影響是本文不足之處。 由於語氣詞的使用會隨語調與情境的不同而有異議。所以在附加語氣詞時更須格外謹慎。否則很容易因為誤用而導致溝通上的阻礙。參考書目趙元任,1979漢語口語語法。商務印書館沈開木,語法、理論、話語-現在漢語的探索。廣東人民出版社張伯江、方梅 1996漢語功能語法研究。江西教育出版社房玉清,1992實用漢語語法。北京語言學院出版社胡明揚,1983,05語氣助詞的語氣意義,中國語文胡明揚,1981,05 北京話的語氣助詞和嘆詞(上),中國語文胡明揚,1981,06 北京話的語氣助詞和嘆詞(下),中國語文陆俭明,1984,05關於現在漢語裡的疑問語氣詞,中國語文

277

Page 281: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

海陸客語副詞"才"與"就"之語義研究國立新竹師範學院

台灣語言與語文教育研究所彭秀媛

0.摘要: 本文將從普通話的副詞"才"與"就"說起。副詞"才"與"就"有時是近義詞,有時卻是

反義詞,目前尚未有區分的絕對標準,而台灣海陸客語”才”與”就”除了語義及用法的異同之外,還有語音的差異。另外由於普通話和台灣海陸客語的”才”與”就”語義接近,故本文先針對普通話的"才"與"就"探討其語義。再者根據筆者的調查,台灣海陸客語的” tNang31”、”sii31”、”sii55”經常混用,且”sii31”與”sii55”有語音隨義轉的現象。因此,本文主要從例句來說明及探討台灣海陸客語的"才"與"就",藉以釐清祈語義及用法。

1. 從普通話來看副詞”才”與”就”有不少學者曾針對普通話的副詞”才”與”就”做過說明及分析,但義項分

類並不相同,以下是筆者歸納後提出的分類:1.1才:基本意義為”不多121、不久”,帶有說話人的主觀評價。

1.1.1 表示時間:a.意思同”剛剛”:表示事情在說話之前很短的時間內發生的。b.說話者認為事情發生得太晚、太久。

1.1.2 表示數量:說話者認為數量太少。1.1.3 表示條件或原因子句,才~~(表示結果)。 句首常用”只有”、”除非”、”必須”、”為了”等虛詞強調條件或原因122。1.1.4加強語氣:句尾常用語助詞”呢”、”哩”,更表示強調的語氣。1.1.5”才”與”就”連用: 表示一個動作或行為發生不久後,另一個動作或行為又緊接而來。

1.2.就:基本意義為”不多123、不久”,帶有說話人的主觀評價。1.2.2 表示時間

a.表示事情尚未發生,但很快就要發生了,時間可省略。b.表示事情早已發生,必須寫出發生的時間。c.認為事情發生得太早、太短,帶有說話者主觀的色彩。

1.2.2 表示數量:可表示數量多或數量少。若單從書面文字來看,會有歧義現象產生,須靠輕重音來區別。

121 屈承熹(1999),頁 60。122鮑克怡(1988),頁 44。123

278

Page 282: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

a.表示數量多:從以上例句來看,”就”表示說話者認為二分鐘就可以跑一圈,速度很快。”就”在句中輕讀,”就”之前的主語和後面的數量詞重讀。

b.表示數量少:從以上例句來看,也可以說成”就”表示說話者認為二分鐘才跑一圈,速度太慢。”就”與後面的數字重讀124。

1.2.3(先發生的事件子句)+,(主語)就~~(後續的動作)。可以和”只要”、”既然”、”如果”等連詞配合使用。

1.2.4 表示前一動作未發生或完成,後一動作已經開始。 1.2.5加強語氣

從語義來看,”才”與”就”皆可當作時間副詞、數量副詞、評量副詞以及當作連接詞。在當時間副詞或數量副詞,說話者對事情發生的時間或數量表示主觀的意見時,兩者是對立的反義詞;但由於”就”會有歧義現象,所以兩者是反義詞或近義詞皆有可能,需加上語調或上下文來判斷。至於當作評量副詞,用來加強語氣,此時兩者可互換,為近義詞。當作連接詞聯繫句子時,鄭良偉先生認為”才”的語義重點在主語,”就”的語義重點在賓語,因此兩者不可互換。

2.從海陸客語的”才”與”就”以上對普通話”才”與”就”的分析,可看出兩者在意義和用法上有相似的

地方,但又有不少重要的區別。而海陸客語的”才”與”就”也是如此。以普通話的”才”來說,與客語的” tNang31”「正」語義相當(四縣客語音為tsang24,海陸語音為 tNang31)125。普通話的”就”,四縣多以”tshiu55”表示,海陸客語雖有時也用 tshiu31,但以使用頻率來說,還是以”sii31”或”sii55”表示為多。

然而在筆者查閱客語辭典及客方言研究資料時,卻發現關於”sii31”或”sii55”的描寫是少之又少,顯然這個使用頻率頗高且用法複雜的副詞,尚未受到應有的注意。因此筆者便從普通話”才”與”就”的語法意義來看海陸客語的” tNang31”和”sii31”、”sii55”,藉以釐清三者的用法及語義。” tNang31”、”sii31”、”sii55”語法意義的個別介紹:2.1 tNang31(正)在海陸客語的語法意義:

2.1.1表示剛剛、剛才的意思。2.1.2表示說話者認為時間或數量太短、太少。2.1.3在句中起聯繫作用,前句通常為表示條件或原因的子句。2.1.4可用來加強語氣。

2.2 sii31 在海陸客語的語法意義:2.2.1表示說話者認為時間或數量太長、太多。2.2.2在句中起聯繫作用,前句通常為表示條件或原因的子句。

124 鮑克怡(1988),頁 167。125 有關客語海陸腔與四縣腔聲韻調系統的差異,請參見羅肇錦《台灣的客家話》。

279

Page 283: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2.2.3表示前一動作未發生或完成,後一動作已經開始。2.2.4可用來加強語氣。

2.3 sii55 在海陸客語的語法意義:2.3.1表示說話者認為時間或數量太短、太少,與 zhang33為近義詞。2.3.2可用來加強語氣,且程度較強。

3.客語” tNang31”、”sii31”、”sii55”的比較分析3.1 表示時間、數量

3.1.1 〔時間(或數量)+~~〕例(1)汝樣會十點 tN ang 31 去睡目?(你怎麼會十點才去睡覺?)例(2)汝樣會十點 sii3 1 去睡目?(你怎麼會十點就去睡覺?)例(3)汝樣會十點 sii 55 去睡目?*其中例(1)是說話者用「tNang31」表示時間發生得太晚或太久,例(2)

是說話者用「sii55」來表示時間發生得太早或太快,因此在〔時間(或數量)+~~〕的結構裡,tNang31和 sii31為反義詞。而打*的句子表示不成立,sii55無法在此句型使用,但可以用 sii 55 十點 ,汝樣會去睡覺?(才十點,你怎麼會去睡覺?)把 sii55放在時間和數量以前,句子可表達與例(2)相同的意思。

3.1.2〔~~+時間或數量〕例(1)該位 tN ang 31 三十介人。(那裡才三十個人。)例(2)該位 sii3 1 三十個人。(那裡就三十個人。)例(3)該位 sii55 三十介人。(那裡才三十個人。)我們觀察例(1)和例(3),說話者用「tNang31」和「sii55」來表示數量

太少,在〔~~+時間或數量〕的結構裡,tNang31和 sii55為同義詞。再觀察例(2)裡的「sii31」表示數量太多,「tNang31」和「sii55」為反義詞。3.2〔表條件或原因子句,+~~(表示結果)〕

例(1)你要聽佢介話,佢 tN ang 31 會歡喜。(你要聽他的話,他才會開心。)例(2)你要聽佢介話,佢 sii3 1 會歡喜。(你要聽他的話,他就會開心。)例(3)你要聽佢介話,佢 sii55 會歡喜。*以上 tNang31和 sii31為近義詞,只是 tNang31表示的條件為「必要條

件」,而 sii31表示的條件為「充分條件」126。另外,sii55無法在此句型使用,須將句型更改成:sii55 有+條件或原因子句,+(主語)tN ang 31 ~~(表示結果),與普通話〔表條件或原因子句,才~~〕的句式相同。以下舉例說明: sii 有聽佢介話,佢 tN ang 31 會歡喜。(只有聽他的話,他才會開心。)與以上例(1)相同,表示「必要條件」。3.3加強語氣:

例:我 tNang31不信汝講介話。(我才不相信你說的話。)126 屈承熹(民 88)針對”才”和”就”兩個副詞與「條件句」搭配的分析,並認為此時兩者是近似同義詞。

280

Page 284: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

例:我 sii31不信汝講介話。(我就不相信你說的話。)例:我 sii55不信汝講介話。(我就不相信你說的話。)此時三者皆可加強說話者的語氣,語句的意思也差別不大。但從以上例句來

看,tNang31和 sii31通常是在對方的言論結束後,說話者所給予的評論;而sii55則是說話者不論對方的言論為何,心中早已認定的想法,因此可說強調的程度最甚。

下表是對於” tNang31”、”sii31”、”sii55”之語法意義所做的比較:語音形式

語法意義tNang31 Sii31 sii55

〔時間或數量+~~〕 晚 早 ×

〔~~+時間或數量〕 早 晚 早句子聯繫作用 可 可 ×

加強語氣功能 較弱 較弱 較強 若從語句的形式來看,” tNang31”和”sii31”通常可以用於相同的句式,而”sii55”在〔時間(或數量)+~~〕以及〔表條件或原因子句,+~~(表示結果)〕結構時,必須改變位置,才能成立合法的句子。

4.結語除了從語義層面來分析”才”與”就”,筆者嘗試從句法位置來分析其所表

達的語法意義。在〔時間或數量+~~〕和〔~~+時間或數量〕的格式中,tNang31、sii31和 sii55會有不同的意義,普通話也是如此。由普通話來觀察客語,我們可以知道” tNang31”和”才”有明顯的共同性,另外更發現海陸客語中"sii"有趣的語音及語用現象。當 sii為高平調時有”才”之語義;為低降調時有”就”之語義,也可以發現普通話和海陸客語不同方言間的差異。透過本文的分析結果,除了希望能澄清令人混淆的概念,提供客語教學作為參考,更希望能為海陸客語的語言研究盡一份心力。

※ 參考文獻屈承熹(1999)。漢語功能認知語法。台北:文鶴出版社。陸儉明(1985)。現代漢語虛詞散論。北京:北京大學出版社。鮑克怡(1988)。現代漢語虛詞解析字典。上海:上海教育出版社。陳立芬(民 91)。現代漢語副詞【才】與【就】的教學語法。國立台灣師範大學華語文教學

研究所碩士論文,台北市。

281

Page 285: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Semantics-related Lexical Access Deficit of Mandarin-Chinese Dyslexia

Angela Ku-Yu Tzeng Yun [email protected] [email protected]

Department of PsychologyChung-Yuan Christian University, Taiwan

INTRODUCTIONDevelopmental dyslexia refers to a specific deficit on reading and writing. Dyslexic

subjects have normal intelligence and adequate leaning opportunity, yet cannot acquire age-appropriate reading skills. Studies done on many languages repeatedly show dyslexic readers suffer from phonological-related deficits (Bradley & Bryant, 1985; Mann & Brady, 1988). They have poor phonological awareness. Their phonological short term memory is significantly poor, even though their general memory is intact. They have problem on phonological encoding, and their phonological representation of is fuzzy. There are also other accounts being proposed. Magnocellular hypothesis illustrated dyslexia has visual processing deficit (Livingstone, Rosen, Drislane, & Galaburda, 1991; Chen, 2000). Connectionism model suggested dyslexics can also suffer from orthographic processing deficits (Harm & Seidenberg, 1980; 1999).

Most of the dyslexia studies in literature were conducted on alphabetic writing sytems (e.g, English). As logograph, Chinese has very different orthography, and the learning processes are also quite different. This leads us to a question: will Mandarin-Chinese dyslexic subjects show the same behavioral pattern as English readers? Researches seemed to suggest phonological ability is as important for Chinese readers as for English readers. 陳淑麗 and 曾士杰 (1999) demonstrated phonological awareness is critical to character perception, verbal achievement, and can be a good predictor on reading comprehension. Other studies also suggested the important role that phonological ability/awareness plays in reading Chinese (柯華葳&李俊仁, 1996; 洪慧芳, 1993; 黃秀霜, 1997; Hu & Catts, 1998; McBride-Chang & Ho, 2000). We can then conclude Mandarin-Chinese dyslexic readers also suffer from phonological deficit. Therefore, the purpose of current study was to investigate whether dyslexics also have difficulty on semantic-related lexical access.

METHODSThree experiments were conducted. There were three groups of subjects: 25 Dyslexia

subjects (D, average of 13.4 yr), 22 Reading Level Controls (RL, average of 10 yr), and 17 Chronological Age Controls (CA, average of 13.5 yr). The first study was a naming speed test. Dyslexic children usually have a very slow reading speed. Therefore, we would like to eliminate the possibility that their problem was due to a more general slow reaction capacity. Four different types of stimuli were introduced: objects, numbers, juyin symbols, and colors. There were 50 items for each type, presented visually. Table 1 was the results. The result between D and RL were not significantly different on all conditions, but both groups were slower than CA group. This result seemed to suggest the slower naming speed in this experiment cannot be purely accounted for by reading ability of D group.

Table 1. Naming Speed in Experiment 1 (in second).Stimuli D RL CA comparison

282

Page 286: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Color naming 41.7 39.1 37.8 n.s. among groupsObject naming 46.3 43.3 35.4 RL > CA*, D > CA *Digit naming 22.9 20.0 17.3 D > CA *Juyin naming 35.9 31.4 27.3 D > CA*** significant at .05 level. ** significant at .01 level.

We then asked whether dyslexic readers have orthographic rules. There were totally 16 low frequency characters, 16 pseudo-characters, 32 non-characters in study 2. 24 items were selected after pilot study. Subjects were to decide do they think each item look like Chinese characters. All three groups yielded almost perfect scores (D = 22.1, RL = 22.3, CA = 23.4) out of 24 points. No significant difference was found. This indicated that the problem of dyslexia was not due to lack of orthographic rule alone. In other words, the result of experiment 2 suggested dyslexics may have intact orthographic rule, other factors (phonological representation and/or semantic similarity) may play crucial roles.

Now, we all know dyslexic subjects have reading problem. And experiment two showed their orthographic rule may be intact. This leaded us to another question: what went wrong in the process from script to meaning? We already knew they do have phonological processing problem (from previous research), therefore, one question remained: do they also suffer from semantic-related processing. We would investigate this in study three with a semantic-related deficit experiment. A 2 X 2 complete within subjects design was employed. There were totally 40 trials, 10 in each condition. Half of the questions were “yes” and the other half were “no” questions. In each trial, experimenter would read a phrase, and a character would be presented in front of the subject visually, and the subject was to make a Yes/No judgment. For example, the phrase would be “彩虹的虹?” (Is this the “hong” in the word of rainbow?), and subject saw “紅” (red), and the correct answer would be “no”. Based on the relation of two characters being compared (one by auditory, one by visual presentation), there were two independent variables: Physical Similarity (sharing a component or not), and Semantic Relatedness (Table 2). In all four conditions, the two characters for comparison were homophones. Reaction time and accuracy were the recorded. The ANOVA showed two significant main effects (Group, F(2,60)=23.424, p<,001; Semantic Relatedness, F(1.60)=7.501, p<.05). Semantic also showed significant interaction with Group, and Physical Similarity. Pair-wise comparisons (table 2) were conducted. Besides, regression analysis for D group, Semantic Relatedness can account for 31.7% of totally variance, and Physical Similarity had no significant effect. For RL group, Semantic Relatedness can account for 40.5% of totally variance, and Physical Similarity can account for only 4.3% of total variance. For CA group, Semantic Relatedness can account for 31.7% of totally variance, and Physical Similarity can account for 9.8%. In sum, this paradigm indicated the poor performance of dyslexia can be accounted for by semantic relatedness.

Table 2. Design and Results in Experiment 3 (number of accurate responses out of 5 trials).Physical Similarity No Physical Similarity

Semantic Related

Semantic Not Related

Semantic Related

Semantic Not Related

彩虹的『虹』紅, D(2.44 ) RL(3.05)CA(3.53)RL > D*CA > D***

283

Page 287: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

工作的『工』功, D(3.60)RL(4.36)CA(4.17)RL > D**CA > D***

訂婚的『訂』定, D(2.15)RL(2.18)CA(4.41)CA > D***CA > RL***

已經的『已』以, D(3.84)RL(4.14)CA(4.77)CA > D**CA > RL*

* significant at .05 level. ** significant at .01 level. *** significant at .001 level.

DISCUSSION AND CONCLUSIONSExperiment 1 suggested naming speed was not the main problem of dyslexics.

Experiment 2 suggested Mandarin-Chinese dyslexics also have certain orthographic rule and ability. In experiment 3, since all target characters were homophones, the well-known phonological impact has been kept constant. We can therefore conclude the semantic relatedness between the two characters did reveal some of the difficulty dyslexic children encounter. Dual Deficit Hypothesis (Bowers & Wolf, 1993; Wolf & Bowers, 1999; Wolf, Bowers, & Biddle, 2000) was then discussed for a theoretical interpretation of the result.

References柯華葳和李俊仁(1996)國小低年級學生語音覺識能力與認字能力的發展:一個縱貫

研究,國立中正大學學報第七卷,第一期,頁 49-66。洪慧芳(1993)文字組合規則與漢語閱讀障礙—對漢語閱讀障礙兒童的一項追蹤研究,

中正大學未發表之碩士論文。陳一平(2000)閱讀障礙之巨細胞系統功能異常假說,中華心理學刊,第四十二卷,

第二期,頁 113-140。黃秀霜(1997)台灣兒童早期音韻覺識、視覺技巧與日後中文認字能力關係之研究,

行政院國家科學委員會專題研究計畫成果報告。陳淑麗和曾世杰(1999)閱讀障礙學童聲韻能力之研究,特殊教育研究學刊,第十七

期,頁 205-223。Bowers, P.G., & Wolf, M.(1993). Theoretical links among naming speed, precise timing

mechanisms, and orthographic skill in dyslexia. Reading and writing:An

Interdisciplinary Journal, 5(1), 69-85.

Bradley, L., & Bryant, P.(1985). Rhyme and reason in reading and spelling. Ann Arbor:

284

Page 288: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

University of Michigan Press.

Harm, M. W., & Seidenberg, M. S.(1999). Phonology, Reading Acquisition, and

Dyslexia:Insights From Connectionist Models. Psychological Review, 106(3),

491-528.

Hu, C.F., & Catts, H.W.(1998).The role phonological processing in early reading ability:What we can learn from Chinese? Scientific Studies of Reading, 2,55-79.

Livingstone, M. S., Rosen, G. D., Drislane, F. W., & Galaburda, A. M.(1991).

Physiological and anatomical evidence for a magnocellular defect in developmental

dyslexia. Proceeds of the National Academy of Science, 88, 7943-7947.

Mann, V. A., & Brady, S.(1988).Reading disability:The role of Language Deficiencies.

Journal of Consulting and Clinical Psychology, 56(6), 811-816.

McBride-Chang, C. & Ho, C. S. H.(2000). Developmental issues in Chinese children’s

character acquistion. Journal of Experimental Child Psychology, 58, 112-133.

Wolf, M., Bower P. G., & Biddle, B.(2000). Naming-Speed Processes, Timing, and

Reading:A Conceptual Review. Journal of leaning disabilities, 33(4), 387-407.

285

Page 289: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「少許」、「些許」的複合化過程及語義演變鄭 縈

Ying Cheng台灣靜宜大學中文所台灣.台中縣沙鹿鎮

[email protected]

陳菘霖Chen Sung Lin

台灣新竹師院台灣語文所台灣.新竹市

[email protected]

摘 要本文主要探討歷史上「些」、「少」與「許」的複合化過程。先秦時「餘」出現「Num+餘(+N)」的格式,到了漢代「許」假借為「餘」,產生「約略計數」的用法,經由類推而形成「Num+許(+N)」的格式。「少」和「些」都是「不多、少量」義的不定數詞,分別在南北朝、元代與「許」結合為複合詞。關鍵字: 複合化 compounding、語義演變 semantic change、假借 transferable loan、類推analogy1. 現代漢語中「少許」、「些許」的用法在現代漢語中都可以表示數量不多的意思,根據教育部《國語辭典》對「少許」、「些許」解釋如下:少許 些許些微、一點點。 少許、一點兒。如:些許小事、些

許微物,何足掛齒!亦作些須。根據「中央研究院平衡語料庫」的語料顯示「少許」共有 22筆資料,「些許」共有 40筆,都是形容詞用法,舉例如下:少許 些許少許+N 14筆 如:加入少許冰糖。

些許+N 24筆 如:可加入些許果醬。少許+的+N 8筆 如:少許的鹽 些許+的+N 16筆 如:總會有些許的

祕密。「少許」、「些許」都是帶語素「許」的複合詞 ,語素的語義也相似。「許」有「約略、大約」義。「些」可以是少量、一點義的副詞,用於形容詞前面,如:些微;也可以當做名詞中的量詞,表示計算事物不確定數量的單位,如:這些人。而「少」則出現下列三種詞類:1. 形容詞,表示不多,如:稀少。2. 動詞,表示丟失,如:我少了幾件東西3. 副詞,表示不經常的,如:這是少有的事。根據歷史語料顯示,「少許」連用最早可推至南北朝,如下例 1)、2) :

1)釵光逐影亂,衣香隨逆風。江南少許地,年年情不窮。(樂府詩集卷二十六 相和歌辭/相和曲上/江南曲)2) 人餉魏武一桮酪,魏武噉少許。(世說新語/中卷下/捷悟第十一)

例中的「少許」從句式來看,可以為「少許+N」,也可以是「V+少許」。「些許」最早應出現在元代,如例 3) :

286

Page 290: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

3)量百里小縣,些許公事,何難決斷?(三國演義/第五十七回/柴桑口臥龍弔

喪/耒陽縣鳳雛理事)接著本文將從歷時觀點說明「少」、「些」和「許」複合化的過程,語料採自「中研院漢籍電子文獻」,語料的挑選則參考蔣紹愚(2001)的原則:A.用白話寫的文學作品,B.散見於文言作品中的白話資料。此外,為了使歷時演變的脈絡更為清楚,也參考了一些史書。

2. 「許」、「少」和「些」的語義演變2.1 「許」的語義演變《說文解字》對許字的本義解釋如下:「許」聽言也。段注:聽從之言也,耳與聲相

入曰聽,引伸凡順從曰聽,「許」或假為所、或假為御。許字的本意最早為「聽言」,其後引申出順從、聽從之義。之後假借為處所及奉承。至於「許」的「約略計數」義,王宇(1992)則主張是從「許」的代詞用法而來。王宇 (1992 )指出,「許」在魏晉時代常以「如許」、「爾許」表「如此」、「這樣」的語義出現,到了宋代文獻《太平廣記》「如許」、「爾許」已經成為一種固定結構,意義相當於「如此」,可解釋為「像這樣 (那樣 )」,大多是以「如許+名詞」及「爾許+形容詞」的形式出現,其後「如許」的形式開始插入名詞,形成為「如…..許」表示「像…那樣」、「像….一樣」,「如…許」除了可插入名詞之外,還可插入表示數量的詞語,表示約略計數,有時在「許」的後面還接著表示約數的「來」,形成「如….許來」,之後「如…許」插入數詞的形式中,「如」經常省略,導致形成「數詞+許」的形式,同樣表示約略計數。然而就我們所整理的語料看來,「約略計數」義的「許」並非代詞的衍生用法。「許」表示「約略計數」義,最早可推至兩漢,如例 4)-5) :

4) 惠帝七年夏雷震南山…地草皆燋黃.其後百許日.家人就其間得龍骨一 具.鮫骨二具.(西京雜記/卷二 三十則)

5) 魏襄王冢、皆以文石為槨、高八尺許。(西京雜記/卷六 十五則)「許」在《西京雜記》一共出現 6筆,其中有 4筆表「約略計數」,其句式為「Num許+N」或是「Num+許」。以上例句顯示,「許」表示「約略計數」的用法,在漢代就已經出現,而表示「這、這個、這般」的「許」則是南北朝時期新生的代詞(柳士鎮 1992)。如此一來,表「約略計數」的「許」是從何來的?我們認為應當是「餘」的假借。周緒全、王澄愚(1991)指出「許」、「餘」在上古同屬魚韻,因此兩者有假借關係,並繪制「許」的語義演變,如下圖一:

圖一周緒全、王澄愚(1991)「許」的演變許:聽從、答

贊同、承

假借為「處」處

假借為

假借為287

Page 291: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

所謂假借(Transferable loan ),張誼生(2000)認為,有些詞因為讀音形式相近,有些實詞被借用為虛詞,或是虛詞之間互相借用。換言之,表「約略計數」的「許」經由「非自然的語義演變----假借」為「餘」。「餘」在先秦時期已出現不定數詞的用法,如 6)-10) : 6)魏王與龍陽君,共船而釣,龍陽君得十餘魚而涕下。(戰國策/魏策四) 7)韓事秦三十餘年,出則為竿蔽,入則為席荐。(韓非子/存韓) 8)於是老子乃著書上下篇,言道德之義五千餘言而去。(史記/老子韓非列傳)

9)《春秋》左氏丘明所修,皆古文舊書,多者二十餘通,藏於密府。(漢書/楚原王傳) 10)魏人有唐且者,年九十餘。(戰國策/魏策四) 以上例句中「餘」的句式可為「Num+餘+N」或「Num+餘」。之後「許」假借為「餘」,因類推而形成「Num+許+N」或「Num+許」的格式。所謂的類推,就是指兩個來本意義和功能相同的成分或形式,當其中一個成份或形式語法化以後,另一個成份或形式在相同的條件下,也可能受其影響,發生同類變化(孫錫信 2003)。另外,「餘」、「許」成為同義詞後,在魏晉南北朝,「餘許」還可以連用,如例11)-13) : 11)暄前後從征及出使檢察三十餘許度。(魏書/列傳/卷四十二) 12)糞穢入池即死矣.種一斗餘許,足以供用也。(齊民要術校釋/卷六/養魚第六

十一) 13)舉堂囑目.與齋主共語百餘許言.忽不復見.(大正新脩大藏經】/二0五九 高僧

傳(十四卷)/卷七)2.2 「少」和「些」的語義演變《說文解字》對「少」解釋如下:「少」不多也。段注:不多則小,故古少、小互訓通用。「少」表示少量、不多之義,如下例 14)-15) : 14)覯閔既多.受侮不少。(毛詩/國風/邶/柏舟) 15)少發則不足以更適,多發則民不堪其役。(鹽鐵論/奮胡)「些」在《十三經》中並未發現語料,而在《楚辭》當中發現了一筆「些」的語料,如下: 16)魂兮歸來,去君之恆干,何為乎四方些。(招魂)在歷代的注釋文獻當中,漢《楚辭章句》、唐李善注《文選》皆未解釋楚辭中「些」的語義。直到中唐才出現對「些」的解釋,楊時俊(2002)引述中唐五臣注《文選,招魂》對「些」解釋如下:「些,少也。」根據他的說法「些」表示「少」的語義,最早應可推至隋唐。鄂華鄉(2001)指出最早出現「些」字用法的時間是在隋朝,但「些」不是單獨使用,是和「小」字,組成複合詞為「些小」,如下例 17) : 17)方今天下飢。路糧無些小。前去三時程。此身安可保。(《隋詩/煬帝幸江南文民

歌》)「小」可指「物之微也」,亦可指「不多」之意;「些」同樣也有「微細」、「少量」兩個意思。所以,這裡的「些小」理解是「形體微細」或「少量」都可以。宋代時期,「些」則能單獨使用,用於形容詞前,表示一點兒、少量,如例 18)-20) : 18)秋水雙明,高山一弄,著我些悲壯。(陳亮集127/唸奴嬌)

127 宋 陳亮撰, 鄧廣銘點校

288

Page 292: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

19)也是如此.但『命』字較輕得些.(朱子語類/卷第九十八 張子之書一)20) 敬齋箴後面少些從容不迫之意,欲先生添數句。(朱子語類/卷第一百五 朱子二/論自注書/敬齋箴)

例 20)中出現了「少些」連用的情形,在元曲文獻中「少量」義的「些」與「小」、「少」形成同義並列式合成詞(唐韻 2003)或「疊架」現象(王海棻 1991)。3. 「少」、「些」和「許」的複合化過程「少」為表示不定數的數詞(太田辰夫 1987),到了南北朝時期因「Num+許+N」或「Num+許」的類推而形成「少許」(如例 1-2)。魏晉以後,「少許」連用形式依然沿用。如下例 21)-24) :

21)藉卿政事。頃在纆縗。今禮制巳過。服用茲始。少許衣物。何足謝焉。(全唐文/卷三十七/元宗十八/答張九齡謝賜衣物批)22)徑入去石上坐.飢甚,則吃少許餅.久後吃盡了。(朱子語類/卷第一百三十八雜類)23)襪帶變蛇的一般武藝兒。免不了化費少許錢鈔。(歧路燈/第四四回 鼎興店書生遭困苦 度厄寺高僧指迷途)24)故必獻生表至敬也。旋以鹽末少許。灑杯中。(閱微草堂筆記/卷十五 姑妄聽之一)

「些」在隋唐成為表示不確定的數詞,在元代也因「Num+許+N」或是「Num+許」的類推機制形成「些許」。元代以後「些許」開始分布於其他文獻,如例 25)-27) :

25)然後燃艾炷。仍蘸些許雄黃末同燃。(普濟方128/針灸/卷四百二十二 針灸門/咳嗽)

26)必用稻柴灰淋汁煮,亦有用些許石灰煮者。(遵生八箋129/飲饌服食箋下/甜食類/)27)做我一生應做之事,為爾等留些許地步。(清代史料筆記叢刊/焦廊脞錄/卷八/)

綜合言之,「許」假借為「餘」,表示「約略計數」,形成「Num+餘(許)+N」也可為「Num+餘(許)」。表示少量義的不定數詞「少」和「些」,經由類推機制,先後和「許」連用形成「少許」和「些許」。參考文獻

1. 王宇 1992〈太平廣記中「許」字的虛化現象〉《古漢語研究》vol.3 頁 53-552. 王海棻 1991〈六朝以後漢語疊架現象舉例〉《中國語文》vol.5頁 366-3733.唐韻 2003〈元曲選賓白中「些」、「些兒」、「一些兒」〉《西華師範大學學報》(哲社

版)vol.5 頁 132-1374. 孫錫信 2003〈語法化機制探賾〉《漢語學習》vol.1 頁 27~315. 蔣紹愚 2001《近代漢語研究概況》北京大學出版社6. 柳士鎮 1992《魏晉南北朝歷史語法》南京大學出版社7. 太田辰夫著,蔣紹愚、徐昌華譯 1987、2003《中國語歷史文法》北京大學出版社8. 鄂華鄉 2001《情態動詞「有」及「有些」》 靜宜大學中國文學系碩士論文9. 周緒全、王澄愚 1991《古漢語常用詞源流辭典》重慶出版社

128 明·朱棣(周定王)、滕碩、劉醇等編129 明 高濂 著

289

Page 293: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

10. 教育部國語辭典 http://140.111.1.22/mandr/clc/dict/11. 張誼生 2000〈論與漢語副詞相關的虛化機制-兼論現代漢語副詞的性質、分類與範

圍〉《中國語文》vol.1頁 3-15

290

Page 294: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「臉」和「面」在現代華語中的語義區別陳葚慈

新竹師範學院 台灣語言與語文教育研究所摘要

本文主要探討在現代華語中「臉」和「面」之間的語義差別。「面」是個古字,在甲骨文的遺跡中已經能找到此字130,表示頭的前部,從額頭到下巴的部分;而「臉」出現的年代較「面」晚,「臉」字直到魏晉時期才出現,它的本義並不是指整個臉龐,而只有表示臉頰的上部131。「臉」與「面」在現代華語中都可以用來指稱五官所在的部分,但隨著時代的演變,「臉」都較常被當名詞使用,泛指五官所在的顏面部分;而「面」在名詞部分除了可表示「臉」之外,更延伸出“方位”、 “物的表面”、 “事物的部分”甚至於“量詞”的用法;在動詞的部分,則是有“正對著”的意思。比較漢語「臉」和「面」可以發現,「臉」的用法,大多保留著原來的意義;而「面」則衍生出多種意義,甚至抽象的用法。除了比較兩個字在現代華語的差異之外,也更進一步探討彼此之間可以互用的部分。利用中央研究院平衡料庫的語料,來加以解釋、分析兩字之間的異同,以釐清這兩個字在實質上語義的差別。

根據《現代漢語用法辭典》和《現代漢語搭配詞典》這兩本辭典中的語義,並將平衡語料庫中的語料加以分類。1. 「臉」的語義功能身體部分1.1臉部(頭的前部,從額頭到下巴的部分)滿臉都是鮮血 臉上都是皺紋露出臉不是禁忌 我粗暴扳過他的臉臉上佈滿青春痘 紅霞在他的臉上臉部上所呈現的表情我能就擺出一張臭臉 冷著臉說投資環境不良 一臉剛強堅定的神色 不要以難看的臉去面對

1.2 整個人(由臉代表人的整體)連臉都不看你一眼 露一次臉親自露臉

社會文化部分(社會上交際所需的尊嚴或人格)1.3 名聲、尊嚴 拉不下臉來跟他道歉 眾人面前他丟盡了臉 丟系上的臉 後人臉往哪裡擺1.4 情面、交情130 《說文》:面,顏前也。131段德森,《簡明古漢語同義詞辭典》,山西教育出版社,1996。P602。

291

Page 295: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

我沒有跟他扯破臉 一夜就變了臉兩岸扯破臉以來

1.5 膽量有什麼臉去指責 能在厚臉無恥地搬弄沒有臉走出去

語義的衍生和轉化:語義擴大 臉頰的上部>整個臉部 整個人

社會文化部分(名聲、情面、膽量)2.「面」的語義功能身體部分2.1臉部

躲在門板之後掩面哭泣 猶如涼風輕拂面 那個人大概是蒙了面 黑面老憎一旁答話道臉部上所呈現的表情

面現苦楚的低下頭 個個面露兇光 面惡心善的大壞蛋 滿面勞碌困倦2.2整個人(由臉代表人的整體) 還沒有見過面 見了面就糊塗了 再見一兩次面後2.3當面 在信任的人面前將煩惱說出 他當著大家的面社會文化部分(社會上交際所需的尊嚴或人格)2.4名聲;尊嚴 面上有光 面上無光 事物部分2.5物的表面(由臉的性狀延伸至事物的外表) 柏油路面出現車子的痕跡 凹凸面的磁磚 印度洋面上開駛著 2.6方面、部位(事物的不同部分)不論是好的一面或壞的一面 宜蘭三面環山

德國給予世人的映像是複雜而多面的 行業也有好壞兩面 受到兩面夾攻 依次換面找2.7 數量的單位(用於扁平或能展開的東西) 贏得上百面獎牌的王惠珍 那張結婚照佔了我大半面牆 一面「投身飼虎」的壁畫 十二面屏風環繞的床 歷史是一面鏡子 把三百多面國旗帶來台北空間部分

292

Page 296: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2.8 幾何學上線移動所生成的形跡 正方體的六個面來看 點、線、面的構圖 體積內部的面名詞動化部分2.9朝向 在面東的斜坡上坐定 語義的衍生和轉化:語義擴大整個臉部 132 整個人

社會文化部分(名聲) 事物部分(物的表面、事物的部位、數量的單位) 空間部分(幾何學上線移動所生成的形跡) 名詞動化部分(朝向) 3. 語義的共通性與差異3.1共通性「臉」和「面」的語義都可以用來表示人體從額頭到下巴的的部位、整個人或抽象的名詞「尊嚴」。但在形容人的尊嚴部分,「面」常常無法單獨出現,必須加詞綴(例如,面子),才能表達。3.2使用頻率

次數 義義

臉752

面702

1. 臉部 602 (79.9%) 51 (7.2%)臉部上的. 表情

106 (14.0%) 47 (6.6%)2 整個人 11 (1.4%) 62 (8.4%)3. 當面 26 (3.7%)4. 交情 4 (0.5%)5 . 膽量 1 (0.1%)6 .名聲、尊嚴 14 (1.8%) 2 (0.2%)7. 物的表面 20 (2.8%)8. 方面、部位 300 (42.7%)9 . 量詞 152 (21.6%)10 . 幾何學上線移動所生成的形跡

25 (3.5%)

11.名詞動化 1 (0.1%)12. 其他133 14 (1.8%) 17 (2.5%)132 究竟何時開始衍生出不同的抽象用法,需要由歷史語言學研究再更近一步的討論。133 有些語料中的例子是詞組、成語或慣用語,較無法分開處理(例如,熱臉貼冷屁股、扮白臉,扮黑臉、

293

Page 297: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「臉」常用來指稱「臉部(頭的前部,從額頭到下巴的部分)」,較接近原來的語意(79.9%)。「面」常用來指稱「事物的某一部分」,較脫離原來的語義(42.7%)。

3.2 語義衍生和轉化的差別3.2.1 義素的關係根據曹134指出,現代漢語中等義關係詞是大量存在的,其中一種是幾個詞義各自

所在的詞或詞組有一個或兩個詞義相同。可以利用詞義義位中的義素分析法,再更近一步比較之間的差異。

義素義位

人身體的部位

人的尊嚴

事物的表面或一部分

量詞 空間 動作狀態

臉 + + - - - -面 + + + + + +

「臉」在義素部分,除了可以指身體的部位,也可以延至表示尊嚴的抽象用法,但是無法指涉關於人以外的抽象事物部分。但「面」除了可以指人的身體部位或人的尊嚴之外,甚至可以近一步延伸出與人沒有相關的抽象用法,例如表示事物的表面或一部分、量詞的用法,空間的概念甚至也延出表示動作的狀態。 3.2.2 語義衍生和轉化由 3.2.1的比較可以知道,義位間的義素關係是部份重合的。 「臉」由本義衍生至社會文化義。「面」由本義衍生至社會文化義、表事物部分的抽象義、空間義和動作的狀態。(「面」語義的延伸範圍較廣)參考書目史錫尧,《語法‧語義‧語用》,北京:人民教育出版社,1999。張建理,英漢多义词异同研讨,外國語 2003年第 4 期,2003。贾彥德,《漢語語義學》,北京:北京大學出版社,1999。曹炜,《現代漢語語義學》,上海: 學林出版社,2001。參考辭典呂叔湘主編,《現代漢語八百詞》,北京:商務出版社,2000。段德森,《簡明古漢語同義詞辭典》,山西:山西教育出版社,1996。梅家駒,《 現代漢語搭配詞典》,上海:漢語大詞典出版社,1999。閔龍華主編,《現代漢語用法辭典》,台北:文橋出版社,1997。

打腫臉充胖子….)。134曹炜,《現代漢語語義學》,上海: 學林出版社,2001。P103-115

294

Page 298: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

义项语汇典例(SVDE)的总量控制模型——人机协作对采用汉语注释的语义词汇典例进行计量分析

邹晓辉 ([email protected] 0756-5505041)519125 中国广东省珠海市斗门区井岸桥东恒美花园 15-2栋 201号

关键词语:字组细分、总量控制、人机协作、单语义项字典、双语用例词典摘要

语义词汇典例(SVDE)的总量控制模型,既是一种新理论,又是一种新方法,还是一种新工具。在人机协作网络(融智系统)中有两种总量控制模型,即:关于自然语言理解的文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。GTCM表示在GLPS中的文本分为 0~16 个进阶。GSCM表示在 SVDE中的音节分为 1~n 个进阶。SVDE的义项由成对的编号序列控制。字与解释字的义项的字组之间遵循 1 对 n的法则构成母语的 SVDE(单语义项字典)。无论基于并列性还是基于合成性双语的观点,解释字的义项的汉语字组与解释词的义项的英语词语之间遵循 1 对 1的法则构成双语的 SVDE(双语用例词典)。

AbstractThe Gross Control Model[GCM]of Semantic Vocabulary as Dictionary with

Examples[SVDE]is a new theory or method or tool。There are tow kinds of GCM in man-com-net including the Gross Text Control Model[GTCM]and the Gross Syllable Control Model[GSCM]on Language Understanding。GTCM means 0~16 levels with all kinds of texts in GLPS。GSCM means 1~n levels with all kinds of syllables in SVDE。The meanings of SVDE controlled by geminate numbered list("1...n" to "1...n")。SVDE with mother tongue is made by the way of that the meanings of words are paraphrased by phrases in the same language such as Chinese according to the law of "1" to "n" as "word" to "its paraphrased phrases"。Bilingual SVDE is based on Co-ordinate Bilingual or Compound Bilingual according to the law of "1" to "1"("1...n" to "1...n") as "the numbered list of all meanings "to" the numbered list of all the paraphrased phrases both in Chinese and in English"。Quality currency 一、绪言在人机协作网络(融智[1]系统)中有两种总量控制模型,即:关于自然语言理解的

文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。本文探讨词汇一级的模型GSCM,属于计算语言学分支汉语词汇语义学的课题,位于全球语言定位系统(GLPS)与全球知识定位系统(GKPS)的结合部 [2]。SVDE 处理一字多义的方式,与学科内流行的“贴标签[3]”的方式不同,算得上是一种高效处理词汇语义的简便方法。为进一步寻找消除自然语言理解的语义障碍[4]的新途径,本研究的侧重点,不是“埋头拉车”,如:“贴标签”或分析“素、类、槽、格[5][6]”,而是“抬头看路”,如:把握形式化的方向、辨别可否计算、考虑知识表达以及关注各种本位说[7][8]。为了让读者以小见大、窥斑知豹,本文从理论回顾、模型发展、个案分析三个方面进行综述,然后,介绍方法、结果和结论。VSDE 涉及两个假设:1、“单独存储(并列性双语者)与共同存储(合成性双语者)”[9]可由融智系统整合为典与例。2、汉语的混音节线串型

295

Page 299: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

字组(词语)是单音节层面型字组(汉字)与英语的混音节词语之间无歧义连接(同意并列)的纽带 (旨在保证双语的义项对译)。本课题的贡献在于:1、提出了字组细分的观点和GSCM;2、提出了对语言和知识进行直接表达和间接计算的策略(区别于间接表达和直接计算的策略);3、为推行“产、学、研、用、算”一体化的人机协作实施语文系统工程和知识系统工程提供了 SVDE 体系,对消除词汇一级的形式歧义和内容歧义十分有益。

二、综述 对语义问题的认识有一个由简单到复杂再由复杂到简单的过程。下面,分三个方面进行综述。

理论回顾 1、在语言哲学方面,与本研究密切相关的是“意义”问题。“意义、词语、事物”这个“语义三角”一直是有争议的。以往理论主张“意义”作为词语或概念是不可分的。本研究认为可分。 2、在语言理论方面,与本研究密切相关的是“本位”问题,各种本位说,首先反映不同的汉语语言观, 其次必然带来相应的各种理论,最后也必然影响汉语理论实践的各个方面。本研究的语言观:1、就古代汉语和现代汉语中与传统一脉相承的语言现象而言,认同字本位。2、就现代汉语中吸收西方语言而发生显著改变的语言现象而言,主张字组细分。这样,不仅能较好地与英语等西方语言的词、词组和短语对译,而且也能与其他本位观之间建立相互兼容的实用接口。本研究认为:汉语是拼字音节,汉语的混音节线串型字组是单音节汉字与英语的混音节词语之间无歧义连接的纽带。本研究为研究双语或多语和一文双语(涉及拼音)[10]以及一文多语(涉及方言)提供了参照模型。

3、在逻辑理论方面,与本研究密切相关的是“消歧”的问题。本研究认为:逻辑学实质上是一门研究消歧的学问。例如:二值逻辑和三值逻辑,就是处理二歧性与三歧性的问题。 4、在数学理论方面,与本研究密切相关的是“多元数”问题。本研究认为,“多元数”不仅是数学与逻辑学之间的一个结合点(属下一步的研究课题),而且对复杂性系统的表达特别有用。 5、在认知理论方面,与本研究密切相关的是“双语存储”问题。本研究认为:双语的单独存储模型与共同存储模型各持一端,故提出融智系统的整合协同存储模型(属下一步的研究课题)。 6、在计算语言方面,与本研究密切相关的是“语言的计算与表达”问题。本研究认为:基于规则、统计、实例的处理既可以有直接计算(属性值)和间接表达(属性标注),也可以有间接计算(数字)和直接表达(直接呈现母语表达的知识)。词网(wordnet)与 SVDE可以兼容。

7、在知识工程方面,与本研究密切相关的是“知识的计算与表达”问题。基于数据库及数据仓库,SVDE可以有效地处理常识性知识,在一定数量或规模的范围以内很有效。

296

Page 300: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

8、在信息理论方面,与本研究密切相关的是“信息的本质”问题。本研究对这个问题的探讨,是与前面的“义”的义项的研究联系在一起的,涉及一般科学的信息定义。 9、在软件理论方面,与本研究密切相关的是“软件的计算与表达”问题。可用程序语言的冗余度很大。这增加了人们对软件编程的神秘感。本研究的方法有利于软件开发以简驾繁、去冗存要。

10、在人工智能方面,与本研究密切相关的是“智能的本质”问题。从时间顺序看,人类智能、人工智能、协同智能,前两者是后者的基础,“理解”属于“智能”体现的一种具体类型。由此可见,要思考解决语义问题的方案,必然涉及很宽的领域。某个学科认为非

常难的问题,在多个学科的角度看来,也许只是“小菜一碟”! 模型发展

本文所述自然语言理解的总量控制模型(GCM)分为文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。其中,在词汇一级,GTCM有 1~7七个进阶(即 0~6七个表),GSCM有拼音文字(如英语)与非拼音文字(如汉语)的区别,以音节为单位,考虑语义,英语涉及六个进阶,词素是单音节,词、词组和短语都是混音节;汉语涉及三个进阶,字是单音节,字辞语统称字组(其中字视为独字组)是混音节。从字组细分的观点看拼字就是拼音节。上述分析与下表的思想一致。进阶 机码 表号 汉语 拼音 英语

1   0 基本笔画 字母表 26 个字母2   1 不成字偏旁部首   词头和词尾3   2 变形字偏旁部首   前缀和后缀4   3 字中字偏旁部首   词根5   4 单音节字(独字组)是汉语的基本语言

单位单音节 单音节的词

6   5 双音节字组(双字组)可区分:离心与向心

双音节 双音节的词或语7   6 多音节字组(多字组)含:4与 5 两种成

份多音节 多音节的词或语

个案分析 汉语词义消歧的文献[11]谈如何标注“看”的词条。转述与分析:1、把“看”视为词,2、对多义的处理(有几个义项就列几行),3、分列标上“词类、义项、主体、客体、英语单词”等属性,4、汉译英时,根据搭配特征,选择与相应词条对应的英语单词,即:“see, watch, read”。显然,“看”与“see, watch, read”之间是“1 对 3”的关

297

Page 301: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

系。从“1”到“3”的转换靠“属性标签”间接实现的。识别或计算的也是“属性标签”或其搭配“特征集”。于是,存在几个问题:a、对汉语义项形式的表达是间接的。b、对汉语义项知识的计算是直接的。c、汉字与英词的对译出现脱节(绕了一个大弯)。当然,补上相应的汉语字组(义项用例)对译脱节的问题也就迎刃而解了。单从“拉车”的角度看,这个问题似乎很容易解决。遗憾的是,由于“埋头拉车”而没有“抬头看路”,所以,发现不了这个问题的存在(视而不见)。“看路”的人关注的方向不同。思路受制于观点——不同的语言观(大前提 )导向不同的方向。加上“拉车和看路”的人被习惯所左右——不同策略(小前提)制约选取知识表达和计算的方式。这就失去了改变的可能。本来看似简单的问题也就变得复杂了。就本例而言,就是在“看”(汉字)与“see, watch, read”(英词)之间增加“看见、观看、阅读”(汉语字组)。这样,“1 对 3”就直接转化为 3 个“1 对 1”(SVDE把这个转化一般化,GSCM使其总量可控——注:由于 CLSW5 对论文页数的限制,显而易见的对照表在此省略),汉译英的歧义自然消除。补上“看”字义项的字组用例并不难。但要改变语言观就非常困难,要改变习惯也不容易。

三、方法汉语语义词汇典例(VSDE)的总量控制模型(GCM),是根据字组细分的观点

和拼字音节的分划方法,把所有的汉语字组(词语)以单音节的字作为汉语的基本语言单位进行计量和排序(1~n)。其中,n表示自然数。也就是说,GSCM表示在VSDE中的音节分为 1~n 个进阶(由 n 个表记录)。SVDE的义项由成对的编号序列控制。字与解释字的义项的字组之间遵循 1 对 n的法则构成单语义项字典。无论是基于并列性还是基于合成性双语的观点,解释字的义项的汉语字组与解释词的义项的英语词语之间都遵循 1 对 1的法则构成双语用例词典。GTCM表示在GLPS中的文本分为0~16 个进阶。 1、制作 SVDE的定性方法——义项字典与双语用例的相互关系 a、单语义项字典(参考认知理论的独立存储学说,以汉释汉为例)汉语:从单音节的汉字到混音节的汉语字组,一字多义的义项表述形式为“1 对 n”;b、双语用例对译(参考认知理论的共同存储学说,以汉译英为例)双语:从汉语的混音节字组到英语的混音节词语,对译的双语用例的表述形式为“1 对 1”。 2、制作 SVDE的定量模型——汉语词汇与英语词汇的进阶层式 a、文献《协同智能计算语言数据库的设计方法》曾经把汉语的“字、辞、语”分别排在GTCM的“第4、第 5、第 6”三个发展进阶层式的位置。b、对词汇一级而言,上述安排过于粗放,故进一步提出从单音节的汉字到混音节的汉语字组的细分方案,并且按照“单字、双字、三字、四字 ...多字”(具有可计算性)的表述形式,抽象地采用自然数进行表示,由于考虑到“单音节的汉字”位于 GTCM的“第 4”这个特定的发展进阶层式的位置,把“字、辞、语”即“第 4、第 5、第 6”三个进阶以内的所有词语合并到一起,再另行按照“单字、双字、三字、四字 ...多字”(具有可计算性)的顺序,细分为“0~n”个进阶,并以此命名为:GSCM。c、即:进阶层式数据库的“第 4”表或字组细分数据库的第“1”表——单音节的汉字总表,字组细分数据库的第“0~n”表——混

298

Page 302: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

音节的汉语字组总表。d、词汇义项典例,即:“1 对 n”单语解释字典和“1 对 1”双语对译词语(用例),是前述定性部分的内容。 综上所述,词汇义项典例的总量控制模型(GSCM),由定性和定量两部分构成。

四、结论词汇义项典例的总量控制模型(GSCM),既是一种新理论,又是一种新方法,

还是一种新工具。 1、字组细分的基本观点(GSCM 体现的科学原理之一) 在词汇一级,主张对汉语词汇从单音节的字到混音节的字组进行细分的观点。字组细分可使汉语中蕴藏的通用原理更容易显现出来,例如:a、从音节与汉字一一对应的关系来看,汉语是最规范的(如:英语的词的音节就不规范,表现为混音节)。b、字组中字数的增加与语义中项数的减少之间表现出反变关系。c、可按音节数估算汉语使用过程中概念的个数与被重用次数。d、汉语词汇的基本数量,从一字到二字区别大呈上升趋势,再从二字到多字区别大呈下降趋势,例如:字(只有几万个)、二字组(已有人从语料中采集统计出几十万个)、三字组(例如三字经等常用三字词语的数量也不过几万个)、四字组(例如成语只有二万多个)...多字组(如歇后语等常用多字词语的数量则更少)。 2、词汇语义的处理法则(GSCM 体现的科学原理之二) 基于字组细分的观点可归纳出自然语言(词汇一级)处理的基本法则。a、词汇义项的定性分析与重用法则(1)单语解释,遵循:“1 对 n”法则。例如:单音节汉字总表中的汉字编号与义项编号之间,就遵循“1 对 n”法则。(2)双语对译,遵循:“1 对1”法则。例如:混音节字组总表中的字组编号与双语用例编号之间,就遵循“1 对 1”法则。采用混音节汉语字组表达的义项解释用例的编号与采用其它自然语言语种的词语表示的同一义项解释用例的编号是一致的和通用的。也就是说,尽管计算机前台展示的界面是多样化的,但后台数据库中存储的同一义项解释双语(多语)用例的编号是一致的。b、词汇义项的定量分析与重用法则(1)单音节的汉字总表,包含的汉字编号与义项编号两组数据是不对称的。混音节的汉语字组总表的义项编号与用例编号两组数据(“+”)是一致的,对译的混音节词语总表的义项编号与用例编号两组数据(“-”)也是一致的,而且“+”与“-”是对称的。(2)对符号的计量与重用以字的编号为基准;对语义的计量与重用以义项编号为基准。

五、评论 1、实践意义 为人们汇编义项字典和用例大全,提供了简明的基本操作规范。不仅方便专家而且也方便大众(可共同参与),从而能够汇编一部有史以来规模最大、质量最高、通用性最强或适用面最广的网络版(汉释汉)义项字典与(汉译英)用例大全(其它语种可以此为样板)。在这个基础之上可以很方便地定制各种具体的有明确针对性的出版物(包括:印刷版、电子版、数字版)。 2、理论意义 基于本研究提出的汉语字组细分的观点,不仅发展了汉语字本位的传统,同时也兼容了受外语影响而产生的词语观,而且还可使各种本位说从中找准自己的位置——既不夸大也不缩小,这样,既有利于汉语体系的建立,又便于与世界其它语言

299

Page 303: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

体系之间达成较好的交流、沟通与融合。六、总结

综上所述,GSCM是可计算、可操作、完全数字化的。VSDE,规则简明,提供了大众(广大师生)参与的条件(简单可行有法可依——便于“学法、立法、守法、执法、司法、监督”)。其他任何一种(太复杂、小作坊、各自为政)方法都做不到。本方法充分考虑到了“产、学、研、用、算”一体化的人机协作,不仅为大规模开发各种典与例提供了捷径,也为一个民族或一个国家极大地开发现有的智力资源提供了基础。以往的作法,要么过于依靠机器(“算”),要么过于依靠专家(“研”)。参考文献

1、邹晓辉《融智学纲要》2004年 见 http://culturegene.icpcn.com 2、邹晓辉《协同智能计算语言数据库的设计方法》2002年

见 http://culturegene.icpcn.com 3、詹卫东《80年代以来汉语信息处理研究述评》见俞士汶等编《计算语言学文

集》(第四集)4、俞士汶《汉字和汉语民族语言进入信息系统》见俞士汶等编《计算语言学文

集》(第四集)5、林杏光《词汇语言学和计算语言学》1999 语文出版社年6、鲁川《汉语语法的意合网络》2001商务印书馆7、徐通锵《语言论》1997东北师范大学出版社《基础语言学教程》2000 北京大

学出版社8、陆俭明、郭锐《汉语语法研究面临的挑战》见俞士汶等编《计算语言学文集》

(第四集)9、汪安圣等《认知心理学》1996 北京大学出版社10、王开杨《“一语双文”的理论基础和面临的困难》见苏培成等编《语文现代

化论文集》2002商务印书馆11、王惠《汉英机器翻译中基于大型语义词典的汉语词义消歧》见黄河燕主编

《机器翻译研究进展》2002电子工业出版社12、俞士汶等编《计算语言学文集》(第四集)见 http://ccl.pku.edu.cn

300

Page 304: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

台灣閩南語中手部動作特指「打」的語義探析陳佩玥

國立新竹師範學院台灣語言與語文教育研究所

[email protected]

摘要在台灣閩南語中,形容動作上的用語,有其非常生動、活潑的一面。舉以手掌打人為

例,台灣閩南語中,sian3打的範圍比 sam3還小,力量也較小。Sian3是指摑臉頰較小部分,而 sam3動作較大,幾乎是將對方臉頰及耳朵等頭部一大半的範圍打下去。在此篇論文中,從五本目前市面上較常用的閩南語辭典及網路上的語料庫,加上一些訪談語料的補充,而整理出在手部打人的動詞中,有分做徒手、持物和不特定方式等三大項。也從此可發現台灣閩南語分類之細密。一、前言

國語中的「吃飯」在閩南語和客語中有許多不同的詞彙可以形容這個動作,如「ciah8」、「hau2 koo1」、「ket4 ket4 le」、「hut4 hut4 le」135等各種代表吃飯的不同狀態,因此感受到方言生動、活潑的一面,也想到閩南語在其他動詞中必定也有許多相似之處。政大語言所的賴惠玲教授早在幾年前發表了有關客家話中用手打人的動作分析,也有人做過華語的相關論文。手部動作的動詞有好幾十種,此報告專以在語義上指「以手部修理人」的動作為主要分析方向,故不另加說明這些動詞的其他涵義,只取其語義上「修理人」的方面作討論、歸類。二、辭典釋義

由於現今對方言本字、拼音方式的爭議,也造成閩南語辭典編撰上的困難,而市面上的閩南語辭典各有不同拼音方式,加上不同編撰人的方言差異,也造成使用者查詢上的困難,坊間的閩南語辭典琳瑯滿目,在此僅取五本目前較常使用的辭典來作為語料分析的依據。詳細分類請看附錄。三、語義分析

經由訪問嘉義、台南、高雄等地的幾位當地人中發現,有許多在字典中仍無收入,在下面註解中另外提出說明。下列的分類是先以手上的持物有無劃分為兩類,然後再往下根據大多數的用法細分:(一)徒手打人以手掌方式打人 chih8 、kuat4、pa1、piak8、sian3、sam3136、sai1。握拳頭打人 bok4、cing1、khau1、tui5、suan1。以手指部位修理人 chih8、lue5(jue5)、liam3、tenn7、thuh4、khainn2。補充:1.以手掌打人 在此分類中,幾乎都以「摑耳光」為主要語義。例外的是 chih8,在字典釋義中是「用手壓住某物」的意思,而在修理人上面另外有用手指指著別人的頭,例如小孩子不乖時,用食指頂著小孩子的太陽穴教訓的動作。135 此報告皆用 TLPA拼音。136 根據訪問某些台南地區當地人的說法,sian3(sen3)和 sam3是有差別的。一樣是以巴掌摑臉,但 sian3

打的範圍比 sam3較小,程度也較小,sian3是指打臉頰小部分,但 sam3動作較大,幾乎連對方的整個頭都打下去。

301

Page 305: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2.握拳頭打人 此分類中,手部的動作都是握拳,而在打人的動作方面較特別的是:tui5的一種意思是打在自己的胸口;而打別人的時候是握拳由上往下的動作。khau1 除了在字典釋義中是指側擊,另外也有握拳由下往上類似勾拳的動作。3.以手指部位修理人 除了 chih8在上面說明過之外,thuh4也是和 chih8其中的一個意思相同,是以食指指向別人的額頭、太陽穴或身體的動作,除此之外 thuh4還有另一個意思,在下面會在提到。其他都是以拇指和食指夾住對方的肉的動作,但 liam3和 tenn7只是用力捏,而 lue5(jue5)還加上旋轉的動作。(二)手持物打人持棍棒、竹板等長條物 mau1、mai1、kong3、siau7、tiap8、but4、hut4、ham2。持刀等利器 phut4、thai5、kham2、cam2、tuh8、thuh4。持鞭子 sut4。其他器物 khian1。 在其他器物類別,khian1通常是指拿石頭丟人。另外,在這些持物修理人的手部動作當中,又以 thai5、cam2、kham2、phut4特別有置人於死地的強烈意味。

(三)不特定方式不特定方式(修理人的總稱) phah4、thui1。這一項目中,並沒有特定是用手掌或著是拳頭,手上也有可能會拿東西,可以說是修理人的總稱。

四、結語由於各地方言不同,有些字典只收錄某些地區的發音,因此常會有查詢某個音卻查不

到的情形。因此字典的編纂,若是能盡量考慮到不同地區的發音,在查詢到與編纂者不同語音腔調時能引導讀者翻閱至與其語義相對應的頁面,如此也能讓辭典更有系統,也大大減少不同地區的閩南人查閱上的困難。另外,在閩南語有音無字方面,一些字典自創本字,不同的字典自創不同的本字,常造成讀者的疑惑。由於各地閩南方言的差異和生活習慣的不同,所以除了這二十幾種閩南語手部動作之外,一定還有更多豐富的辭彙未收錄進來。除此之外,在決定以什麼為語義分類依據時,這些手部打人動作中,是否有程度上的差異?這方面字典上並沒有提及,這幾點值得以後再深入研究。五、參考書目Lai, Huei-ling 2000 The Lexicalization Patterns of Verbs of Hitting in Hakka, 《國立政治大學教師語言學研究成果發表/研討會論文集》。

黃苕冠 2000 《現代漢語徒手動作動詞<打>字的語義、語法探析》,碩士論文,國立台灣師範大學 華語文教學研究所。

楊青矗 2001.2 《台華雙語辭典》 敦理出版社。董忠司 2001.1 《台灣閩南語辭典》 五南圖書出版有限公司。周長楫 2000.10 《閩南語詞典》 眞平企業有限公司。陳修 1998.6 《台灣話大詞典》遠流。張振興 1983.5 《台灣閩南方言記略》 文史哲出版社。六、附錄以下就以辭典名稱作為分類項目:

台華雙語辭典 台灣閩南語辭典 閩南語詞典 台灣話大辭典 台灣閩南方言記略

bok4 「揍」用拳頭用力揍人。 「撲」扑打也。以拳撞

302

Page 306: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

曰撲。but4

「 」以枝、棍、棒等長條物用力擊打。

「 」用棍棒等物由上往下,或由內往外用力擊打。

「 」(用力)打,

「拂」打也。或「」。「囝仔驚 sut不驚拂」。

「物」用棍棒打。

cam2 「斬」殺、用力砍斷。 「斬」砍頭。 「鏨」cam3。用刀砍斷。

「斬」殺也。砍斷曰斬。「先斬後奏」

「斬」。cing1 「摏」。以拳擊打。 「舂」用拳擊打。「相

舂」。「舂」撞擊。 「掙」用力支柱也。 「舂」

chih8 「」用手壓住。「」和「壓」不同,在動作上,「」需用手壓、用物壓不能說為「」,而「壓」可用手也可用物。

「揤」用手按住。「揤咧」。

「□」用手或用指頭壓。

ham2 「」坊間文獻有用「撼」、「 」,但本義皆不符「手持器物重擊」,故造「」。

「撼」用器物重擊。 「□」。(用東西)猛擊或砸。

「撼」打。拍死「撼死」。

hut4 「刜」同 phut4。 「 」同 but4。 「揔」用力擊打。 同 but4「拂」擊也、振也。

kong3 「摃」。以棍棒、樹枝等打

「摃」用棍棒等打。 「摃」猛力撞擊。 「摃」用槌擊物也。khau1 「剾」 「剾」譏諷。 「摳」擊;打,多

指側面橫擊。「敲」打。推。擊。

kuat4 「抉」用巴掌打耳光。 「抉」打耳光。「抉喙」。

「抉」(用巴掌)打。

「摑」批也。打也。掌耳也。「摑嘴 」

「抉」巴掌打臉。

kham2 「砍」狀似砍的打。 「砍」用刀斧把東西劈開。

「砍」剉也。刀斧伐木也。「砍頭」斬頭、殺頭。

「砍」。

khian1 「掔」用小硬物擊打 「掔」1.用小硬物擊打;2.敲打(頭部)。

「摼」撞也、擊也。「摼石頭」、「摼頭殼」。

khainn2 「掔」敲打頭顱。 「敱」用指頭關節叩打。 用肩膀用力撞擊(東西)

「摼」擣頭。撞也。擊也。

liam3 「捻」捏、擰。「捻喙」。

「捻」捏、擰。「捻喙」、「捻 kah烏青」。

「捻」拇指和食指夾住並擰轉。

「捻」。「捻嘴 」拈撚其面頰。

「捻」用兩指夾住東西拉拽

lue5(jue5)

「挼」揉撫。 「挼」用手指揉死小昆蟲。「挼死一隻狗蟻」。

用手磨物曰挼,又橫加折磨亦曰挼。

「挼」。揉眼睛。

mai1 「」用力摔打。mau1 「 」以棍重擊。 「 」用棍子大力的打下

去pa1 「 」用手擊打,特指打

頭部、打耳光。「 」用手掌拍打腮或頭部。「 喙 」。

pa3「骲」多指用巴掌打頭部。「骲頭殼」。

「巴」以手掌打人面頰。「巴一下 hoo7

你」。piak8 「抋」批打,通「批」。「啪」原擬聲詞,引申為 「□」phiak8。 「擘」phiak8。小擊也。

303

Page 307: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

「抋喙 」。 「摑耳光」。「啪喙 」 猛力摔或打。 又小擊之聲也。或「擗」。

phah4 1.「拍」用手打。2.「扑」手打、棍擊、打架之意。

「扑」拍打=「搏」、「撲」、「拍」

「拍」敲、擊、攻打、毆打。

「打」擊。「打尻川」。

「拍」互相打。

phut4 「刜」砍、斬。 「刜」斬、砍。 「刜」1.(刀)砍。2.用力打。

「刜」擊也、砍也、斷也。

「刜」用刀槍用力往下砍。

sian3 「搧」以掌摑臉、打嘴巴;拍打屁股。

「搧」以巴掌用力打耳光。

「搧」用手掌打。「搧喙 」。

「搧」手打面頰。 「搧」巴掌打臉。

sam3 「搧」sai1 「揌」。打耳光

「揌喙 」。「揌」。打耳光「揌喙 」。

「腮」用巴掌打。打頭、摑耳光。

「□」巴掌打臉

siau7 「」以棍擊打。「 落去」

「捎」以棍擊打。「捎落去」。

「梢」siau1鞭笞,(用細薄而長條的竹子。

「 」撲也。棒打曰。

sut4 「捽」鞭打、抽打、甩打。「用箠仔捽」。

「摔」鞭打、抽打、甩打。「摔椅摔桌」摔桌子摔椅子,表示抗議,不滿。

「摔」(用鞭子、細長的竹條木棍等)抽打。

「摔」拋也、投也、打也「用馬鞭摔馬」。

「捽」用鞭子及細竹條抽打。

suan1 「揎」。揮拳打人「揎拳」。

tui5 「捶」。「捶心肝」捶打胸部表痛心

「捶」握拳搥打。「捶心肝」捶胸,表示痛心或悔恨。

「搥」用拳頭或棒槌敲打。

「搥」敲擊也。握拳以擊曰搥。「搥死」打死。

「捶」用拳頭捶。

tenn7 「 」捏、握。「 拳頭母」

「捏」1.捏、握。。2.勒。 「掟」手掌握物。tiap8 「揲」用棍子、竹板等

打。「揲」用竹鞭等鞭打。 訓斥曰「揲」,俗曰修

理。tuh8 「揬」用物的尖端以促力

觸戳。「揬孔」。「揬」用尖的東西戳。「揬一空」。

「揬」(用尖物)戳。「揬破嚨喉」。

「突」穿也。以利器、尖器刺之曰「突」。

thai5 「刣」殺、宰。 「刣」宰殺。 「刣」宰殺、殺。 「刣」殺、戰、切開。thui1 「推」打人、修理人。 「椎」以椎擊打。

「棰」以杖擊、修理人。

thuh4 「揬」同 tuh8。 「揬」同 tuh8。

304

Page 308: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

大學生對於華語「沒面子」和「丟臉」兩詞彙語義區別的研究歐陽世芳

國立新竹師範學院台灣語言與語文教育研究所

一、研究動機 「做了這件事真是有夠丟臉的」、「這樣真的讓我很沒面子耶」,在日常生活中常會聽到「丟臉」和「沒面子」兩詞語,但在什麼情況下用哪一個詞語,兩詞語到底在使用上有沒有差別,可能不想還好,一想就糊塗了,本文希望先透過分析多位學者從不同角度來解釋「臉」和「面子」的異同處,再進一步從現實生活中實際找多位大學生透過問卷訪談方式來看看他們對「丟臉」和「沒面子」兩詞語的解釋及想法,而他們在某些情境下是如何使用及區別這兩詞語的。二、學者的相關研究 史密斯(1894)認為臉面和中國人的做戲是有關聯的,但做戲甚至是臉面的另一種表達(如下不了台就是丟臉),表明中國人的面子具有表演或虛的成分。 魯迅在《說”面子”》中也提出他對臉面的看法:但〝面子〞究竟是怎麼一回事呢?……,他像是有好幾種的,每一種身份,就有一種〝面子〞,也就是所謂的〝臉〞。這臉有一條界線,如果落到這線的下面去了,即失了面子,也叫做〝丟臉〞。不怕丟臉,便是〝不要臉〞。從魯迅的看法來看,這條界線是定義面子 的關鍵但他卻沒有再說明如何來辨識這條線,而且他認為失面子就是丟臉。 胡先縉(1988)則為臉面下了定義:這兩組標準可以用兩詞彙來加以區分,就字面來看,兩個詞彙的意思都使只身體臉部,其中之一是〝面子〞,代表中國廣受重視的聲譽:……。另一個境界是〝臉〞的概念,……。是全體對道德良好者所持有的尊敬,……。他代表社會對於字我的行之無整的信任,一旦失去他則個人便很難繼續在社群中正常運作 。臉不但是無會道德標準的一種社會約束力,也是一種內化的自我約制力量。從胡先縉的定義來看,面子和臉的標準不一樣,面子是個人努力累積的名聲,但需要外界的重視,臉是個人表現的道德良善。 胡先縉的定義後來遭受許多人的批評,何友暉的《論”臉面”》就認為面子存有道德內涵,臉和面子的差異和語言發生當時的的情境有關聯,兩者有時候可以互換,沒

305

Page 309: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

有辦法能完全清楚區分開來。翟學偉(1994)也提過:用道德來區分臉和面是不真實的。 外國學者Goffman(1988)也做過這方面的闡述:面子是指在某一特定交往中,個人按照他人也會認定他會遵循的那個行為準則,而有效聲稱自己得到的那個正面社會價值,他的定義有學者認為無法完全用來解釋中國人的臉面,他沒有把中國的文化考慮在裡面。Brown and Levinson(1987)發展Goffman的觀點,按交際雙方不同要求而有消極面子和積極面子的不同,但這理論仍有部分被學者認為不適用於中國的文化社會中。 多數學者從面子角度去定義臉面,較少單獨談到臉,翟學偉(1994)書中曾經對臉面的俗語做過分析,從這些分析他發現:(1)臉和面是有細微的區別(2)其含意具有個體行為表現和社會期待的相互性(3)他們具有意義上的復合性,他認為臉和面子有區別又有相關聯,他書中也提到「沒面子」和「丟臉」不是同一的。 台灣學者也有從心裡學層面去探討面子的問題,其中陳之昭(1988)的研究指出難堪程度可能是「沒面子」和「丟臉」反應比例差異的混淆因素,兩者不同不僅在事件涉及道德與否,且關係到難堪程度的不同,也就是「沒面子」可能是用來形容難堪程度較輕微的,「丟臉」是用在較難堪事件。 許多文章主要探討臉面,而針對「沒面子」和「丟臉」的討論似乎不多,而在臉面的研究,無論是用道德與否或社會名聲程度都無法對臉和面子有清楚明確的區分界定,較有共識的看法是面子和臉是既有區別又有關聯性,大學生對於「沒面子」和「丟臉」的解釋及用法是不是有有類似情形,以下透過實際以問卷方式來進一步做探討。三、情境問卷訪談結果分析 為了能清楚知道「沒面子」和「丟臉」的實際使用情形及語義的瞭解,我們找來 25位大學生,透過問卷情境訪談方式來進行。(一) 研究方法首先從中研院平衡語料庫的語料分別收集沒面子情境和丟臉的語料,也請幾位大學

生舉出平時會發生「沒面子」和「丟臉」的狀況,整理過後從中選出四題沒「沒面子」和四題「丟臉」情境,將這些情境設計成問卷如附件,找來 25位大學生針對問卷上的問題進行訪談。

306

Page 310: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(二) 研究結果分析1.沒面子和丟臉的語義差別:沒差別 有一點差別 有很大的差別1 23 14% 92% 4% 25位受訪者中有 23人覺得「沒面子」和「丟臉」有一點差別,但差別在哪裡,每一個人的標準不一樣,其中有 8人以別人和自己來做區分,認為丟臉是自己做得事讓自己覺得丟臉,而沒面子是別人讓你沒面子。有 13人則以出糗程度來定義兩詞語,有2人則以道德標準來解釋兩者的差異,由此大約可看出大學生對於兩詞語定義沒有一定的標準,端賴個人心中感受及當時發生的情境,為了能更進一步瞭解大學生在何種狀況下是會感到「沒面子」或是「丟臉」,以下設計幾種大學生日常生活中可能會遇到的情境,做成問卷訪談,訪談後的資料整理如下2.情境結果整理分析(1)小明期末考時為了能考得好成績,便做小紙條作弊,不幸當場被監考老師抓到了,小明做了一件_________的事。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事人數 4 15 0 4 1百分比 16% 70% 0% 16% 4% 此情境中有 70%的受訪者選擇「丟臉」這一選項,不少受訪者在選擇此答案時表示,這是自己做了一件負面社會評價的事。所以覺得在此種情境下較傾向讓人覺得是很丟臉的。(2)小華騎機車去上學的途中,為了趕時間而闖紅燈,當場被警察來攔下,小華做了一件________ 的事

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事人數 4 11 3 1 6百分比 16% 44% 12% 8% 30% 這題有 44% 的人選擇丟臉認為是自己做了違法的事讓自己很丟臉,但也有 30%的

307

Page 311: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

人認為這件事稱不上是讓人丟臉或沒面子的事,受訪者表示違規頂多被罰錢而已,這沒什麼大不了的啊!(3)小強走在路上不小心絆倒跌得四腳朝天,小強當時覺得很_____。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事。人數 6 17 0 2 0百分比 24% 68% 0% 8% 0% 有 68%選擇是覺得丟臉的事,這是自己作的一件出糗的事,這件事很多受訪者表示是用出糗程度來作區別。他們覺得當眾跌倒是一件令人尷尬難堪的事情。(4)小敏下課後走在回家路上突然發現自己的拉鍊沒拉,小敏覺得很_____。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事人數 4 19 0 0 2百分比 16% 66% 0% 0% 8% 此情境有 66%選擇丟臉,因為是自己做出來害自己出糗尷尬的事情。(5)小馬在家族聚餐時,父母在親戚面前說自己的缺點,讓小馬感到很_______。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事人數 15 2 3 2 3百分比 60% 8% 12% 8% 12% 因為是別人在大家面前說自己的缺點,是別人造成自己的難堪所以有 60%的人表示是令人沒面子的。(6)阿男學期末某一科被當掉,不小心被同學知道,阿男感到很_____。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事。人數 13 5 2 2 3百分比 52% 20% 8% 8% 12% 此情境有 52%的人表示是「沒面子」的,考試成績好壞是不是被當掉本來是自己事,但現在被別人發現知道了,有人表示這是很沒面子的。(7)小玉上課不專心,被老師叫起來問問題回答不出來,小玉當場覺得很_____。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事。

308

Page 312: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

人數 10 8 2 2 3百分比 40% 32% 8% 8% 12% 這一選項中有 40%人選擇「沒面子」因為是老師造成且是在別人面前,但也有32%的人認為是「丟臉」,因為在在全班面前回答不出是令人感到難堪的。(8)小王今天在學校說謊,當場被同學揭穿,他做了一件______的事。

沒面子 丟臉 不確定用哪一種 兩者皆可 並非丟臉或沒面子的事人數 11 11 1 2百分比 44% 44% 4% 8% 這裡顯示出大學生在面對說謊被揭穿這一件事時,各有相同比率的人在使用「沒面子」和「丟臉」。四、結論 「面子」和「臉」有許多學者曾下過定義,但因為這涉及到個人心理層面,所以每個人的標準不一,從大學生的訪問結果來看,每一人對「沒面子 」和「丟臉」的感受程度也不同,大部分受訪者在聽到這兩詞彙時一開始的反應大多是迷惘且表示無從仔細分辨,甚至有人會說「沒面子」不就是「丟臉」,「丟臉」不就是「沒面子」,但多數人還是需要仔細去思考過才較能突顯出相異點,分辨結果也覺得這兩詞語確實有一點差別,但差別在哪就要看個人對兩詞語的界線及什麼關鍵點來作區辨的,從這幾位受訪者來看約可歸納出三種分辨方式:1.從自己或他人角度 2.出糗程度 3.社會正負面評價。本文因限於研究時間不足,短時間內只能初步做出這樣的的結論,往後若能再多花一些時間增加受訪者問卷資料,想必更能做出完整的分析資料及探討更詳盡的觀點結論。

參考文獻:Chinese characteristics(1894) , Arthur H. Smith, New York : Fleming H. Revell, c

陳融(1986) ,「面子‧留面子‧丟面子」,《外國語》第四期Politeness:Some universals in language usage(1987)Brown, Penelope./Levinson, Stephen C./Penelope Brown andStephen C. Lev/Cambridge University Press

309

Page 313: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

,Goffman Erving 著 徐江敏譯 昆明:雲南人民出版社中國人的面具性格(1987),張老師月刊編輯,台北:張老師出版社中國人的性格(1988) ,李亦園 楊國樞,台北:桂冠圖書股份有限公司中國人的心理(1988),楊國樞,台北:桂冠圖書股份有限公司文崇一、蕭新煌(1988),中國人:觀念與行為,高雄:巨流圖書公司中國人的權利遊戲(1988) 黃光國 台北:巨流出版社楊國樞 黃光國(1991),中國人的心理與行為,台北:桂冠圖書股份有限公司翟學偉(1994),面子 人情 關係網,河南:河南人民出版社

附件:「沒面子」和「丟臉」兩詞彙語義使用訪談問卷系級:性別:年齡:一、沒面子的定義:二、丟臉的定義:三、你覺得丟臉和沒面子有沒有差別:□沒差別 □有一點差別,差別在:__________________________

□有很大差別,差別在:______________________________________

四、請選擇下面情境是:(1)沒面子(2)丟臉(3)不確定用哪一種(4)兩者皆可(5)並非丟臉或沒面子的事。1. 小明期末考時為了能過關,便做小紙條作弊,不幸當場被監考老師抓到了,小明做了一件_________的事。

310

Page 314: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

2. 小華騎車去上學的途中,為了趕時間而闖紅燈,當場被警察來攔下,小華做了一件________ 的事。

3. 小強不小心在公共場所跌得四腳朝天,小強當時覺得很_____。4. 小敏下課後走在回家路上突然發現自己的拉鍊沒拉,小敏覺得很_____。5. 小馬在家族聚餐時,父母在親戚面前說自己的缺點,讓小馬感到很_______。6. 阿男學期末某一科被當掉,不小心被同學知道,阿男感到很_____。7. 小玉上課不專心,被老師叫起來問問題回答不出來,小玉當場覺得很_____。8. 小王今天在學校說謊,當場被同學揭穿,他做了一件______的事。

311

Page 315: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

“简直”句式的语义逻辑分析及其生成陈凡凡

中山大学中文系(中国广州市新港西路 135号,邮编 510275)[email protected]

【摘要】本文从“简直”句式各句间的语义逻辑关系入手,将“简直”句式归纳为三种句型:因果句型、条件句型和并列对举句型,并针对各种句型深入分析了它们的(1)句法结构特征、(2)深层语义关系、(3)语义逻辑及生成和(4)逻辑推演,从而从语义逻辑的角度阐述了“简直”句式的生成。“简直”是一个表强调的惊叹语气副词。“简直”表示的语气十分强烈,它强调达到

或者差不多达到某种很高的程度或状态。“简直”虽然只是一个副词,但是它却对它所在句群的语义逻辑有一定的要求,反过来说,一定的语义逻辑关系必然要求“简直”的存在,才能完整表达一个语义。如“简直可爱极了”可以说,但“简直可爱”不说。这是因为“可爱”这个词远未达到“简直”所要求的很高的程度。这是“简直”对其后件内容部分所做的要求。但是在整个语篇中,“简直”句式的存在,却并不只是由后件决定的,而是由整个句式各句间的语义逻辑关系决定的。本文便是试图通过句式内部语义逻辑关系的分析来说明“简直”句式的生成。

一 “简直”句式的基本语义关系和“简直”处在同一层次的句子或句群,它们共同完成一个完整的语义,在本文中称为“

简直”句式。“简直”句式中的各个语义单位靠联结标记(connective)联结在一起,在语义层面上具有一定的逻辑关系。“简直”句式的基本语义关系是一致的。一般来说,“简直”之前是对客观事实的描述,“简直”之后的谓语部分是说话者对客观事实的认识所产生的主观判断。因此,“简直”句式大致可描述为“客观事实+简直+主观判断”。根据位于“简直”的前后,一般把“客观事实”称为前件,把“主观判断”称为后件。如果用 J表示“简直”句式,用 SnP+CONNt-conn表示“客观事实”,用“Z”表示“主观判断”的话,那么,“简直”句式的基本语义关系可以表示为:J=(SnP+CONNt-conn)+简直+Z

“简直”句式的生成需要有一定的条件,它一般包含在一个逻辑场内。一般句式中常常存在一个预期或蕴涵义,而实际情况又常常与这个预期或蕴涵义相差甚远或相反,它通过强调这种反常态达到的极高程度来表达对这种已成事实或近乎事实的反常态的惊叹。二 “简直”句式的语义逻辑特点

2.1因果句型SnP+CONNt-conn和 Z之间是一种因果关系的我们称为“简直”句式的因果句型。根据

SnP+CONNt-conn所包含的语义成分之间的不同关系,因果句型又可分为说明递进关系的Ⅰ式和转折关系的Ⅱ式。

2.1.1 表说明递进关系的Ⅰ式2.1.1.1句法结构特征

(1)性者,越写越直露、越写越细致,简直 是无性不成章,无性不成书 。 B Z(2)我见过一些电脑的说明书,厚厚的一大本,简直 难以卒读 。

312

Page 316: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

A B ZⅠ 式的 Z是一个表结果的(主观)结论句;SnP+CONNt-conn则可看成是由A、B 两部分组成:

A是客观背景句,主要是交代句中陈述的对象和背景;B是说明递进句,可以是对 A的详细说明,或是对 A作递进的阐述,这时,CONNt-conn一般是“并、越来越、又、到”等有递进意味的词语。用符号表述为:JⅠ= A+B+Z

2.1.1.2深层语义关系假如设 A、B、Z三个语言成分所对应的深层语义成分分别为 p、q、r,那么因果句型各语

义成分的深层语义关系主要有以下两个方面:a) p、q和 r之间是一种因果关系,因此,它们的语义关系便是“因为 p+q所以 r”,即,所

有的因果句型都可以表述为“因为……所以……”的形式。也即是,因果句型可看成是省略了联结标记(CONNt-conn)“因为,所以”的因果句。

b)和 q之间是一种说明递进的关系。q 是对 p的更进一步的详述,程度上更接 r。p、q、r三者呈一种阶梯式的上升趋势,最后达到一个很高的程度 r。

2.1.1.3Ⅰ 式的语义逻辑及其生成在Ⅰ式中,p是一般事物的一般情况,是人们所能接受的一般程度状态,而事实上,现在

所描述的对象却远远超出了这种一般程度,达到了一种常人常理难以接受的反常态的极高程度。由于这样一种反常态的出现,于是人们的主观判断中常会带有一种惊叹的语气。这种惊叹的语气便是由“简直”来承担完成的。p、q、r之间的这种语义逻辑关系和“简直”的惊叹语气,生成了一个完整的“简直”句式。如果省略了语义成分 q(语言成分 B),“简直”句式的语义便不能完整表述出来,甚至语义是不完整的。因此,只有在 p和 r中间加上一个与预期不符的事实 q,才能使“简直”句式完整地表述出来。所以在这种句式中,q是不可或缺的,而 p如果是不言而喻的常理或是人所共知的事实,则可隐含于上文中或干脆省略不说,但句意依然完整。

2.1.1.4逻辑推演从以上分析可以看出,p和 q之间的逻辑关系是:p ∧∧ q (∧∧表说明递进关系)即 q超出了 p的一般程度,向更高程度推近了一步,达到了一个极高的程度。(p ∧∧ q)和 r之间是因果关系,前者是后者的充分条件,或者说,前者蕴涵后者,因而

它们的逻辑关系可表示为:(p ∧∧ q)→ r (→表蕴涵)而且只有当 p尤其是 q存在时,才可能存在 r 这样的判断,因此,Ⅰ式完整的逻辑公式应

为:p∧q ∧r((p ∧∧ q)→ r ) (∧表并列关系)2.1.2 表转折关系的Ⅱ式2.1.2.1句法结构特征(3)他不懂他为什么知道是不能的,却偏要去向往,简直是搬起石头砸自己的脚。 C D ZⅡ 式中,Z仍然是一个表结果的主观结论句,它和前面的 SnP+CONNt-conn也依然是一种因果关系,只是 SnP+CONNt-conn所包含的两个语义成分之间的关系与Ⅰ式的迥然不同。C是一个客

观陈述句,D是对 C的转折,这时,CONNt-conn一般为“却、但、然而”等转折副词。根据以上分析的语义关系和句法结构特征,Ⅱ式的结构可以用符号表述为:JⅡ=C+D+Z

2.1.2.2深层语义关系设 C、D 两个语言成分所对应的深层语义成分分别为 s、t,那么Ⅱ式各语义成分的深层语

义关系主要有以下两个方面:a. s、t和 r之间仍是一种因果关系,因此,它们的语义关系同样是模式“因为 s+t所以

313

Page 317: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

r”,即,所有的Ⅱ式也都可以表述为“因为……所以……”的形式。因此,Ⅱ式同样可看成是省略了联结标记(CONNt-conn)“因为,所以”的因果句。

b. s和 t之间是一种转折关系,因此,它们同样可以模式化为“虽然 s,但是 t”,只是表达中一般省略了“虽然,但是”。但 s和 t它们的深层语义关系是没有变的。

2.1.2.3 Ⅱ 式的语义蕴涵及其生成Ⅱ 式中,s是叙述对象在一般情况下所具有的状态,其中蕴涵了在这种常态下应产生的结

果Mu,但实际上却出现了与Mu截然相反的反常态 t。换句话说,按常理 s情形应与Mu结果相应,T情形应与 t结果相对应,而实际情况却是在 s情形下发生了 t结果,(图略)这样一种不可思议的情形的发生,人们一般用“简直”来帮助表达人们心中的惊讶,强调这种反常态已达到人们难以预想或难以接受的一个极高程度或状态。

2.1.2.4逻辑推演从以上分析可以得出,s和 t 并不是简单的一个合取命题,而是存在着某种意义上的蕴含

关系,s蕴涵着一般情况的情形 u:s → Mu (M表“一般地说”)同时,D句却将发展路线转到 u的反面 t上,Mu和 t是对立的,即一般情况下,Mu真,t

就假,t真,Mu假,因而Mu和 t 的逻辑关系可表示为:Mu ∨ t(∨表或者)而在实际中,在 s的情形下,却发生了 t,因而 s和 t 的逻辑关系为:s → t当且仅当 s和 t存在以上逻辑关系时,才可能生成 r ,因此,Ⅱ式完整的逻辑公式应为:

((s → Mu)∧ (Mu ∨ t)∧(s → t)) → r2.2假设条件句式“简直”句式的Ⅲ式是假设条件句型。所谓条件句型,便是指前件的 SnP+CONNt-conn作为后

件 Z的假设条件,得出这个假设下的结果 Z。2.2.1句法结构特征(4)好在少将没亲自来,要不,简直 就是彻头彻尾的情场失败者 。

A F Z在假设条件句型中,SnP+CONNt-conn一般只包含Ⅰ式的客观背景句 E和假设条件句 F。客观背景句 E 为下面“简直”句型的生成提供了一个可发生的前提。假设条件句 F,表示在 E情况下的假设;Z同样是一个主观结论句,是在 E背景下,从 F假设中推倒出来的结论。这个句型的联结标记一般是“如果,那么,要不,若”等。用符号表示为:J=E+(R+Z)

2.2.2深层语义关系假设Ⅲ式中 E、F 两个语言成分所对应的深层语义成分分别为 v、w,那么Ⅲ式各语义成分

的深层语义关系主要有以下两个方面:a. w和 r是一种假设关系。即它们可以表述为“如果w,那么简直 r”。换句话说,作为假

设条件的前件 w,如果这个假设的情况实现的话,就会产生 r 这个结论。但一般事实上,假设是不会实现的,因此,r 这个结论也是不能成立的。

b. v和w+r是一种广义的因果关系,大致上可以用“因为……所以……”的模式来表述它们的关系。但 v并不是真的能够导致w+r,而只是作为 w+r存在或产生的一个前提条件。

2.2.3 Ⅲ 式的语义蕴涵及其生成Ⅲ 式中叙述的事物常蕴涵一个常理下的预期 Mv,而实际上表现出来的却是 v,虽然 v一般

情况下都可顺理成章地推出结果 r,但由于 Mv与 r在人们心里倾向中是两种截然不同的东西。因而叙述事物是不可能有 r 这个结果的。但现在叙述事物实际表现出了 v,如果假设 w成立的话,那么就很容易让人得出 r的结论,尽管 r事实上是不成立的。由于表面向着蕴涵的另一个极端发展,这种相背的极高程度由“简直”来强调,从而表现了人们心里对这种表面与心中倾

314

Page 318: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

向的蕴涵的极大差距的惊讶。2.2.4逻辑推演一般而言,v真,r也真;v假,r也假。即它们的逻辑关系如下:v → r 并且 ┐v → ┐r (┐表示否定)w是与 v的区别特征,也即w真,v就假;v真,w就假。因此它们的逻辑关系为:w → ┐v根据逻辑的递推可以得出:w → ┐r因此,当且权当(v → r)和(w → ┐v)时,才能生成 J句式。Ⅲ式完整的逻辑公式便是:

((v → r)∧(w → ┐r)) → (w →┐r) 2.3并列对举句式并列对举句式即通过否定A、肯定 B 的方式来表达说话人对该事物或行为以及情状的贬斥

或褒扬的思想感情。我们称之为Ⅳ式。2.3.1句法结构特征(5)姐姐和姐夫笑我们说:“这哪是玩乐呀,简直 是玩命,是疲于奔命 !”

G Z这个句型的语言成分通常也是三个。前件 SnP+CONNt-conn包含两个个语言成分H和G,然后紧跟一个后件 Z。根据例句显示,H是一个前提背景句,由此可推出 Z;G是一个情形否定句,它否定的并不是陈述的事物本身,而是事物所蕴涵的一个情形;Z是对陈述对象出现的反常态的判断结论句。这里的联结标记一般是“哪里”。而在句中还常会出现“什么” 等表任何的词语语“哪里”想配搭。需要注意的是,在这个句型中,H常常隐含在上下文中或说话的语境中。这个句型结构层次简单,我们直接用符号表示便是:J=(H)+G+Z

2.3.2深层语义关系设与G相对应的语义成分为 x,则句型中 x和 r的语义关系为:x和 r是一种并列关系,但 x和 r不是并存的,即不是一种并举的并列关系,而是一种对举

的并列关系。x和 r的意义是相反相对的,表示所述的表层G和 Z的对比对立,它通过用肯定和否定两个方面对照来表达所要肯定的意思。这种关系可以用“并非/不是……而是……”替换。虽然“并非/不是……而是……”可以表达Ⅳ式的深层语义关系,但是替换之后,“简直”句式的语气便荡然无存了。

2.3.3 Ⅳ 式的语义蕴涵及其生成这种句型是通过否定 x来肯定 r的,但是从上面简单的替换可以看出,仅是简单的“不是

……而是……”似乎并不能真正引导 J句式的生成。可见,Ⅳ式并不是简单的一种并列对举关系。叙述对象 x通常蕴涵了一个一般情景Mx,但实际上,虽然现在处于 x的状态,但却并不

表现出Mx,而是表现出与Mx相差甚远的情景Mr。虽然叙述的仍是 x,但是却用否定 x实则是否定Mx来肯定这个在 x下显得极其反常的Mr,从而强调这种反常态达到的那个极高程度或状态 r。

2.3.4逻辑推演从以上分析可得出:x和 r的逻辑关系为:┐x → rr和Mr的逻辑关系是:r → Mr从 x的语义蕴涵又可得出:x → Mx

由于只有蕴涵了Mx和 r,才有可能在 x和 r之间产生一个极大的反差,J句式才能生成。因此,它的完整逻辑关系为:((x →Mx)∨(r→ Mr))→(┐x →r)(∨表示或者)

315

Page 319: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

参考文献:丁险峰 2002 试论“简直+……”结构的句法、语义、语用 《语言文字应用》 第 4期张明莹 2000 说“简直” 《汉语学习》 第 1期王维贤 李先焜 陈宗明 1989 《语言逻辑引论》 湖北教育出版社黄佩文 2003 句式“哪里是 A,简直是 B” 《汉语学习》 第 3期

316

Page 320: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

从篇章角度看名词性词汇成分的语义关系北京大学中文系 崔玉珍

[email protected]

一 本文研究思路词汇语义学研究的重点是词汇的语义问题。前人在这方面进行了大量的研究,研

究由内及外,包括了词和词义、词之间的相互关系、词之间的搭配组合、词和语言其它领域的关系等方面的研究,这里语言其它领域包括语音学、形态学、句法学。不过另外一方面我们也可以看到,到目前为止,词汇语义与篇章语言学的关系似乎研究得不够充分。但词汇与篇章的关系大家是有目共睹的。如果说,篇章是一幢大厦,那词汇就是构成大厦的一块块砖头,词汇之间的排列组合会对篇章的好坏造成了直接的影响。基于这种想法,本文尝试从篇章的角度来研究词汇的语义关系。此外,考虑到篇章的复杂性,本文拟先考察汉语体育类篇章进行这方面的研究。这里,汉语体育类篇章指的是描写体育赛事的篇章。二 篇章语义信息框架的提出本文认为,篇章中的词汇成分可以大致分为名词性词汇成分、动词性词汇成分和

修饰性词汇成分(包括副词、形容词、语气词这些不是主谓宾中心成分的词汇成分),而篇章的意义主要由名词性词汇成分来体现,因为名词性词汇成分是篇章的实体性成分,因此从信息量而言,名词性词汇成分所含信息量远远超过动词性词汇成分和修饰性词汇成分,所以篇章的意义也主要由名词性词汇成分体现。而且本文还认为,在一个连贯的篇章里,所有的的名词性词汇成分可以构成一个

完整的语义信息框架。因为一个连贯的篇章肯定是围绕着某一个谈论中心而开展的,篇章制作人不可能漫无目的、毫无边界地组织整个篇章;而名词性词汇成分则是体现篇章谈论中心的窗口,因此它们肯定会被篇章制作人组织到一个特定的框架之下,这就是本文所说的篇章语义信息框架。本文的篇章语义信息框架与框架语义学所提到的框架并不相同。框架语义学

(Frame Semantics)认为,动词的语义特征和其名词论元的语义特征是密切联系的,两者之间的依存关系可以通过动词框架来表示。而我们认为,在一个篇章里,名词性词汇成分的语义信息框架更为重要。确定了名词性词汇成分组成的篇章语义信息框架以后,我们可以在这个框架中,根据不同名词性词汇之间的关系来选择、限制相关的动词性词汇成分;然后篇章制造者根据名词性词汇成分和动词性词汇成分来选择修饰性词汇成分,从而形成了一个完整、连贯的篇章。三 汉语体育类篇章语义信息框架的基本构成及其确定原则通过考察实际语料发现,在一个连贯的篇章中,语段中心成分之间的语义关联都

317

Page 321: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

相当有特点,那就是语段中心成分之间在语义上都会存在一种包含与被包含的关系。需要注意的是,这里的“语义上的包含与被包含关系”是从认知理解上来讲的。

在人们理解篇章的时候,人们不是孤立地去理解篇章中每一个语段中心成分,而是尽可能地把语段中心成分联系起来,尽可能地把众多的语段中心成分组织到一个认知理解视图中去。在这一过程中,有的语段中心成分起着关键的作用,它可以成为人们认知理解视图的基点,进而把一组与它有联系的语段中心成分都归进该认知理解视图中去。换言之,有的语段中心成分可以使得一组与它有联系语段中心成分之间产生语义上的联系,并且这一组语段中心成分在认知理解中都从属于那个语段中心成分,从而该语段中心成分与那组语段中心成分就构成了一个认知理解视图,而且前者为该认知理解视图的基点。本文把这种由于认知理解而产生语义关联的关系称之为“语义上的包含与被包含关系”,成为认知理解视图基点的那个语段中心成分为包含方,认知理解视图中的其它语段中心成分为被包含方。例如描写一个人的篇章中有“那个人、个子、容貌、头发、眼睛、鼻子”这些语段中心成分。从内涵义来看,这些语段中心成分之间没有什么语义上的联系;但在人们的认知理解中,人们通常会以语段中心成分“那个人”为基点来理解其它的几个语段中心成分,因为那几个语段中心成分分别与“那个人”有语义上联系,是指“那个人”的“个子、容貌、头发、眼睛、鼻子”,据此人们就认为这几个语段中心成分之间都存在语义上的关联,在认知上容易以语段中心成分“那个人”为基点来构建一个认知理解视图,并把其它语段中心成分“个子、容貌、头发、眼睛、鼻子”都归进这个认知理解视图中去。这里我们就可以认为,语段中心成分“那个人、个子、容貌、头发、眼睛、鼻子”之间在语义上构成了包含与被包含关系,而且语段中心成分“那个人”起包含作用,“个子、容貌、头发、眼睛、鼻子”这几个语段中心成分是被包含的成分。“语义上的包含与被包含关系”实际上有以下两种情况:第一,类与成员的关系。类包含成员。例如“动物、猪、牛、马、羊”这几个语

段中心成分,“猪、牛、马、羊”都是“动物”,所以“动物”是类,“猪、牛、马、羊”是“动物”类的成员。类的范围要比成员的范围大,因此可以说类包含成员,上

318

Page 322: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

例就是“动物”包含“猪、牛、马、羊”。第二,整体与部分的关系。整体包含部分。例如“比赛、比赛时间、比赛地点、

比赛项目、参赛选手”这几个语段中心成分,“比赛时间、比赛地点、比赛项目、参赛选手”都是“比赛”中的某一个部分,所以“比赛”是一个整体,其它几个则是“比赛”的部分。在人们的经验上,整体的范围要比部分的范围大,因此可以说整体包含部分,上例就是“比赛”包含“比赛时间、比赛地点、比赛项目、参赛选手”。以上两种情况本文都认为在语义上具有包含与被包含关系。同时,本文认为具有语义的包含与被包含关系的语段中心成分可以构成一个篇章

语义信息框架,起包含作用的语段中心成分为框架名,被包含的那些语段中心成分为框架元素(Frame element)。框架名和框架元素都是篇章语义信息框架必不可少的组成成分。但在一个篇章语

义信息框架中,框架名只有一个,而框架元素可以有很多。例如,框架名“乒乓球比赛”可以包含“比赛时间、比赛地点、比赛项目、参赛选手”等等的框架元素。但并不是一个框架中的所有框架元素都会出现,哪些框架元素会出现、哪些框架元素不出现则有赖于篇章制作人的选择。在同一框架下,篇章制作人可以选择突出某一个或多个框架元素。例如在“世界青年女排锦标赛”这个框架中,有的篇章突出“参赛队伍”这一框架元素,有的篇章突出“比赛阶段”这一框架元素,有的篇章则会选择“参赛选手”这一框架元素。由于选择的框架元素不同,可以形成许多内容各异的篇章。 篇章语义信息框架的基本构成是分析不同框架的共性得到的结论,不过从这我们也

可以看到篇章语义信息框架的确定原则:篇章中语段中心成分只要在语义上存在包含与被包含关系,这些语段中心成分就构成了篇章语义信息框架。四 汉语体育类篇章语义信息框架的特点上文我们已经确定了汉语体育类篇章语义信息框架的基本构成及其确定原则。通

过考察大量的汉语体育类篇章的语义信息框架,我们可以发现,这类篇章的语义信息框架还具有以下几个主要特点:

第一,汉语体育类篇章语义信息框架的固定性。汉语体育类篇章语义信息框架相对来说比较固定,都是描写某一体育赛事的。例

如世界青年女排锦标赛、中国乒乓球大奖赛等。不过赛事不同,其框架是不同的,因为其框架元素是不相同的。例如世界青年女排锦标赛、中国乒乓球大奖赛属于两个不同的框架,它们的框架元素如下:世界青年女排锦标赛 中国乒乓球大奖赛时间、地点、参赛队伍、 时间、地点、比赛项目、

参赛选手、比赛阶段、 参赛队伍、参赛选手、

319

Page 323: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

比分、裁判、教练 比赛阶段、比分、裁判、 …… ……

从上图可以看到,中国乒乓球大奖赛有“比赛项目”这一框架元素,而世界青年女排锦标赛没有,因此这两个框架的框架元素不相同,因而也就不能把这两个框架合为一个框架。

第二,汉语体育类篇章语义信息框架具有层级特点。汉语体育类篇章的语义信息框架并不是单层级框架,其框架下的所有框架元素并

不都是处于同一层级上的,往往某一个框架元素可以包括其它一些框架元素。例如,上文我们说到,“男单比赛、女单比赛、男双比赛”和“比赛时间、比赛地点、比赛项目、参赛选手”都是“乒乓球比赛”框架的框架元素,但在这些框架元素中,“比赛项目”又可以包含“男单比赛、女单比赛、男双比赛”这些框架元素。可见,汉语体育类篇章语义信息框架内部具有层级特点,在这个框架里的名词性词汇成分往往还会存在其它的包含关系。因为同属包含与被包含关系,因此我们认为具有这样关系的名词性词汇成分也组成了语义信息框架。也就是说,汉语体育类篇章语义信息框架是分层级的。一个篇章语义信息框架可

以包括很多个小的语义信息框架,小的语义信息框架可以包括更小的语义信息框架。层级的多少在于包含与被包含对的多少。本文把汉语体育类篇章语义信息框架包括的、比它小的语义信息框架统称为汉语体育类篇章的局部语义信息框架。篇章局部语义信息框架的构成与篇章语义信息框架的构成有所不同。篇章局部语

义信息框架可以由框架元素和框架个体成员构成,也可以由框架个体成员构成。因为处于高层级的框架元素可以包含别的框架元素,同时也包含框架个体成员。而处于最低层的框架元素则只能包含框架个体成员。但它们都具有包含和被包含的关系,所以也都组成了语义信息框架。如果从篇章语义信息框架的层级来看,我们可以得到这样的一个抽象的汉语体育

类篇章的语义信息框架图:F1

F2a F2b

F3a F3b F3c

…………Fn-1a Fn-1b Fn-1c Fn-1d Fn-1e

Fna Fnb Fnc Fnd Fne Fnf

320

Page 324: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 在上图中,以 F 为开头的表示可以包含框架元素的名词性词汇成分,F右下角的数字表示名词性词汇成分的框架层级;而以 E 开头的则表示只能做框架元素的名词性词汇成分。上图中的所有名词性词汇成分都是可以成为语义信息框架的框架成分。其中F1代表篇章语义信息框架,其它的则属于篇章局部语义信息框架。E是篇章局部语义信息框架的最低层。

第三,汉语体育类篇章语义信息框架中,同一层级的不同局部语义信息框架内部的框架元素具有排他性。例如“男单比赛”和“女单比赛”是同一层级的两个框架,那它们的框架元素应

该不同,框架“男单比赛”的框架元素包括“男单第一轮、男单第二轮”等等,而框架“女单比赛”的框架元素则包括“女单第一轮、女单第二轮”等等。所以说相同的语义信息框架必须是框架内部层级以及所有框架元素都相同的时候,我们才可以判断为一个相同的语义信息框架。

第四,在汉语体育类篇章语义信息框架层级中,下层框架的框架元素或框架个体成员可以传递给上层框架,反之则不行。例如“乒乓球比赛”包括“比赛时间、比赛项目、比赛选手”等框架元素,而“

比赛项目”又可以包括“男单比赛、女单比赛、男双比赛、女双比赛”等框架元素,由于语义信息框架层级的下层语义信息可以传递给上层语义信息框架层级,所以“男单比赛、女单比赛、男双比赛、女双比赛”这些框架元素同时也是“乒乓球比赛”的框架元素。由此可见,汉语体育类篇章语义信息框架是一些名词性词汇成分构成小的语义信

息框架,然后进行语义传递,继而构成大的语义信息框架,从而在整个篇章范围内形成一个完整的语义信息框架。137

五 篇章语义信息框架的应用价值篇章语义信息框架可以用来判断篇章连贯性的好坏。如果一个篇章所有的名词性

词汇成分都可以整合到一个篇章语义信息框架中去,而且可以建立清晰的框架层级图的话,这说明这一篇章的连贯性比较好。反之,如果一个篇章出现很多名词性词汇成分不能纳入一个篇章语义信息框架中去的话,这说明篇章制作者没有建立一个完整的、具有清晰语义关系的信息框架,篇章的连贯性也会因此受到影响。

参考文献:137 注意,这里的顺序不能理解成篇章制作者制作篇章的顺序或读者理解篇章的顺序。iii

321

Page 325: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Ellen F.Prince, The ZPG Letter: Subjects, Definiteness, and Information-Status, In Thompson, S. and Mann, W., eds. Discourse description: diverse analyses of a fund raising text. Philadelphia/Amsterdam: John Benjamins B.V. pp. 295-325. 1992.Jeanette Kohn Gundel, Nancy Hedberg, Ron Zacharski, Topic-Comment Structure, Syntactic Structure and Prosodic Tune, Workshop on Prosody and Grammar in Interaction, Helsinki, Finland, August 13-15.Mira Ariel, 2001, Accessibility Theory: An Overview. In Ted Sanders, Joost Schilperoord and Wilbert Spooren eds. Text representation: Linguistic and psycholinguistic aspects. Amsterdam: John Benjamins.29-87.Perter C.Gordon, Randall Hendrick, Comprehension of Coreferential Expressions, Meeting of the Association for Computational Linguistics: Proceedings of the Workshop on the Relation of Discourse/Dialogue Structure and Reference. pp 82-89. New Brunswick, NJ: Association for Computational Linguistics.Tao, Hongyin, 1996, 《Units in Mandarin conversation: prosody, discourse, and grammar》, Amsterdam; Philadelphia: John Benjamins Pub. Co., 1996.陈平,1991,《现代语言学研究:理论‧方法与事实》,重庆:重庆出版社,1991年。符淮青,2000,《词义的分析和描写》,北京:语文出版社,2000年。胡壮麟,1994,《语篇的衔接与连贯》,上海:上海外语教育出版社,1994年。廖秋忠,1992,《廖秋忠文集》,北京:北京语言学院出版社,1992年。王寅,2003,“认知语言学与语篇分析”,见人大复印资料 2003年第 8 期,原载《外语教学与研究》2003年第 2 期 83-88页,北京。徐赳赳,1995,“话语分析二十年”,见《外语教学与研究》1995年第 1 期。詹卫东,2003,“框架语义学”,《语言学论丛》第 27辑,2003年,北京:。郑贵友,2002,《汉语篇章语言学》,北京:外文出版社,2002年。朱永生、严世清,2001,《系统功能语言学多维思考》,上海:上海外语教育出版社,2001年。

322

Page 326: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

《人民日报》语料库专有名词分类的研究The Chinese Named Entity categorization on People’s Daily Corpus于浩 西野文人

YU Hao NISHINO Fumihito富士通研究开发中心有限公司Fujitsu Research & Development Center Co.,LTD.

{yu, nisino}@frdc.fujitsu.com一. 前言词典、语料库建设是自然语言处理以及相关应用研究的基础,历来受到各科研单

位的重视。随着基于统计的自然语言处理研究的不断深入,对于语料库的需求也日益强烈。富士通研究开发中心有限公司与北京大学计算语言学研究所、人民日报信息中心

合作,以 1998年人民日报为对象,制作了大规模汉语标注语料库,并已将上半年部分于 2001年进行了公开,在很多研究单位得到了使用。在信息检索、信息抽取等应用中,专有名词的处理是十分重要的。在1998年

全年的人民日报标注语料库定义中,包括有专有名词的标记,但是语料库中的专有名词仅分为4类:机构团体名、地名、人名、其他专用名词。这样的分类对于应用来说显得过粗,不能起到很好的定义作用,为此,富士通研究开发中心有限公司与北京富士通系统工程有限公司一起对语料库中的专有名词进行了进一步分类定义,并在自动分类的基础上进行了手工校对。二. 分类定义根据专有名词的特点,我们首先定义了如下的原则进行分类。1.机构团体名:对于机构团体名,我们定义了两种分类定义。

1)按照机构的国别进行分类,即分为中国公司与外国公司;2)按照它所表达的机构团体的含义进行二级分类,即在类型分类的基础上又

进行了具体行业的划分。2.地名:对于地名,也定义了分为两种分类定义。

1)根据地域进行分类,即分为中国地名和外国地名;2)根据地点的功能性质进行分类。

3.人名:对于地名进行了分级定义。1)首先分为中国人名、外国人名和不确定 3大类;2)在一级分类的基础上,按照是否包括全部姓名分为单词型(只有姓)、双

词型(姓名)、三词型(夫妇双姓等);3)在上两级分类定义的基础上,按照姓或名的字数进行了第三级分类定义。

三.部分分类定义及结果● 机构团体名(nt 类)在语料库中共包括机构团体 41141 个,具体的行业分类以及各子类的单词数如下表

323

Page 327: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

所示,而以下所有的类别又可以按照国别区分为中国机构(Chinese_nt)和外国机构(Foreign_nt)。总类(标注) 一级子类(标注) 二级子类(标注)机构团体(41141)[中国:32450][外国:8691]

文学艺术类(art_nt)(2000)经济机构类(economic_nt)(3410)

银行(bank_economic_nt)(1020)基金会(fund_economic_nt)(296)股票名称(stock_economic_nt)(623)其他经济组织(org_economic_nt)(1477)

政治组织类(political_nt)(1693)

政治联盟(org_political_nt)(1465)政党名称(party_political_nt)(228)

公司(company_nt)(7960)健康组织(health_nt)(1477)

医院(hospital_health_nt)(659)医疗健康组织,但不是医院(org_health_nt)(818)

军事机构(military_nt)(2255)饭店酒店(hotel_nt)(39)女性组织(woman_nt)(142)媒体组织(media_nt)(1696)

电视媒体(tv_media_nt)(304)广播媒体(radio_media_nt)(183)出版社(publishhouse_media_nt)(967)电影媒体(movie_media_nt)(183)

制造业(manufacturer_nt)(1977)研究机构(research_nt)

324

Page 328: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(2156)宗教机构(religion_nt)(73)工会(labourunion_nt)(156)体育机构(sport_nt)(1645)

体育运动队(team_sport_nt)(783)其他体育组织(org_sport_nt)(862)

教育机构(edu_nt)(4400)

学校(school_edu_nt)(4035)其他教育组织(org_edu_nt)(365)

能源部门(energy_nt)(1276)政府部门(gov_nt)(11133)公安部门(police_nt)(1016)检查部门(procuratorate_nt)(260)法院(court_nt)(624)律师事务所等(law_nt)(245)海关(ciq_nt)(164)其他组织(otherunion_nt)(2799)

● 人名分类(nr 类)在语料库中共包括人名 48709 个,按照分类原则的分类定义及各子类包括的单词数

如下表所示。总类 一级子类 二级子类 三级子类人名(48709) 中国人名

(39372)单词型(2673) 单字型(396)

二字型(2141)三字型(96)多字型(40)

双词型(36663) 单姓单名

325

Page 329: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

(6492)单姓双名(29983)双姓单名(57)双姓双名(105)其他(26)

三词型(36)外国人名(9227)

单词型(9208) 二字人名(495)三字人名(2824)四字人名(2083)多字人名(3806)

双词型(19)不确定(110) 存疑待查(42)

语料错误(68)● 地名分类(ns 类)在语料库中共包括地名 5226 个,具体的功能分类定义以及各子类的单词数如下表

所示,而以下所有的类别又可以按照国别区分为中国地名(Chinese_ns)和外国地名(Foreign_ns)。总类 一级子类地名(ns)(5226)[中国:3921][外国:1305]

市场(market_ns)(418)宾馆(hotel_ns)(266)剧院礼堂(theater_ns)(129)博物馆纪念馆(museum_ns)(374)机场(airport_ns)(255)车站(station_ns)(167)公园(park_ns)(298)草原(grassland_ns)(27)大厦写字楼(mansion_ns)(126)地区(area_ns)(845)公路(road_ns)(62)山脉(mountain_ns)(31)街道(street_ns)(113)体育运动场所(sportplace_ns)(275)

326

Page 330: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

行政区(district_ns)(313)农场(farm_ns)(57)广场(plaza_ns)(136)平原(plain_ns)(47)码头(dock_ns)(30)开发区(developarea_ns)(166)教堂寺庙(religion_ns)(51)住宅小区(uptown_ns)(51)墓地陵园(grave_ns)(55)沙漠(desert_ns)(20)书店(bookshop_ns)(17)电站(powerplant_ns)(5)示范区(demonstratearea_ns)(20)流域(drainagearea_ns)(35)水文站(waterinfostation_ns)(29)活动中心(center_ns)(141)基地(fundation_ns)(64)海峡海域(seaarea_ns)(27)餐饮场所(restaurant_ns)(39)药店(drugstore_ns)(3)林场(forestcenter_ns)(17)茶场(teafield_ns)(4)油田(oilfield_ns)(5)矿区(mine_ns)(20)音乐厅(musichall_ns)(14)出版社(publishhouse_ns)(1)政府(gov_ns)(29)公司(company_ns)(2)植物园(arboretum_ns)(17)铁路(railway_ns)(3)其他地名(other_ns)(349)会议场所(meetinghall_ns)(49)

四.小结 面向自然语言处理的不同应用,需要对词性等信息进行不同的定义,本文介绍了对《人民日报》语料库专有名词的一种细分类的定义方法以及分类结果,其正确性以及可行性将在今后的研究开发中验证。

327

Page 331: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

参考文献:1. 冯志伟 . 中国 语料库研究的历史和现状 . 国际会议 ICCC2001 主题报告.Proceedings of ICCC2001:1-24

2. 黄昌宁 李涓子. 语料库语言学. 商务印书馆.20023. 段慧明 松井久仁於 徐国伟 胡国昕 俞士汶. 大规模汉语标注语料库的制作与使用.

语言文字应用.2002年第 2 期:72-774. 俞士汶 朱学锋 段慧明. 大规模现代汉语标注语料库的加工规范. 多语言信息处理

国际会议 2000 ICMIP 论文集:19-24

328

Page 332: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

Verbs of Urging in Hakka: A Perspective from Force-Dynamics

Shu-mei CHIANGGraduate Institute of Linguistics,

National Chengchi University64, Chih-nan Rd.,Sec. 2, Wenshan,

Taipei 11623, Taiwan, Republic of [email protected]

Huei-ling LAIDepartment of English

National Chengchi University64, Chih-nan Rd.,Sec. 2, Wenshan,

Taipei 11623, Taiwan, Republic of [email protected]

Abstract In order to explore the interpsychological force-dynamic interaction, this study, adopting Talmy’s (2000a) force-dynamic framework, examines (i) how FORCE is manifested in verbs of urging in Hakka, and (ii) the correlation between the semantic content FORCE and the syntactic manifestation. In adopting these verbs to study the interpsychological force-dynamic interaction, this study modifies Talmy’s framework and also provides a fine-grained analysis for verbs of urging in Hakka.

1 IntroductionForce-dynamics, which concerns the exertion and resistance of a force, the overcoming of such a resistance, and the like, figures in an essential place in language structure. Talmy (2000a) develops a system of diagrams to analyze three different domains of force-dynamic patterns, including psychophysical, intrapsychological, and interpsychological domains. Among them, the interpsychological force-dynamic interaction, involving force interactions between sentient entities is especially complicated. Verbs of urging in Hakka can be used as a prototypical case of this domain. Therefore, this study, adopting and modifying Talmy’s (2000a) force-dynamics framework, has the following two purposes. First, it demonstrates the interpsychological force-dynamic patterns of the verbs of urging in Hakka. Second, it examines the correlation between the semantic component FORCE and the syntactic manifestation of the verbs.

This paper is sequenced in the following way. Talmy’s force-dynamics model will be outlined in Section 2. The analysis will be presented in Section 3. And finally, Section 4 will conclude this paper.

2 Theoretical FrameworkAs encoded in language, force interaction preponderantly involves two forces opposing each other. The focal force entity is called the Agonist and the opposing force is called the Antagonist by Talmy (2000a). Talmy makes extensive use of diagrams to represent different force-dynamic patterns. The basic elements of this framework are shown in (1) below.(1) a. Force entities b. Intrinsic force tendency Agonist (Ago): toward action: >

Antagonist (Ant): toward rest: �

c. Balance of strengths d. Resultant of the force interaction stronger entity: + action: -------->-------

weaker entity: rest: -------�-------- (Talmy 2000a: 414)

Moreover, in Talmy’s model, force-dynamic interactions can be divided into EXTENDED

329

Page 333: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

pattern and ONSET pattern. The EXTENDED pattern is a steady-state force-dynamic pattern with the Antagonist impinging steadily on the Agonist. In contrast, the ONSET pattern indicates that the Antagonist has come into position against the Agonist or has moved out of a condition of impingement on the Agonist.

3 AnalysisIn this section, the data description will first be presented in Section 3.1. Next, the semantic elements for verbs of urging in Hakka will be shown in Section 3.2. Then the cases concerning hard-to-resist urging and easy-to-resist urging will be discussed in Section 3.3 and Section 3.4, respectively.

3.1 Data descriptionVerbs of urging in interpsychological domain involve the force-dynamic interactions

between two sentient entities---the urger producing the force of urging with a piece of strong advice, and the urgee refusing to perform the requested action by producing the force of resistance. Nine verbs of urging in Hakka are found and listed in (2) below.(2) Urging

harder to resist easier to resist

hak2 cui24

cat2 kien55

giuk2 bet2

dui31 gam24

hem24

We can see that verbs of urging in Hakka are located toward different ends of the scale. Hard-to-resist urging refers to the act of urging which is difficult for the urgee to resist. On the other hand, easy-to-resist urging refers to the kind of urging which is not too difficult for the urgee to resist.

3.2Semantic elements for verbs of urging in Hakka

Some modified elements of Talmy’s (2000a) model will be adopted to examine verbs of urging in Hakka. The basic elements of the force-dynamic interaction are depicted in (3) below.(3) Semantic elements of the force-dynamic framework for urging

a. Agonist b. Antagonist (urgee) (urger)

the urgee’s tendency: does not want to perform the urger’s intention: to force the urgee to perform some action a particular action

c. Volition for the urger and the urgee d. The resultant state of urging ------------------------- (the requested

action is performed) ----------�------------- (the requested

action is disobeyed)

3.3 Hard-to-resist urging

� >

V

330

Page 334: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

As shown in the scale, the verbs hak2, cat2, giuk2, and dui31 belong to this type of urging. This force-dynamic interaction is diagrammed in (4) below.

(4)a. b. c.

-----●-------

This force-dynamic script shows that only phase (a) is windowed, while phase (b) to (c) is gapped (shown by the gray background of the surrounding rectangular). The following two examples show that only phase (a) is placed into the foreground of attention, and the occurrence of phase (b) to (c) is unknown. See the following example.(5) A24-min11 giuk2 gia11 moi55-e31 hi55 hok5-gau31.

“A-min urged his daughter to go to school.”In example (5), we do not know whether A-min’s daughter went to school or not at that moment.

This example shows that after verbs of hard-to-resist urging is used, we just focus our attention on the beginning phase. Moreover, the example below illustrates that the urger’s force of urging will become stronger than the urgee’s force of resistance, and the requested action needs to be fulfilled, which matches the urger’s desired result.(6) Bun24 gia11 ba24 gin31 cat2, A24-min11 ciet5-do55 voi55 ten11-den31 zon31-vuk2-ha24.

“Urged iteratively by his father, A-min definitely will return home right away.”

The felicitous use of the adverb of judgment ciet5-do55 ‘definitely’ in (6) to confirm the speaker expectation is based on the lexicalized implicature of the urging verbs cat2---the force of the urger’s urging becomes too strong for the urgee to resist.

The windowed phase of this interpsychological force-dynamic interaction belongs to the ONSET DESPITE pattern because in this beginning phase, despite the force of urging, the real result does not match the urger’s desired result. However, in the gapped final phase, it is an ONSET CAUSATION pattern because in this phase, the real result matches the intention of the urger---causing the urgee to perform certain kind of action.

3.4 Easy-to-resist urging

Verbs that are located toward the other end of the scale include: kien55, cui24, bet2, gam24, and hem24. Whether it is resistible or not depends on the relative power concerning the social status or the vicious power struggle between the urger and the urgee, and also the personality of the urgee himself.

Easy-to-resist urging can be categorized into two subtypes, one concerning a stronger force of urging, and the other a stronger force of resistance. Because of the limitation of the length of the paper, we will only show the diagrams of these two subtypes of forceful interactions with several illustrative examples.

(8) force of the urger’s urging (+) > force of the urgee’s resistance (-)

a. b. c.

------�------

When the urger has greater power over the urgee, and when the urgee is receptive or obedient, the force of the urger’s urging will be stronger than the force of the urgee’s resistance, and thus the

+�> +

>�

>+

VV V

VV V

+�> +

>�

>+

VV V

VV V

331

Page 335: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

requested behavior will be accepted and performed successfully by the urgee. It is shown in this force-dynamic script that only phase (a) is windowed, while phase (b) to (c) is gapped (e.g. Gia11 me11 kien55 gi11 zo31-diam31 soi55-muk2.). Although phase (b) to (c) is placed into the background of attention, it can be predicted that after the force of the urger’s urging gets greater, finally this force will even become stronger than the force of resistance. As a result, in phase (c), the urge will be obeyed and the requested behavior will be fulfilled, shown by the arrowhead on the resultant line (e.g. A24-min11 an31 hien11-hau55, bun24 gia11 me24 kien55-kien5-a31-le11, ziin55-gin24 ciu55 goi31-go55-hiong55-san55.).

The diagram of the second subtype is shown below.(8) force of the urger’s urging (-) < force of the urgee’s resistance (+)

a. b. c.

------�------It is shown in this force-dynamic script that only phase (a) is windowed, while phases (b) and (c) are not only gapped but also blocked. More specifically, phases (b) and (c) do not occur, and the non-occurrence of these phases is placed into the background of attention. Since phases (b) and (c) do not occur, the urgee’s force of resistance remains stronger despite the urger’s force of urging. This stronger force of resistance is derived from the urgee’s personality involving rebelliousness. See the following example.(9) A24-min11 o24-sii31-mang11-ngang55, but2-gon31 gia11 me24 ngiong31-e11 kien55, ciet5-do55 han11-he55 sii31-cien11-siong55-sii31-sui31.

“A-min, young and inexperienced, absolutely will continue to waste money regardless of his mother’s urge (not to).”

4 ConclusionA scale is proposed to depict the correlation among the urger’s social status and power of persuasion, the urger’s force of urging, the urgee’s personality of rebelliousness, and the urgee’s force of resistance, as given in (10).(10) Urger’s social Urger’s force Urgee’s force Urgee’s

status and power of urging of resistance personality ofof persuasion rebelliousness

+ +

ONSET CAUSATION

ONSET DESPITE + +The analysis proposes that verbs of urging in Hakka are located toward

different ends of the scale, one concerning hard-to-resist urging, and the other easy-to-resist urging. As for the hard-to-resist urging, the beginning phase of it belongs to the ONSET DESPITE pattern, while the final phase belongs to the ONSET CAUSATION pattern. The easy-to-resist urging, on the other hand, can be further grouped into two subtypes, one concerning a stronger force of urging, and the other a stronger force of resistance. Because the first subtype of easy-to-resist urging involves the shift of the stronger force, the beginning phase of it is the ONSET DESPITE pattern while the final phase is the ONSET CAUSATION pattern. Next, because in the second subtype of easy-to-resist urging, the force of resistance

+�> +

>�

>+

VV V

VV V

332

Page 336: From Frame to Subframe: Collocational Asymmetry in ...courses.nus.edu.sg/course/chswh/wh_website/books/Recent... · Web viewChin-Chuan Cheng Academia Sinica We felt it was time in

remains stronger than the force of urging, only the ONSET DESPITE pattern is involved. Generally speaking, for verbs of urging in Hakka, the relative strengths between the urger and the urgee lie in the relative social status and power between the urger and the urgee and also the urgee’s personality of rebelliousness. Moreover, some syntactic manifestations including Hakka BUN-constructions, the adverbs of duration, evaluation and judgment, and the resultative complements are used to examine different patterns in the interpsychological domain.

After examining these verbs from a force-dynamic perspective, this study not only provides a more fine-grained and extensive analysis for the verbs of urging in Hakka but also modifies Talmy’s framework to some extent.

References Hakka Dictionary. 1992. Miaoli: Cathay Hakka News.

Hakka Dictionary of Words. 1998. Taipei: Yongguang.

Random House Webster’s Unabridged Dictionary. 1998. 2nd edition. New York: Random House.

Talmy, Leonard. 2000a. Toward a cognitive semantics I: Concept structuring systems. Cambridge: The MIT Press.

Talmy, Leonard. 2000b. Toward a cognitive semantics II: Volume in typology and process in concept structuring. Cambridge: The MIT Press.

333


Recommended