+ All Categories
Home > Documents > 基于亲缘分类、语音距离及通解度 测量法的彝语西部方言分类 (Chinese...

基于亲缘分类、语音距离及通解度 测量法的彝语西部方言分类 (Chinese...

Date post: 18-Nov-2023
Category:
Upload: independent
View: 0 times
Download: 0 times
Share this document with a friend
23
1 基于亲缘分类、语音距离及通解度 测量法的彝语西部方言分类 Cathryn Yang 世界少数民族语文研究院(东亚部) 朱丽颜 联系方式: 电邮:[email protected] 电话:+86-13211695460 地址: Cathryn Yang 世界少数民族语文研究院 中国云南省昆明市 青年路延长线 53 滨江大厦 B 18 邮编:650051
Transcript

1

基于亲缘分类、语音距离及通解度

测量法的彝语西部方言分类

Cathryn Yang

世界少数民族语文研究院(东亚部)

朱丽颜 译

联系方式:

电邮:[email protected]

电话:+86-13211695460

地址:

Cathryn Yang

世界少数民族语文研究院

中国云南省昆明市 青年路延长线 53 号

滨江大厦 B 栋 18 楼

邮编:650051

2

基于亲缘分类、语音距离及通解度

测量法的彝语西部方言分类*

摘要

腊罗话属于彝语支的西部方言群,分布在中国云南省西部,人口少于三十万。以前,

大多数腊罗话的土语都没有文献记录,并且,腊罗话曾被认为只有两种土语。该论文对腊

罗话作出首次精确的分类。这个分类是基于在 18 个腊罗村的方言学研究,当中包括 1,001

个词语的录制、通解度测试以及社会语言学的访问。综合历时亲缘分类、通解度测试以及

用来文史特编辑距离测量的语音距离的结果,该论文认为,腊罗话实际上由至少七个土语

组成。语音距离与通解度有很强的相关性,而基于语音距离的 NeighborNet 网络分析与时

间深度较浅的历时亲缘分类相一致,为方言测量学的技术提供了进一步的验证。该论文表

明,这些技术在鲜为人知且濒临灭绝的本土语言的分类中用处很大,这些语言通常都迫切

需要我们来保护。

关键词:腊罗话、语言分类、亲缘分类、语音距离、通解度

1. 导言

分布在中国云南省西部的腊罗话是彝语支的中部方言群中最少被研究的方言之一。直至该项研究,大多数腊罗话的土语都没有被记录。陈士林,边仕明,李秀清(1985: 195)在他们对许多彝语广泛全面的勘察中认为,腊罗话只有两种土话,但没有说明两种土话之间的具体差别。为了填补这一空白,从 2008 年 2 月到2009 年 1 月,在大理、保山、临沧和普洱等地区进行了一个方言学的研究。该研究的结果表明腊罗话实际上有至少三个主要的土话,它们都不能互通;另外,有四个较小的土语在腊罗话的地理分布区的边缘。

这种分类的证据来自三种方法论,它们提供了互补的视角:比较法的历时、定性的角度;方言测量学的共时、定量的角度,以及通解度测试的感知角度。Pelkey (2011)发明了这种多股(multi-strand)分类方法,他把这方法称作“整合方言学(integrational dialectology)”。原始腊罗话的语音系统以及 900 个词条都被重构,并且,词法、语音学以及词汇的共同创新都被用于亲缘分类中。变体之间的总计语音距离是用字符串编辑距离算法,即“来文史特编辑距离”,来测量的,然后再用 NeighborNet 网络分析和多维量表来分析。为了调查土话差异的感知影响,大多数变体的说话者接受了通解度测试,就是测量他们对用某种变体录制的短篇叙述文的理解程度。每种方法都对其他方法得出的结果的解释起到验证作用。在第一次对变体进行记录和分类时,这是一种很重要的三角测量方法。

该项研究把新近研发出来的方言测量学技术应用到一种在中国濒临灭绝、文献记录不足的语言群中。这个方言测量学的新领域最先是由 Séguy (1971) 和

* 该项研究得到玉溪师范大学的大力支持及 2008年拉筹伯大学人文与社会科学院研究基金和世

界少数民族语文研究院(国际)提供的资助,在此特别感谢。尤其感谢玉溪师范大学民族研究

所的白碧波教授和许鲜明教授所给予的帮助。我同样也要感谢 David Bradley、Laura

Blackburn、Eric Jackson、Randy La Polla 以及一名匿名审稿人对该论文较早版本所提的意见。

文中疏漏之处纯属个人责任。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

3

Goebl (1982, 2006)开辟出来。它使用语言变体的定量、综合分析,寻求新的途径来理解语言变体间的关系以及可作解释的因素(Nerbonne、Kretzschmar

2006)。来文史特编辑距离是在方言测量学越来越多的技术中的一个测量法,包括在各个语言层面上(比如,句法、音系等)对变体的分析。只有少量的研究把来文史特编辑距离应用到汉字文化圈内的语言中:Tang 2009: 117-136 对汉语的研究;Yang、Castro 2008 对白语和壮语的研究;Yang 2009 对尼僳语的研究;以及Stanford(在编写中)对水语的研究。Pelkey (2011: 281-285, 353-355)在他对仆拉语的分类中使用基于词汇距离的 NeighborNet 网络分析,得出混合的结果。Ben

Hamed (2005) 以及 Ben Hamed、Wang (2006)发现,汉语的 NeighborNet 网络分析与汉语历史和社会趋势相一致。该项研究发现,来文史特编辑距离输入到NeighborNet 网络分析和多维量表中后得出大部分与历史亲缘分类相吻合的分类。这些结果,连同来文史特编辑距离与通解度测试之间的强相关性,都与之前的研究相一致,证实了来文史特编辑距离是一种方言测量学的技术(例如 Heeringa、Gooskens 2004; Heeringa 2004; Gooskens 2006)。许多东亚的本土语言的文献记录都不充足,它们也濒临灭绝。而这些工具尤为适合它们,因为它们迫切需要语言保护和语言规划工作。在我们做语言规划的决定的时候,整体的语音相似性(即使这种相似性是语言接触的结果)、语音转移或语音保留都是很有用的信息。

根据第四章的共同创新,腊罗话被划分为三个不同土话群:东部土话群(E)、西部土话群(W)和中部土话群(C)。这些土话群构成了核心腊罗话组,并大部分分布在传统的腊罗话发源地,即大理州南部。四种分布在边缘的腊罗话——俄卡、芒底、杨柳和徐掌,代表了从腊罗话发源地出来的不同的移民浪潮。通解度测试表明,核心语言之间的通解度以及边缘语言和核心语言之间的通解度都很低;而 E 和 C 的土话群内部通解度却很高。基于语音距离的分类与历史亲缘分类大部分一致,但也显示出某些变体之间由于大量的语言接触而产生的影响。

2. 背景

腊罗话的发展系谱是藏缅语族、彝缅(倮倮缅)语支、彝(倮倮)语组、彝语中部方言 (Bradley 2002)。腊罗话属于彝少数民族。由于腊罗话分布在云南西部,中国的语言学家把腊罗话划分为“彝语西部方言”。说腊罗话的人口少于三十万。这个估计数字是根据中国人口统计的资料和该研究的族群语言活力调查而得。中部方言群的人口大约有 213,000;西部方言群有 44,000;东部方言群有15,000;杨柳地区有 7,000;俄卡有 3,000;芒底有 3,000;徐掌有 2,000。所有腊罗话都反映出原始腊罗话的本名*la²lo̠Hpa̠ʟ ,比如,在 W-YL 中,叫[la²¹lo³³pa⁵³],在 C-LJ 中,叫[la²̠¹lo̠³³pa²̠¹]。说俄卡话的人现在自称[o²¹kʰa²⁴],但年长的却记得有一个时期,他们自称[la²¹lu̠³³po̠²¹]。其他用来判断腊罗话群归属性的标准在第四章中将会阐述。说腊罗话的人大部分居住在大理州南部,特别是巍山县,那里在传统中被认为是腊罗话的发源地。在历史上,这片地区是蒙族的故乡。这个族群曾统治南诏国(公元 737-902)。许多讲核心腊罗话的人都宣称自己是蒙族的后代。下面的图一是大多数腊罗话所分布的地域图。

其他彝语中部方言,比如拉祜话和傈僳话,是大量的语言档案编制和方言学研究的焦点,比如,Bradley 1979a, 1997; Matisoff 1973 [1982], 1988。然而,对于

4

腊罗话,在方言分类方面并没有精确的研究,因为关于腊罗话变体的文献记录非常少,除了值得注意的 Björverud (1998)撰写的在巍山县龙街村的中部腊罗话变体的语法。陈士林等 (1985: 198)根据 1950 年的语言资料,称腊罗话有两个土话——东山土话和西山土话,以把巍山县一分为东西两半的山谷为界。然而,他们没有给出这样划分的语言学根据。之后大规模的彝语勘察(王成有 2003; 朱文旭 2005)重复了陈士林等的二分法,把腊罗话分为东西两部分。凡是不属于西山变体的,都归到“东山土话”这一范畴,从东部的弥渡县到保山这片远西地区都包括在内(朱文旭 2005)。

然而,“东山土话”和“西山土话”这样标签只有在巍山境内才合适。以前的研究者使用的东山土话这个标签,把巍山东北部的真正的东山土话和大理市的腊罗话东部土话群合并在一起了。这个不恰当的看法,认为这些地区说腊罗话的人属于同一个土话群,可能是由于他们在地理上相邻,并且有相似的传统服饰,同时也由于缺乏语言资料。该论文将论证,东西山腊罗土话都属于腊罗话中部土话子群,这子群又只是若干个腊罗话子群中的一个。

图一 中国云南省地图。大多数腊罗人居住在大理、保山、临沧和普洱地区。

3. 资料收集

2008 年进行的田野工作需要在 9 个县的 18 个腊罗村里面收集资料。田野工作地点的选择都是与说腊罗话的人一起磋商的,目的是为了记录最大范围的方言差异。表格一列出了被选中的田野工作地点的位置和缩写,并根据所提议的分类把他们划分成小组。东山土话和西山土话分别以 CE-YA 和 CW-QY 来表示;其他中

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

5

部土话都不标作西山土话,因为那些说腊罗话的人都不用那个地名来称他们的语言或民族。图二是标有 18 个腊罗村位置的地图

无论是比较法还是语音距离分析,都需要比较来自各个变体的词汇资料。我们使用了改编自 Pelkey 2008 的包含 1,001 个词条的词汇表。汉语注释和图片都按着语义范畴来排列。我们请一个两到三人的讲双语的小组把汉语翻译成腊罗话。一个来自 CE-YA 的讲腊罗话的人带领所有的录音会议,并辨认任何误译的地方。所选的参与者都是以腊罗话为母语的人,腊罗话讲得流利,在村里长大,并且父母至少有一方是来自那个村子的。他们的参与是自愿性,参与者根据他们参与的时间获得报酬。参与者主要是男性(47 位参与者中占了 36 位)。因此,需要对腊罗话的女性言语进行进一步的研究。

土话群 州 县 乡镇 村 缩写

中部(东山) 大理 巍山 永建 永安 CE-YA

中部(西山) 大理 巍山 马鞍山 青云 CW-QY

中部

大理 巍山 五印 龙街 C-LJ

大理 漾濞 瓦厂 瓦厂 C-WC

大理 永平 水泄 乐把 C-LB

大理 南涧 小湾东 岔江 C-CJ

普洱 景东 安定 青胜 C-QS

东部

大理 大理 市郊区 吊草 E-DC

大理 大理 凤仪 后山 E-HS

大理 大理 太邑 桃树 E-TS

西部

大理 漾濞 太平 独田 W-DT

大理 漾濞 龙潭 水竹坪 W-SZP

保山 隆阳 瓦马 上里濯 W-SLZ

大理 永平 厂街 义路 W-YL

徐掌 保山 隆阳 瓦房 徐掌 XZ

杨柳 保山 隆阳 杨柳 杨柳 YL

俄卡 临沧 双江 贺六 彝家村 Eka

芒底 临沧 耿马 贺派 芒底 MD

表格一 腊罗资料点的位置与缩写

6

图二 腊罗话在云南西部的资料点地图

4. 基于共同创新的历时亲缘关系

在用音标写出录音材料并输入电子数据表后,就用比较法重构原始腊罗话(PLa)的语音系统以及 900 个词条。完整的重构,可参见 Yang 2010: 99-168。正如在 Bradley (1979)中原始彝语的重构和在 Matisoff (2003)中原始彝缅语和原始藏缅语的重构,腊罗祖先的语言的重构对于追溯腊罗话的历时发展的帮助是无可估量的。在确定一个姐妹变体之间的共同特征是从原始腊罗话保留下来的,还是这个个别的腊罗土话子群的共同创新的时候,原始腊罗话的系统性重构就是解答这问题的基础。

原始腊罗话的音节模板是*(C)V(ŋ)T,一个首成分后面接着韵基和声调。非强制性的首成分共有 47 个、强制性的韵基和 9 个,声调 5 个,其中有两个声调有尖刺音。韵基包括 8 个单元音和一个鼻音尾成分*aŋ。原始腊罗话的词大多数都是单音节,也有一些双音节的复合词。这跟它的始祖原始彝语不同。原始彝语的词是倍半音节(即,弱音节+强音节结构(Matisoff 1973))。表格二列出原始腊罗话的首成分的辅音总藏。原始腊罗话有腭音化唇音和软腭音的辅音丛,还有唇软腭音鼻音丛*ŋw。原始腊罗话区分前声门化的响音和舌低的响音,并有一个前声门化和舌低的擦音对:*ʔv 和*v。前声门化的*ʔŋw 这个音未经证实,但根据前声门化的首成分和舌低的首成分的对称性,这个音在理论上是可能存在的。原始腊罗话的前声门化的首成分是原始彝语的前缀*ʔə-与后面接着的响音合并的结果。不带声声门擦音*h 可能是鼻音化的[h̃]。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

7

*p *pj *t *ts *tʃ *k *kj

*pʰ *pʰj *tʰ *tsʰ *tʃʰ *kʰ *kʰj

*b *bj *d *dz *dʒ *g *gj

*f *s *ʃ *x *h

*v *z *ʒ *ɣ

*ʔv

*m *mj *n *ɲ *ŋ *ŋj *ŋw

*ʔm *ʔmj *ʔn *ʔɲ *ʔŋ *ʔŋj *ʔŋw

*l

*ʔl

表格二 原始腊罗话首成分辅音总藏

表格三列出了原始腊罗话的韵基总藏。所有开元音都有典型和尖刺两种发声。尖刺(绷紧)发声用元音下面的下划线标记(比如,a)̠,它是非周期的发声音质,当喉室襞带动声襞且咽喉括约肌收缩的时候就会产生。(Edmondson、Esling 2006)。原始腊罗话基本上保留了原始彝语的声调种类。原始腊罗话的非尖刺音声调有三个等级的音高(*1 高音典型,*2 低音呼气 low and breathy,*3 中音典型),而尖刺音声调则有两个等级(*H 中音;*L 低音)。

*i *y *ɨ *u

*e *o

*ɛ *a *aŋ

表格 3 原始腊罗话韵基总藏

亲缘分类的准则是符合以下标准的音系、词汇和词法的共同创新:(1)创新的语言复杂性,(2)创新的生态显著性,以及(3)社会历史的可靠性(Toulmin

2009)。单个的语音变化不足以证明亲缘关系,因为大部分的个别语音变化类型都可以通过语音接触而扩散(Pittayaporn 2009: 298)。而要证明有共同的历史,就需要有一套的创新作为证据。

该论文提出的腊罗话系谱树,见图三。俄卡、芒底和杨柳都直接起源于原始腊罗话,而没有那些大腊罗话或后来的土话子群所特有的共同创新。在 1.1.中提到,俄卡和芒底的祖先在很早的时期从腊罗话发源地迁移出来(俄卡的迁移发生在三百多年前,而芒底的迁移则发生在大约两百年前)。虽然杨柳的迁移历史不详,但它没有大腊罗话之后发生的共同创新,这表明它很早就与其他的腊罗话变体分离了。大腊罗话子群包括徐掌和核心腊罗话变体。核心腊罗话包括三个土话群:E、C 和 W。C 和 W 又构成一个子群,不包含 E。在每个核心腊罗话群里,有些变体(比如,CE-YA)与内部核心变体有差异(核心 E、核心 W、核心C)。核心腊罗话变体都分布在或起源于大理州南部。这地区可能是所有腊罗话变体的发源地。在这里有最早的腊罗话存在的历史记载,也是腊罗话人口最集中、语言多样性最大的地区。

8

PLa

Greater Lalo

Core Lalo

C-W

C W E

XZ YL MD Eka

E.Mt. Core C YL Core W TS Core E

YA QY SLZ DC

WC DT HS

LJ SZP

LB

QS

CJ

图三 腊罗话系谱树

图四列出原始腊罗话和每个腊罗话子群所特有的创新。相对的年代用序列号表示。所有腊罗话都显示出以下创新的迹象:当前声门化的阻塞音后面接着韵基*-a,原始彝语的声调为*2 的音节都转变为*L;原始彝语的*o 和*u 在*b 后面合并成*o,然后,*o 在所有唇塞音后面都变成*wɨ。其他彝语都没有显示出这样的创新。关于这些变化的更多细节,参见 Yang 2010: 211-214。俄卡、杨柳和芒底都直接起源于原始腊罗话,而没有跟大腊罗话有任何共同创新。相反,它们显示出不同的发展,使它们明显区别于其他任何的腊罗话。芒底显示出一套韵基创新;俄卡显示出*1,*2,*H,和*L 的微分裂;而杨柳则显示出*1 和 *3 合并成中音,*L

和 *H 合并成高音。

大腊罗话(徐掌加核心腊罗话)有两个词汇创新,意思分别是“乌鸦”和

“芋头”。徐掌把*H,*L,和 *3 合并成中音;这个变化把它跟核心腊罗话区分

开来。核心腊罗话变体都有一个词法的创新,就是人称代词的复数标记*-tsa³³。

比如,ŋa⁵⁵为“第一人称单数”, ŋa³³tsa³³ 为“第一人称复数”。 C-W 显示出*g

在低后元音前面减弱,以及“年轻”的通俗词源为“在年龄上软”。C 变体有共

同的一套韵基变化;W 变体有一系列声调的创新;而 E 变体则有一套声调和韵基

的创新。在每个核心腊罗话群里,后期的变化把有差异的变体与内部核心变体划

分开来。下面列出来的变化造成复杂的共时对应组合,这负面影响了土话间的通

解度,以致三个土话群之间的通解度可以忽略不计,如第六章中所阐述的。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

9

语言群 创新

原始腊罗话 a) *2 > *L/*ʔ-阻塞音+*a_ 1) *o, *u > o/b_ 2) *o > wɨ/唇擦音_

俄卡 a) *1 > 低-升/默认值

b) 在各种情况下,*1,*2,*H,*L出现微分裂

芒底 a) *y > ɑ ̠b) *o > ɨ/软腭音首成分_

c) *e, *ɛ > ɛ

杨柳 a) *1 > 中/*[-voi]_, > 低-升/其他地方

b) *L, *H > 高(失去尖刺音)

大腊罗话:核心腊罗话加上徐掌

a) “乌鸦”(名词) *a³nakH (“那个黑色的”) >

*a¹ŋja̠Hbɛ̠H (“鸟”+bɛ̠H,可能指“未驯服的”)

b) “芋头” *a¹tʃʰo̠H

徐掌 *H, *L, *3 > 中音(失去尖刺音)

核心腊罗话: C-W-E *-tsa³³ 人称代词的复数标记

C-W a) *g > ɣ/_*a, *aŋ, *o̠

b) “在年龄上年轻”*tʰy²nu¹ > “在年龄上软”*tʰy²nu²

C a) *e > I b) *e ̠> i/̠[+高, -后]_

c) *ɛ ̠> a/̠[+后]_

d) *a > ɛ/ *C[+前, +粗糙]_$CV[-后]

核心 C

(不包括 CE-YA)

a) *ɛ ̠> a/̠其他地方

W a) *L > 高

b) *1/+ʔ_ > 中-高

c) *H > 中-高

核心 W:

(不包括 W-YL) a) *1 > 低-升/其他地方

b) “蚱蜢”的音位变换: *tʃɛ¹pu¹ > pɛ¹tʃu¹ c) 共同声调连读变音模式:高> 中-高/_高

E a) *H, *3 > 中(在*H 中失去尖刺音)

b) *y > ɨ/唇音_

c) *o > ɨ/唇音_ 核心 E:

(不包括 E-TS)

*y, *o > ɨ/其他地方

表格四 腊罗话子群特有的创新

5. 基于语音距离的共时分类

腊罗话变体之间的语音距离是运用称为来文史特编辑距离(LD)的一种字符

串编辑距离算法来测量的。这个测量法是由格罗宁根大学的方言测量学家研究出

来的(Heeringa 2004; Nerbonne 2009)。来文史特编辑距离以最理想的方式把两

个同源词的音段相应地排列起来,然后计算从一个同源词转化到另一个同源词所

耗费的最少的代价;这个转化方式可以是替换、插入和删除。来文史特编辑距离

算法被应用到词汇表中所有的腊罗话同源词组合。每一组同源词都会作对比,即

10

使那个同源词只是两个变体所共有。比如说,大腊罗话变体反映出“乌鸦”在原

始腊罗话中为*a¹ŋja̠Hbɛ̠H;而非大腊罗话变体反映出来的是*a³nakH,是原始彝语的

保留。*a¹ŋja̠Hbɛ̠H 的反映形式组成了一组同源词,而*a³nakH 的反映形式则组成了

另外一组同源词。总共比较了 955 组同源词。对于每一对变体,都要算出它们里

面的所有同源词的距离的平均值,最后得出一个距离矩阵。

我们以图四来举例说明。图四所显示的是 CW-QY 和 E-DC 这两个变体中表示“老虎”的同源词/laLEpa̠LE/和 /lɔLEpuMF/的发音的来文史特编辑距离。声调是用声调的起始和接着的曲拱来表示(比如,“中音-降”表示为 MF)。在 Yang、Castro (2008)中证明了这种表示法比起其他的表示法来说,与通解度有最强的相关性。为了避免较长的词在计算平均距离时占过多的比重,我们运用了一个标准化函数,把总代价除以最长的排列组合数目,正如在 Gooskens、Heeringa 2004

中的处理方法。在图四中,排列组合的长度是 9,因为尖刺音算作一个成分。

图四使用简单的音子表示法,没有比较特征上的差别,让差别无论大小都得到相同的比重。McMahon、McMahon (2005: 210-214)批评这种简单的表示法过于粗糙。但是,这种做法得到了外部验证。它与通过实验测量出来的说话人对语音距离的感知有相关性。Heeringa 等(2006)使基于特征的表示法和简单的表示法与说话人的感知距离互相对照,发现基于特征的表示法与说话人的感知距离的相关性没有明显地高于简单表示法。当研究的重点在于计算变体间的总计距离,而不是研究哪些差异是重要的时候,Houtzagers 等(2010)提倡使用简单的音子表示法。这种来文史特编辑距离跟通解度也有强相关性(Gooskens 2006; Yang、Castro 2008)。

变体 “老虎” 运算过程 代价

CW-QY laLEpa̠LF

laLEpaLF 删除 ̠ (尖刺音) 1

laLEpaMF 用中音替代低音 1

laLEpuMF 用 u 替代 a 1

E-DC lɔLEpuMF 用 ɔ 替代 a 1

总代价 4

标准化代价 0.44

图四 同源词“老虎”的来文史特编辑距离的运算过程

5.1 NeighborNet 网络分析

来文史特编辑距离所生成的距离矩阵会再由网络建立程序 NeighborNet 和多维量表(MDS)来处理。NeighborNet 网络分析首先是由 Bryant、Moulton 在 2004

年为进化生物学而研究出来的。这套程序可免费获得,程序包叫做 SplitsTree 4

(Huson、Bryant 2006)。NeighborNet 在这里是用来表示表现型分类,也就是,基于变体间的整体的语音相似性,而不是用来表示进化枝关系,即基于历史上的显著共同创新。NeighborNet 的表型性关系树形图(也就是表示表型关系的图表)呈现了一幅变体间关系的共时快照,包括了所有语音相似性,不管这相似性是由于对亲缘分类有重要意义的保留、共同创新,或是语言接触导致的改变,又或是平行发展。McMahon 等(2007)和 Maguire 等(2010)以相似的方式使用

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

11

NeighborNet 来量化英语方言之间的差异程度,其重点在于共时关系。在图七中的表型图与腊罗话系谱树有许多相同的地方,但并非完全一样。这是由于变体间的接触和共同保留。

正如 McMahon 等(2007)所指出的,NeighborNet 所带来的优点之一是,它能够把多种树形图都在一个图表中表示出來。如果有些相似性与一个树形图不相容 NeighborNet 仍然会通过网状线或像矩形的线来表示它们。数据中不明确的地方或混合的迹象都会被显明出來,而不会被折叠成单一的线条,就像在建立树形图的程序中那样,比如相邻合并法(Saitou、Nei 1987)。这优点在对比图五和图六中就体现出來了。图五显示出用相邻合并算法建造的折叠的树形图,它把 C-

WC 和 C-LB 划分到左上方,与右下方的 CW-QY 和 C-LJ 相对。图六显示的基本分类与图五相同,但能够进一步展现另一种分类,即 C-WC 和 CW-QY 为一组,C-LB 和 C-LJ 为另一组。第二种分类在图六中通过矩形的较短的边来表示。这较短的边把 C-WC 和 CW-QY 推向右上方,而把 C-LB 和 C-LJ 推向左下方。与图五相反,图六能够显示出所有变体对之间相似性。当数据实际上符合树形模式的时候,NeighborNet 才会生成一个树形图。因此,这是一个表示方言网络的最佳方法,因为方言网络通常都有复杂又局部冲突的同言模式。

图五 四个中部变体的相邻合并树形图

12

图六 四个中部变体的 NeighborNet 网状矩形

图七是使用等角法制作的所有 18 个腊罗话变体加上原始腊罗话的NeighborNet 表型图。越少网状线就表示那个迹象越清晰,也就是这个土话群的划分越明确。可对比一下 C 或 W土话群相对较窄的枝条与那许多把 E变体互相拉开并拉向其他变体的网状线。线的相对长度描述了变体的相对差异:线越长,变体与其他变体之间的差异就越大。例如,杨柳相对较长的线标志着它与其他所有腊罗话都非常不同;而连接 C 变体的较短的线描述了 C 土话群内部的差异程度相对较小。

核心腊罗话的三个土话群 C、W 和 E 在图七中都可辨认出來。C 变体在表型图的左边聚集,只有很少的网状线和较短的线。C 土话群也是跟原始腊罗话最接近的,这是因着它的保守性,比如说,它保留了原始腊罗话的声调系统。W 变体也组成了一个界线显明的土话群。所有 E 腊罗话变体都在表型图的一个区域里。有网状线把它们与 CE-YA 和 XZ 连在一起。与 C 腊罗话紧密的一束相反,E 土话群就松散得多,但依然可以分辨。NeighborNet 分辨出來的核心腊罗话群验证了在第四章里面谈到的下层的历时亲缘分类。这个验证是所预期的,因为共同的历史是共时相似性的来源。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

13

图七 基于语音距离的腊罗话变体 NeighborNet 表型图

然而,图七显示出与系谱树的两大差别:(1)一些变体聚类在一起是因着语言接触导致的变化或共同保留,而不是共同创新;并且(2)NeighborNet 并不显示出上层的分类,比如说,核心腊罗话或大腊罗话。巍山县东北部的一种 C 变体,CE-YA,正好分布在 E 变体的南部,与 E 变体聚类在一起。与 E 的这种联系是因着说 CE-YA 土话的人和 说 E 土话的人之间有紧密的接触,包括频繁的通婚。CE-YA 与其他 C 变体的语音系统中的大部分首成分和尾成分有共同的创新,但是也共享 E 土话群的声调*1 分裂这一创新。声调*1 分裂影响了词汇中的大量词语,因此,对 CE-YA 与其他 E 变体之间的来文史特编辑距离有相对较大的影响。

芒底和俄卡似乎通过一条长的网状枝条形成一个土话群,但又被个别的长线条划分开。这表面上看似乎有可能的芒底-俄卡土话群是因着共同保留,也可能因着地域影响,但并非因着共同创新。它们被归到一起不是因着历史原因。然而,从共时的角度来看,俄卡和芒底两者都位于临沧地区南部同一个区域,因此

14

也共享一个相似的语言生态环境。俄卡和芒底都与这一地区的语言有接触,比如傣语、黑拉祜语。从语言规划的角度来看,俄卡和芒底在地理上相邻,并且有共同的地域影响,我们可以考虑让它们在以社区为基础的语言规划工作中一起合作。

NeighborNet 表型图没有显示出上层的土话群,比如说,C-W、核心腊罗话或者大腊罗话。这个差异有两个原因。第一,表示上层子群特点的共同创新对词汇没有很大影响;它们只占了词汇的一小部分,因此,对语音距离的影响也很小。第二个原因是,在声调系统里的后期的变化,它们代表了下层土话群的特点,对很大部分的词汇都有影响,因此,在语音距离的测量中起了很重要的作用。在土话群层面的这些后期变化减小了子群的语音相似性,因此,比如,尽管C 和 W在历史上是连在一起的,但它们现在的形式却非常不同。

5.2 多维量表

就像 NeighborNet,多维量表也展现了腊罗话变体之间的关系而没有强制性把它们放进一个树形图里。多维量表根本没有明确地把变体聚类到一起,而是把它们当作与所有其他变体都互相关联来呈现。当变体的位置彼此靠近的时候,它们就可以形成一个直观的土话群,就如在图八中的中部变体。二维的欧几里得空间用来表示腊罗话变体。Kleiweg (2004)在他的 RuG-L04 软件指南中推荐Kruskal(1964)的方法,因它常常给出最好的结果。Kruskal 的方法发现变体的一种编排,它与腊罗话变体间的语音距离的排列顺序最吻合的,使得在距离矩阵中距离最远的变体在多维量表空间里也是距离最远的,而最相似的变体就是最靠近的(UNESCO 2008)。

图八显示出使用 Kruskal 方法处理语音距离矩阵的结果。总体来说,这些结果与 5.1.中 NeighborNet 的网状图表是一致的。与 NeighborNet 相反的是,多维量表分辨出大腊罗话的上层分类。大腊罗话变体(即核心腊罗话加上徐掌)形成一个在图表中间的土话群,周边还有杨柳、俄卡和芒底这几个边缘变体,彼此之间还有与其他所有变体之间都相距甚远。多维量表距离反映出这些腊罗话变体与核心腊罗话的地理距离。相对于核心腊罗话来说,俄卡和芒底在远处的南边,杨柳在远处的西边。C 和 W 土话群的界线是很清楚的,然而,E 土话群的划分却是比较不明确,这与 5.1.中的结果相似。CE-YA 是 C 土话群的一部分,但与 E 的距离比与其他任何的 C 变体都近。E-DC 虽然仍然很靠近其他 E 变体,但似乎在大腊罗话群的边缘。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

15

C

CC

CC

C

CE-YAE

E-DC

EXZ

W

W

W W

YL

Eka

MD

-5

-4

-3

-2

-1

0

1

2

3

-4 -3 -2 -1 0 1 2 3

图八 基于语音距离的腊罗话变体的多维量表

总的来说,NeighborNet 和基于语音距离的多维量表与相对较浅的时深的历时亲缘分类相一致。时深相对较浅是指在方言群和个别变体的层面上。这支持了三个土话群和四个边缘变体的分类。多维量表显示出大腊罗话变体之间更加靠近,但 NeighborNet 则没有显示出在历时亲缘分类中发现的任何上层子群。若要研究腊罗话群深时深的关系,并且要区分语言接触和真正的系谱关系,就必须运用比较法。然而,对于语言规划来说,界定比较近代的关系是很重要的一步,而且,方言测量工具在这个方面是对比较法的一个很用的补充。

6. 通解度测试

录音材料测试(RTT)最早是由 Casad (1974)研究出來的,并由 Kluge

(2007)调整。这个测试是测量听众对一个特定的文本的理解,然后用作该听众对那种变体的整体通解度的评估。录音材料测试的操作过程是把用方言甲录制的故事播放给讲方言乙的人听;然后,方言乙的听众就逐段逐段地来听这故事并重复每段的内容。衡量通解度的分数就是把复述的内容会跟一个核心元素的基线作对比。这些核心元素是由一组母语听众来确定的。

为了进行初步试验,一个甲村的本地人要讲述一篇短故事,长度一般为一到三分钟。这故事被录下来,然后翻译成汉语。由八位母语听众组成的小组被邀请来听这故事。小组的成员都是在村里长大,操流利的本族语,父母是本地人。虽然参与者不要求讲流利的汉语,但在讲腊罗话的人中,会讲双语的人比例很高,以至于参与者都能讲流利的汉语。因此,参与者用汉语回答,不需要翻译员。

操本族语的人先听整篇故事,然后再一段一段地再听一遍,每段之后都暂停一下,让听故事的人用汉语复述那一段的内容。所有母语听众复述的元素就组成了评估来自其他变体的参与者的回答的基线。在第一次初步测试故事的时候,从

16

跨变体听众的分数看到的通解度水平可以与操本族语的人对同一个故事的理解度相比。

当我们在变体乙当中进行录音材料测试的时候,使用了与初步测试同样的程序来挑选参与者,但加上了一个规定,就是参与者不能已经在被测试的变体所分布的地区居住超过一个月。尽管这不能排除在市场或节日活动中的日常接触,但这仍然筛选掉那些通过大量语言接触而获得通解度的参与者。在每个村挑选八到十个参与者,大概一半为男性,一半为女性。如果多于两个参与者的通解度分数接近于零(低于 10%),测试就会被中止。

在筛选之后,每个参与者都按照与母语听众小组同样的测试程序接受测试。播放的段落从不超过 10 秒钟,保证录音材料测试不是测试记忆力,而是测试理解力。听众的通解度分数就是被提到的核心元素的数目除以母语听众小组确定的核心元素的总数。

由于时间的限制,又因为录音材料测试过程耗费力气,所以,不是所有的录音材料测试都在每个村子里进行。因着 CW-QY 被考虑作为拼字法发展的参照变体,它在 18 个地方当中的 16 个地方被测试。C-LJ 在七个地方被测试;E-HS 和

E-DC 在五个地方被测试;W-DT 在三个地方被测试; CE-YA 和 C-CJ 在两个地方被测试; C-WC 在一个地方被测试。参与者总共为 122 人。

总地来说,录音材料测试的结果与基于系谱树和方言测量学分类而作出的预期相符。土话群间的通解度很低,除非变体有大量的土话群间的语言接触;而土话群内的通解度就通常达到中等或高等。图九显示每个村子在回答 CW-QY 的录音材料的测试结果的平均值。边缘变体都显示出对 CW-QY 故事的低通解度。E

听众显示出比边缘变体稍微高一点的通解度,但仍然等于或低于 40%。W 变体在它们的通解度上差距很大,从 W-DT 的 10%到 W-YL 的 60%。W-YL 在 C 和 W

变体之间的边界上,与 C 变体(比如 C-LB)有接触。W-YL 这出乎意料的高分数可能放映了后天获得的通解度,而不是内在的通解度。也就是说,这是由于语言接触,而不是由于变体间的结构相似性。W-YL 分数的标准差为 17,分数从 30%

到 77%。大标准差(大于 12)表示通解度是通过语言接触获得(Blair 1990:

25)。在 C 土话群中,C-WC 和 C-LJ 的分数最高。这反映了它们在地理和亲缘上与 CW-QY 的接近 。其他 C 变体也有相对较高的分数(60%以上),尤其在与来自 E 和 W变体的听众比较的时候。

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

17

0 0.01 0.02

0.07

0.18

0.25

0.40

0.10

0.34

0.620.59

0.61

0.67 0.68

0.79 0.79

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Eka MD YL XZ E-DC E-TS E-HS W-

DT

W-

SLZ

W-

YL

C-LB C-CJ C-QS CE-

YA

C-

WC

C-LJ

图九 各村在 CW-QY 录音材料测试中的平均分数

图十显示 E-HS(标为黑色)和 E-DC(标为灰色)的录音材料测试结果的平均值 。总体来说,非 E 变体表现出低通解度。土话群内的分数,即 E-DC 听众听 E-HS 故事的分数,高达 88%。CE-YA 听 E-DC 故事时得分 70%,这一高分可能是由于这两个村子间亲密的社会接触。这也影响了 CE-YA 的语音系统发展(比如, CE-YA 与 E-DC 共享声调 *1 分裂 ,如 5.1.所述)。

0.05

0.140.17

0.58

0.88

00.04

0

0.06

0.70

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

MD XZ W-DT W-SLZ C-WC C-LJ C-LB CW-QY CE-YA E-DC

E-HS

E-DC

图十 各村在 E-HS 和 E-DC 录音材料测试中的平均分数

18

最后,图十一显示 W-DT(标为黑色)和 W-YL(标为灰色)的录音材料测试的平均分数 。这些材料是在田野工作快结束的时候才收集的,因而被测试的地方最少。不过,仍然可以有观察结果。在意料之中的是,C-LB 表现出对 W-DT 的低通解度;而 W-YL 则表现出高通解度。在意料之外的是,W-SLZ 听 W-YL 的故事时表现出低通解度。但这可能反映出 W-YL 在 W 土话群中的边缘性。XZ 在 W-

YL 的测试中分数很低,但在 W-DT 的测试中分数则很高。XZ 和 W-DT 共享一个链移*a > o 和 *aŋ > a,因此,这可能有助于 XZ 的通解度。

总的来说,通解度测试的结果支持七个腊罗话变体的分类:C、E、W、徐掌、杨柳、俄卡和芒底。土话群内的通解度往往很高。这在 C 腊罗话变体在 CW-

QY 的测试中的分数以及 E-DC 在 E-HS 的测试中的高分中可以看见。而跨核心土话群的通解度就很低,除非有大量的语言接触,正如 CE-YA 在 E-DC 的测试中的情况那样。边缘和核心变体之间的通解度也很低。这在边缘变体对 CW-QY 和 E-

DC 的可忽略不计的通解度中可以看见。

0.24

0.620.60

0.24

0.11

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

C-LB W-SLZ W-YL XZ

W-DT

W-YL

图十一 各村在 W-DT 和 W-YL 录音材料测试中的平均分数

7. 语音距离和通解度的相关性

录音材料测试结与和来文史特编辑距离之间的强显著相关性进一步验证了来文史特编辑距离是通解度的一个粗略估计。表格五显示来文史特编辑距离与关于CW-QY 的通解度之间的相关性。其他录音材料测试没有包括在相关性里,因为每个测试材料的内容都不同,因此,结果没有可比性。N 是观察次数,R 是皮尔逊相关系数,R 平方是根据模型解释的方差比例,P 是显著水平。R 越接近 1 或-1,两个变量之间的相关性就越强。在表格五中,负 R 值表示来文史特编辑距离与通解度之间的负相关。也就是说,语音距离越大,通解度的分数就越低。R 平方表示回归线有多接近真实的数据点,也就是说,通解度的方差有多少可以用来文史特编辑距离来解释。R 平方越接近 1,来文史特编辑距离预测通解度就越准确。P

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

19

值是当真正的 R 实际上为 0 的时候找出目前的 R 的概率。小于 0.05 的 P 值表示目前的 R 不大可能是偶然。

表格五中的相关性很强,并且在统计上显著。R 平方表明来文史特编辑距离能够解释大部分通解度分数的方差。然而,值得注意的是,来文史特编辑距离和通解度之间有一定程度的相互依存性,因为,在来文史特编辑距离中声调的表示法的采用是根据 Yang、Castro 2008 的研究结果。这项研究是通过与通解度测试结果的最高相关性来确定最佳的声调表示法。不过,在处理声调语言中,声调表示法是标准来文史特编辑距离方法的一个必要的修改。当然,有众多的其他因素影响到通解度而没有包括在来文史特编辑距离里面的,比如,话语模式、词汇、节奏、韵律、句法,还有参与者的语言态度和对测试程序的反应。需要进一步的多重回归分析研究来确定这些因素以及语音距离的加权。

N R R squared P

16 -0.88 0.77 0.000007

表格五 来文史特编辑距离与通解度的相关性

图十二显示 CW-QY 录音材料测试结果的分数与来文史特编辑距离对照的散布图。录音材料测试分数为 Y 变量,来文史特编辑距离为 X 变量。回归线很吻合,只是由于与 C 变体的接触,W-YL 似乎是一个离群值。C 腊罗话变体在左上方聚集,表现出高通解度和低来文史特编辑距离;E 和 W 显示出较低的通解度和较高的来文史特编辑距离;而边缘变体则显示出几乎没有通解度以及高来文史特编辑距离。

通解度与和来文史特编辑距离之间的强显著相关性已经在斯堪的纳维亚语(Gooskens 2006)以及东亚声调语言中被观察到,比如,尼苏语(Yang

2009),白语和红水河壮语(Yang、Castro 2008)。该研究结果与 Goosken

(2006)关于在斯堪的纳维亚语中来文史特编辑距离与通解度之间的相关性的研究发现是一致的:r=-0.82, p<0.01。这些相关性表明来文史特编辑距离在印欧语言和东亚声调语言中作为方言测量工具的表现是一致的。

20

MD EkaYL

W-SLZ

W-DT

W-YL

XZ

E-TS

E-DC

E-HS

CE-YA

C-WC

C-QS

C-LJ

C-LBC-CJ

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.35 0.45 0.55 0.65 0.75 0.85 0.95 1.05

Levenshtein distance

Inte

llig

ibilit

y

图十二 CW-QY 录音材料的通解度与来文史特编辑距离对照的散布图

8. 结论

在历时亲缘分类、语音距离和通解度中的发现都一致支持把腊罗话分为 C、W 和 E 土话群以及四个地理边缘土话。系谱树、NeighborNet 网络分析以及多维量表都显示出 C、W 和 E 清晰的划分,以及边缘土话与所有其他腊罗话的显著差异。通解度测试的结果表明各个土话之间的差异带来的感知影响是通解度的重大阻碍,因此突出了它们之间的区别。此外,通解度和语音距离之间的统计相关性强且显著。这三种不同的方法之间的三角测量支持该论文呈现的七种腊罗土话的分类。

尽管每种方法都有它自身的局限,但它们互相补充,回答不同方面的问题。历史分析确定变体间的重要差别,并假设它们的亲缘分类;方言测量学分析测量差异的累积程度;通解度测试测量这些差异对通解度的感知影响。历时亲缘分类让我们对腊罗话的历史有深入的了解。但要了解腊罗话定性的和详细的特质,就需要一个综合测量来做交叉核查。共时的方言测量分析清楚地划分时深较浅的语言群,支持了历时亲缘分类的结果。然而,它不能辨别出上层分类,比如说,核心腊罗话和大腊罗话,并且把语言接触导致的变化和共同创新合并在一起。这些局限需要比较法来做交叉核查。通解度测试虽然不能识别出变体间具体的差异,却可以测定这些差异对感知的影响。

共时分类与历时分类的差异对语言规划有很重要的意义。对像腊罗话群这样的濒危语言尤为关键。历史语言学和语言发展工作必须携手共进。NeighborNet 网络分析非常显著地展现了某些变体间的接触带来的影响,特别是 CE-YA 在 E腊罗土话群中的位置。比较法能够识别出在 CE-YA 中语言接触导致的变化,比如它发展出与 E 腊罗话一样的有对立性的低-升调。但是,与系谱树相反,NeighborNet

网络分析能够显示出语言接触对 CE-YA 的整个语音结构的影响程度。从历时的角度来看,NeighborNet 表型图错误地把 CE-YA 划分到 E 腊罗话群里面。但是,从

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

21

共时的角度来看,CE-YA 已经变成了一种混合的中/东部变体。这个结果准确地反映在 NeighborNet 网状图表中,也反映在说 CE-YA 土话的人对 E 录音材料表现出来的高水平的通解度中。因此,语言规划者应该考虑把 CE-YA 土话和 E 土话合并在同一个以社区为基础的语言规划工作中。对于讲 CE-YA 土话的人来说,腊罗话的非印刷媒体(比如说,关于预防艾滋病的视频)使用 E 变体制作,会比使用C 变体(比如说,CW-QY)更有效。

在这里呈现的分类对我们了解腊罗话的历史有重要意义。腊罗话丰富的语言多样性的中心位于大理州的南部。这一发现支持腊罗话传统的看法,认为这个地区是腊罗话一千年以来的故乡。这些发现支持了许多腊罗人的宣称,认为他们与蒙族有历史渊源。蒙族成为南诏国(737-902 A.D.)的领袖(Fan 1961)。历史记录表明,蒙族最先在巍山南部和南涧县北部兴起(Backus 1981),就在中部腊罗话地区的中心。所有与南诏国的关联都可能对这地区的旅游业产生巨大影响。实际上,这种关联的开发已经在巍山县政府所在地改名为“南诏”这一事件中可以看见了。虽然语言学的证据不能直接证实腊罗人是蒙族的后代,但是核心腊罗话地区的语言多样性肯定了腊罗话的起源就在蒙族最先掌权的地区。

该项研究中使用的方言测量工具(即来文史特编辑距离作为 NeighborNet 和多维量表的输入数据)是在最近才研究出來的,还没有运用到许多东亚的本土语言中。该项研究通过来文史特编辑距离与通解度之间的强显著相关性,以及NeighborNet 和多维量表的聚类与浅时深的历时亲缘分类之间的会聚,为这些工具提供了外部验证。当历史分析和方言测量分析出现差异的时候,方言测量学的结果能为语言规划工作提供额外的研究渠道。因此,这些方法适合用来研究文献记录不足、并且在许多情况下都是濒临灭绝的东亚语言。这些语言迫切需要进一步的语言档案编制和语言保护工作。

参考文献

Backus, Charles. 1981. The Nan-chao kingdom and T'ang China's southwestern frontier. Cambridge; New York: Cambridge University Press.

Ben Hamed, Mahé. 2005. Neighbour-nets portray the Chinese dialect continuum and the linguistic legacy of China’s demic history. Proceedings of the Royal Society Biological Sciences 272. 1015-1022. DOI: 10.1098/rspb.2004.3015.

Ben Hamed, Mahé & Feng Wang. 2006. Stuck in the forest: Trees, networks and Chinese dialects. Diachronica 23(1). 29-60.

Björverud, Susanna. 1998. A grammar of Lalo. Lund: Lund University PhD dissertation. Blair, Frank. 1990. Survey on a shoestring (SIL and UTA Publications in Linguistics

96). Dallas: SIL. Bradley, David. 1979. Proto-Loloish ( Scandinavian Institute of Asian Studies

Monograph No. 39). London: Curzon Press. Bradley, David. 1979a. Lahu dialects. Canberra: Australian National University Press. Bradley, David. 1997. Onomastic, orthographic, dialectal, and dialectical borders: The

Lisu and the Lahu. Asia Pacific Viewpoint 38.2. 107-117. Bradley, David. 2002. The subgrouping of Tibeto-Burman. In Christopher Beckwith &

Henk Blezer ( eds.) , Medieval Tibeto-Burman languages, vol. 2, 73-112. Leiden: Brill.

Bryant, David & Vincent Moulton. 2004. NeighborNet: An agglomerative algorithm for the construction of planar phylogenetic networks. Molecular Biology and Evolution 21. 255-265.

Casad, Eugene H. 1974. Dialect intelligibility testing. Dallas: SIL.

22

Chen Shilin, Bian Shiming & Li Xiuqing. 1985. Yiyu jianzhi [Outline of the Yi language] ( Zhongguo Shaoshu Minzu Yuyan Jianzhi Congshu [Series of Outlines of China's Minority Nationality Languages] ) . Beijing: Minzu Chubanshe.

Edmondson, Jerold & John H. Esling. 2006. The valves of the throat and their functioning in tone, vocal register and stress: Laryngoscopic case studies. Phonology 23. 157-191.

Fan Chuo. 1961. The Man shu: Book of the southern barbarians. Translated by Gordon H. Luce. Ithaca: Cornell University.

Goebl, Hans. 1982. Dialektometrie: Prinzipien und methoden des einsatzes der numerischen taxonomie im bereich der dialektgeographie [Dialectometry: principles and methods of the use of numerical taxonomy in dialect geography]. Wien: Österreichische Akademie der Wissenschaften.

Goebl, Hans. 2006. Recent advances in Salzburg dialectometry. Literary and Linguistic Computing 21 ( 4 ) . 411-435. http://llc.oxfordjournals.org/cgi/content/abstract/21/4/411 ( accessed 24 May 2007).

Gooskens, Charlotte. 2006. Linguistic and extra-linguistic predictors of inter-Scandinavian intelligibility. In Jeroen van de Weijer & Bettelou Los (eds.), Linguistics in the Netherlands 2006, 101-113. Amsterdam: John Benjamins.

Gooskens, Charlotte & Wilbert Heeringa. 2004. Perceptive evaluation of Levenshtein dialect distance measurements using Norwegian dialect data. Language Variation and Change 16(03). 189-207.

Heeringa, Wilbert. 2004. Measuring pronunciation differences with Levenshtein distance. Groningen: University of Groningen PhD dissertation.

Heeringa, Wilbert, Peter Kleiweg, Charlotte Gooskens & John Nerbonne. 2006. Evaluation of string distance algorithms for dialectology. In John Nerbonne & E. Hinrichs (eds.) , Linguistic Distances Workshop at the joint conference of International Committee on Computational Linguistics and the Association for Computational Linguistics, 51-62. Sydney: Australia Association for Computational Linguistics.

Houtzagers, John, John Nerbonne & Jelena Prokić. 2010. Quantitative and traditional classifications of Bulgarian dialects compared. Scando-Slavica 56(2). 163-188.

Huson, Daniel H. & David Bryant. 2006. Application of phylogenetic networks in evolutionary studies. Molecular Biology and Evolution 23(2). 254-267.

Kleiweg, Peter. 2004. RuG/L04, software for dialectometrics and cartography. http://www.let.rug.nl/~kleiweg/indexs.html. (accessed 24 May, 2008).

Kluge, Angela. 2007. RTT retelling method: An alternative approach to intelligibility testing. SIL Electronic Working Papers 2007 ( 006 ) . http://www.sil.org/silewp/abstract.asp?ref=2007-006 (accessed 15 Jan 2008).

Kruskal, Joseph. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika 29(2). 115-129.

Maguire, Warren, April McMahon, Paul Heggarty & Dan Dediu. 2010. The past, present and future of English dialects: Quantifying convergence, divergence, and dynamic equilibrium. Language Variation and Change 22(1). 69-104.

Matisoff, James A. 1973. Tonogenesis in southeast Asia. In Larry Hyman (ed.), Consonant Type and Tone, 71-95. Los Angeles: University of Southern California.

Matisoff, James A. 1973 [1982]. The grammar of Lahu (2nd ed., University of California Publications in Linguistics, No. 75 ) . Berkeley: University of California Press.

Matisoff, James A. 1988. The dictionary of Lahu. Berkeley: University of California Press.

Matisoff, James A. 2003. Handbook of Proto-Tibeto-Burman: System and philosophy of Sino-Tibetan reconstruction. vol. 135 ( UC Publications in Linguistics ) . Berkeley: University of California Press.

Classifying Lalo: subgrouping, phonetic distance, and intelligibility

23

McMahon, April, Paul Heggarty, Robert McMahon & Warren Maguire. 2007. The sound patterns of Englishes: representing phonetic similarity. English Language and Linguistics 11(1). 113-142.

McMahon, April & Robert McMahon. 2005. Language classification by numbers. New York: Oxford University Press.

Nerbonne, John. 2009. Data-driven dialectology. Language and Linguistics Compass 3( 1 ) . 175-198. http://www.let.rug.nl/nerbonne/teach/ling-tech/literature/Nerbonne-Compass-2008.pdf (accessed 28 Jan 2009).

Nerbonne, John & William Kretzschmar, Jr. 2006. Progress in Dialectometry: Toward Explanation. Literary and Linguistic Computing 21 ( 4 ) . 387-397. http://llc.oxfordjournals.org/cgi/content/abstract/21/4/387

Pelkey, Jamin R. 2008. The Phula languages in synchronic and diachronic perspective. Melbourne: La Trobe University PhD dissertation.

Pelkey, Jamin R. 2011. Dialectology as Dialectic: Interpreting Phula Variation (Trends in Linguistics: Studies and Monographs). Berlin: Mouton de Gruyter.

Pittayaporn, Pittayawat. 2009. The phonology of Proto-Tai. New York: Cornell University PhD dissertation.

Saitou, Naruya & Masatoshi Nei. 1987. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4(4). 406-425.

Séguy, Jean. 1971. La relation entre la distance spatiale et la distance lexicale [The relationship between spatial distance and lexical distance]. Revue de Linguistique Romane 35(138). 335-357.

Stanford, James N. in prep. Dialectometry, rice paddies, and clans in rural China. Tang Chaoju. 2009. Mutual intelligibility of Chinese dialects: An experimental

approach. Leiden: Leiden University PhD dissertation. Toulmin, Matthew. 2009. From linguistic to sociolinguistic reconstruction: The Kamta

historical subgroup of Indo-Aryan (Studies in Language Change). Canberra: Pacific Linguistics.

UNESCO. 2008. Non-metric multidimensional scaling. WinIDAMS 1.3 Reference Manual, Chapter 8.1. Paris: UNESCO. http://www.unesco.org/webworld/idams/advguide/Chapt8_1.htm (accessed Feb 17, 2010).

Wang Chengyou. 2003. Yi yu fangyan bijiao [Comparative study of Yi dialects]. Chengdu: Sichuan Minzu Chubanshe.

Yang, Cathryn. 2009. Nisu dialect geography. SIL Electronic Survey Reports 2009(007). http://www.sil.org/silesr/abstract.asp?ref=2009-007 (accessed 30 Apr 2009).

Yang, Cathryn. 2010. Lalo regional varieties: Phylogeny, dialectometry, and sociolinguistics. Melbourne: La Trobe University PhD dissertation. http://arrow.latrobe.edu.au:8080/vital/access/HandleResolver/1959.9/153015.

Yang, Cathryn & Andy Castro. 2008. Representing tone in Levenshtein distance. International Journal of Humanities and Computing 2 ( 1-2 ) . 205-219. http://www.euppublishing.com/doi/abs/10.3366/E1753854809000391 (accessed 30 Oct 2009).

Zhu Wenxu. 2005. Yiyu fangyan xue [Yi dialect studies]. Beijing: Zhongyang Minzu Daxue Chubanshe.


Recommended