linguistats | 数据告诉你,刘欣的英语到底有多好?

我所说的一切都可能是错的!
即使你赞同我的观点,你的生活也不会因此有任何改变!
除非——你采取了相应的行动。


(这是书先生在简书的第171篇文章。本文约4100字,请花12分钟来阅读。)

引子

昨天,大家期盼良久的“中美主持人对决”在非常“祥和”的气氛中开始、进行并结束了。缺少了预期中的火药味,可能有些朋友会有点失望。不过仔细一想,这也是意料中事:一方要刻意展示友好或者至少不要继续表现出“泼妇”的样子,另一方是带着镣铐跳舞,对话自然不会那么针锋相对。

相信大家昨天也看了不少关于这次对话的分析,我也浏览了一些。说实话,对目前的分析,我有点失望,因为大多数分析人士连对话原文都不清楚,甚至连CGTN自己的报道也是“断章取义”。不过话又说回来,这个对话无论是从辩论、还是演讲的角度都没有多少分析价值,原因嘛,就是上面说的两点。例行公事似的对话、官宣一般的发言,实在算不上特别好的学习材料。

不过从语言分析的角度来看,这段“中美主持人巅峰对决”的对话可是是好材料。它好就好在具有可比性:两个英语水平都非常高的人就同一个话题展开对话。这可是做语言学分析的人梦寐以求的好东西啊。

看完她们的对话,我相信很多中国人都会有这样的感叹:刘欣的英语真流利啊。我的感觉和大家一样。不过,我想更深入的看一下这个问题:刘欣的英语到底有多好,尤其是和翠西相比。于是有了本文的标题。

翠西的英语无疑是非常好的。首先,英语是她的母语;其次,她是哥伦比亚大学历史系毕业,要知道,文科对语言水平要求都很高;第三,她常年在美国主流电视台做主持工作,这个工作对语言水平要求也很高。

刘欣的英语简历也是非常出彩的。南京外国语大学英语专业毕业,中国首届全国大学生英语演讲比赛冠军,世界英语联合会(ESU)举办的世界英语演讲比赛冠军。

两位都是英语高手。从背景来看,我们可以假设翠西的英语水平略高。如果这个假设成立,一个很有意思的问题就是:刘欣可能是哪一块稍微要差一点?这个问题,不但有趣,而且很重要,因为它的答案可以为英语已经很好的学习者指明精进的方向。

下面,我就用数据来回答这个问题。

第一步是什么?

分析数据的第一步是什么?——清理数据。如果你数据本来不干净,noise太多,甚至还不准确,那后续的分析都没有意义。这也是为什么我对昨天读到的分析都不是太满意,因为其中大多数根本就不知道准确的对话是什么。

所以,我做的第一件事情就是尽可能准确的转录翠西和刘欣的对话。她们短短的16分钟对话,我花了好几个小时来整理。因为网上的文本大多不靠谱,我只能靠自己听。最后的结果是:虽然她们抢着说的地方有几个单词不清楚,其它部分我应该非常准确。

如果你需要整理好的文本用于学习、教学或者研究,请在后台回复“刘欣”,即可获取下载地址。

有了准确的数据,我们就可以分析了。

如何分析?

我准备从文本复杂度入手来比较翠西和刘欣分别的发言。通常有两个向度可以衡量文本复杂度,一是词汇复杂度(lexical complexity),二是句法复杂度(syntactic complexity)。有很多研究都表明,这两个向度和语言水平(proficiency)呈正相关,所以通过它们来比较翠西和刘欣的英语是可行的。

在呈现分析结果之前,我必须提醒一下:所有分析结果都只是基于这个对话。或许对话并没有完全展示双方的真实水平,因此不能就此就得出谁英语比谁更好的结论。也就是说,我后面的讨论只针对被分析的文本,不能视为我对双方英语水平的判断。

下面就开始我们的分析,在这个过程中,我也会介绍一些有关文本复杂度的基础知识。相信大家看完这篇文章,以后就会自己去分析了——授人以鱼不如授人以渔。

词汇复杂度

我们先来看词汇复杂度。为了理解词汇复杂度的指标,我们有必要知道几个基本的概念:

  1. 形符数(type):文本中所有单词数量的总和。
  2. 类符数(type):文本中不重复的单词书路的总和。
  3. 实词(lexical word):名词、动词、形容词和副词等开放词类
  4. 虚词(grammatical word):介词、冠词、连词和代词等封闭词类
  5. 难词(sophiticated word):在本分析中指频数排名在前2000以后的单词(以BNC统计为准)

举个栗子:Boys are always boys.这句话形符数是4,因为它含有4个单词。类符数是3,因为其中有两个boys,不重复的数量只有3。

好了,基础知识已经够了。词汇复杂度的各种指标大多都是基于这5个指标的计算。所以,第一步,我们先来观察一下,翠西和刘欣的发言在这些基础指标上的比较。

基础指标比较

从上表可以看出,刘欣说了大约1600个词,而翠西丝略少,约1300词。我用约,是因为双方抢着说的地方有几个单词不是很清楚,不过大致是没有问题的。刘欣说得稍多,这容易理解,因为她是答问的一方。单从数量上来看,我们会觉得刘欣用的复杂词汇更多。但这可能是因为刘欣说的话更多。事实是否如此,还要看比例。下面我们就来看一下词汇复杂度。

词汇复杂度一般通过三个大类来衡量:词汇密度(lexical density),词汇复杂性(lexical sophistication)和词汇多样性(lexical variability)。我们挨个儿来看。

词汇密度

词汇密度是指文本中实词所占的比例,即实词形符数/总词数。在这个指标上,刘欣为0.49,翠西为0.46,刘欣略高于翠西。通过更细致的分析,我认为,出现这个差异的原因可能有三个:

第一,翠西使用“填充语”(filler)的频率更高。填充语是指那些没有实际意义,只是起一些引起注意或者为说话者争取时间的词或者词组。比如,well, you know, look, I mean等。从上表可以看出,翠西使用you know, I mean, look等的频率都高于刘欣。在有一句话里,翠西甚至一连用上了三个填充语(如下)。you know和I mean里都包含代词,这客观上降低了翠西的词汇密度。

Trish: Right, I mean, you know, look, I think, as I said, we can all agree that if you're going to do business with someone, it has to be based on trust, and you don't want anyone stealing your valuable information that you've spent decades working on.

Trish: And you know, look, I think that the the liberalized economic world in which we live has valued intellectual property and it's governed by a set of laws, and so we all need to kind of play by the rules and play by those laws.

另外,有意思的是,刘欣使用well的频率高于翠西,而look一次都没有用。这可能是因为well是我们会学习的一个填充语,而look很少显性教学。这表明,我们在英语教学中,可能需要有意识增加一些填充语使用的内容。

第二,翠西使用人称代词的I和you的频率也高于刘欣。同样有意思的是,刘欣使用I think的频率要高于翠西。可见,哪怕英语水平高如刘欣,也免不了中国英语学习者I think使用过多的问题。

第三,翠西使用that的频率远高于刘欣。这和第二条也有点关系。在翠西的13次I think后面,4次用了that,占比30.77%。而在刘欣的24次I think后面,只有5次用了that,占比20.83%。更仔细的分析,发现翠西的I think有不少是用作插入语,例如:

Trish: There is a rule that enables the United States to use tariffs to try to influence the behaviour of China should it be taking, stealing our intellectual property, and that, I think, in some way is part of what this all comes back to you.

Trish: But this issue is, I think, where the country as a whole needs to step in and we're seeing the United States do that.

而在刘欣的发言里,I think没有一次用作插入语。这种用法,是母语使用者和外语学习者的一个显著的差异。所以,I think, I guess这样的词组用作插入语的用法,可能我们在英语教学中需要有意识的提一下

词汇复杂性

词汇复杂度一般通过难词的占比来测量。常见的有以下几种测量方式:

  1. 复杂实词占实词的比例,我们用LS1来表示。
  2. 复杂类符占总类符的比例,我们用LS2来表示。

另外由于动词是句子的核心,所以有专门的算法来测量动词的复杂性,比如:

  1. 复杂动词类符占动词的比例,我们用VS1来表示。

上面三种测量方式都有一个弊端,那就是随着文本长度增加,结果会变小。也就是说,如果两个文本长度差异很大,结果会不准确。好在两位主持人的发言字数差不多,所以我们就只用这三个指标就可以了。检测结果如下:

词汇复杂性比较

有意思的结果出现了:如果不考虑词类,翠西和刘欣的词汇复杂度几乎没有区别。但当我们聚焦在动词上时,翠西的动词复杂性高出刘欣60%。这是不是就表明翠西使用了更多更难的动词呢?不一定。VS1指标有一个问题,那就是它是一刀切,没有考虑2000词频以上的差异。举个例子,一个可能的情况是翠西在2000-5000这个词频段用得多,而刘欣在5000-10000这个词频段用得更多,但是总体上来,在2000以上翠西更多。这样分析结果就会显示翠西难词用得更多。

真实情况到底是什么呢?不如我们来具体看看双方分别用了什么动词。

双方都使用的动词:'base', 'agree', 'mean', 'lower', 'know', 'do', 'be', 'pay', 'get', 'work', 'develop', 'believe', 'steal', 'have', 'let', 'ask', 'see', 'decide', 'need', 'play', 'will', 'look', 'want', 'make', 'hear', 'happen', 'use', 'force', 'go', 'talk', 'tell', 'think', 'define', 'may', 'come', 'take', 'give', 'speak', 'thank', 'say'

翠西使用而刘欣没有使用的动词:'welcome', 'mention', 'forgive', 'discuss', 'abandon', 'govern', 'operate', 'lead', 'include', 'liberalize', 'pass', 'stall', 'identify', 'watch', 'require', 'appreciate', 'value', 'turn', 'rid', 'guess', 'join', 'explain', 'share', 'stall', 'live', 'stress', 'borrow', 'oversee', 'enable', 'bear', 'try', 'run', 'spend', 'stop', 'charge', 'bring', 'pursue', 'love', 'step', 'claim', 'keep', 'realize', 'influence', 'overlook', 'care', 'hang'

刘欣使用而翠西没有使用的动词:'learn', 'call', 'sue', 'face', 'correct', 'plan', 'invest', 'understand', 'divide', 'reach', 'achieve', 'grow', 'consider', 'contribute', 'show', 'own', 'establish', 'employ', 'forget', 'put', 'wanna', 'depend', 'skid', 'deny', 'become', 'dream', 'write', 'continue', 'explore', 'deal', 'prosper', 'skip', 'treat', 'control', 'affect', 'commit', 'carry', 'discriminate', 'expect', 'assume', 'produce', 'find', 'change', 'cooperate', 'like'

双方都使用的,显然是一些常见的单词。而刘欣使用翠西没有使用的词直觉上难度比翠西单独使用的难度更高。这说明两个问题:**一方面,我们可以说刘欣的词汇复杂度不属于高水平母语使用者。另一方面,我们可能需要加强中等频率词汇的教学,因为刘欣使用更难单词的原因是因为我们过于强调难词的使用,而反之,对中等评率使用重视不够。

词汇多样性

最后,我们来看一下词汇多样性。词汇多样性是指文本中不重复单词的比例。说到这里,我相信你很快就会想到,最简单的检测方式就是“类符-形符比”(Type-token ratio, TTR)。没错,TTR是最直观的方式。

不过TTR也有个问题,那就是对文本长度很敏感。随着文本长度增加,TTR会下降。更准确的测量方式是使用“标准类符-形符比”(STTR),即按顺序截取n个字符,计算TTR,然后再取平均数。因为我们的文本很小,所以我们顺序截取50个单词。你肯定也能想到,这种方法会造成数据浪费,因为文本大小不一定是50的整数倍。

TTR是实词、虚词一起考虑的。从文本的内容角度来看,实词的多样性更能说明问题。所以,我们也考察实词多样性(LV),即实词类符/实词形符。我们也可以看得更细,每一种实词种类占实词形符的比值,分别用VV1, NV, ADJV和ADVV来表示。结果见下表:

词汇多样性

从上表可以看出,实词多样性翠西要高于刘欣,但这个差异主要来源是动词多样性,而名词、形容词和副词的使用上,双方没有差异。

结语

今天我们比较了翠西和刘欣对话的词汇复杂性。通过上面的分析,我们可以得出了一些对英语学习和教学有参考价值的结论。我帮你再总结一下:

  1. 刘欣的英语真的是非常好,和高水平母语者相比也不遑多让。
  2. 我们应该适当加强填充语使用的教学。
  3. 我们应当适当加强插入语使用的教学。
  4. 我们应当适当加强中等频率词汇使用的教学。

词汇复杂度的分析就到此,下一篇分析她们的“句法复杂度”,欢迎继续关注。词汇复杂度和句法复杂度在线分析的网址如下:

https://aihaiyang.com/software

其余数据我是用spaCy分析的。

记得在后台回复“刘欣”,即可获取校对过的完整文本。然后你也可以自己分析一下。

顺祝各位大小朋友,儿童节快乐。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容