背单词:这个不得不说的词表(COCA)


公众号:你想看的World(Youw2s)
Derek最近捣鼓了一个学习英语的社群,纠集了一群有共同爱好的朋友一起利用闲暇的时间学习英语。通过这个学习群,Derek认识了很多很有毅力的英语学习者,于是,Derek的微信朋友圈里面多了一条另类的风景线,“背单词打卡”;现在几乎所有背单词的APP,都有分享朋友圈发送打卡信息给朋友的功能,于是,我开始每天看着很多人“我已经在XXAPP上背单词xx天了,今天已经征服了xx个单词”。一般看到这种情况,我非常喜欢给大家点个赞,因为我知道,“背单词”,绝对是一个非常苦的差事,不管你使用什么APP,这种充满了负反馈,不断挑战你耐心的学习活动,实在是值得上一个大大赞。

或许是好为人师的缘故,身边不断有朋友向Derek请教背单词的方法和技巧,企图找到一个不那么痛苦的方式。因为问的人太多,我突然觉得应该写个文章出来共同讨论下这个问题。

我首先明确一下我自己的认知,背单词虽然不是学习英语的全部,但的的确确是英语水平提高必不可少的一个重要环节。所以,企图从本文里找到一个捷径的同学可能要失望了,我确实拿不出一个“躺在床上就学好英语”的好办法来。因此,我并不打算在本文讨论是否需要背单词的问题,也不讨论方法问题,我打算聊聊,如果要背单词,你应该选什么词表。

实际上,本文是写给那些准备真正提升英语能力,希望通过英语能更好的了解这个世界的朋友。考试党的选择其实非常小,几乎所有的为考试准备的学习方法里面,都有一个对应的词表,需要考试的朋友可以略过了,因为你只需要关注大纲要求的词表即可。

为什么我们需要一个词表

现在,是一个移动智能终端极度发达的时代,几乎所有成人朋友在打算重拾英语的时候,都会选择使用手机APP来背单词,而所有的APP背单词软件都有几大必须存在的功能:

  • 适合各个水平阶段的词表
  • 有对应音标
  • 带发音,例句
  • 科学的记忆曲线,方便复习
    这几个功能,几乎所有的背单词APP都有,结合我们今天的主题,我们聊聊词表。

在选择开始背单词前,这几乎是你的第一个需要作出决定的事情,你选择什么样的词表来背?准备考试的朋友还好办,考啥背啥,根据大纲来,如果准备中考,就背中考词表,如果准备高考,就找找高考词表。

对成人学习者来说,这个选择就比较尴尬了,很多的成人英语学习者对自己的英文水平其实并不了解,他们掌握英语的目的是使用它,而不是应付考试。这个时候,大部分人的选择就比较盲目。上过大学的朋友,丢掉英语多年,比较可能选的词表是四级词汇或者六级词汇,没有上过的呢,很多都是从什么小学词汇,中学词汇,新概念第一、第二册开始,还有些朋友,估计是听过一些英语学习的讲座,选择了一些比较另类的词表,比如说,老友记词表,绝望主妇词表来背。

朋友们,既然是学习英语的目的是真正的使用,那么大家有没有想过:
我们学了十几年英语,每个人心中都必然有个疑问:
想要流畅轻松的读懂大部分的网页,小说,报刊,新闻等原版材料,大概需要多少词汇量?
著名网站testyourvocab.com历时几年,做了一个比较真实完整的调查。



调查结果如下:

  • 绝大多数母语成年人士的词汇量为20,000–35,000 words
  • 8岁的母语人士平均词汇量为10,000 words
  • 4岁的母语人士平均词汇量为5,000 words
  • 母语人士的词汇量大小主要是4到15岁之间的阅读量决定
    令人比较丧气的结果如下:
  • 绝大多数外语人士的词汇量仅为4,500 words
  • 在英语国家居住的母语人士词汇量平均仅为10,000 words

不少人看到这里肯定心存怀疑,考完专八背完托福词汇却无法流畅阅读的也大有人在,与语言学家的研究“大相径庭”。
究其原因,关键在于对“常用词汇”的认知。
语言学家发现的另一个有趣事实是:
英语使用频率最高的9个单词,在任何一篇100词以上的文章中出现的频率达25%!

所以,想要高效背单词,必须了解每个单词在母语使用者日常生活中出现的频率高低。

词汇量不在于你背了多少生僻单词,而在于你日常生活会用的有多少。Active vocabulary才是英语学习中最重要的部分。

问题浮出水面了,到底有没有一个词表,真正适合以实用为目的。写到这里,聪明的大伙可能已经明白了,如果要说以实用为目的,显而易见,就是根据英语词汇使用的频率统计出来的词汇表了。那么,这样的一个东西,存在吗?如果存在,它是否权威?

先给答案:存在!!!绝对存在!!权威!!!绝对权威!!!

COCA词表的介绍

COCA,全称Corpus of Contemporary American English,即当代美国英语语料库,它是这个世纪里最大的美国语言学研究项目,地位影响深远。
最重要的是,它研究的对象全部都是当代美国英语语料,基本不包括20世纪早期和19世纪的语料。

COCA项目至今还没结束,目前收集了4亿词汇的文献资料。这4亿词汇的基础材料包括1990至2015年这几十年里阅读量最广泛的小说和杂志(TIME, New Yorker等都是项目的参与者),电影、电视节目,大量的电话记录和面对面谈话记录,甚至还包括911报告等)。它根据使用时间、文献性质等使用统计学方法进行分类统计,等于是在编一本带词频和流行用法的新美国英语使用辞典。

在COCA当前成果基础上,美国杨百翰大学对这个资料库用计算机方法筛选出了美语使用频率最高的5000和20000个高频词汇。曾经有人用GMAT和GRE的资料验证了一下这个词汇表的覆盖率,证明它的20000单词覆盖率真的很高,几乎全部覆盖,只有一两个很个别的词没查到。

这个词汇表最好的地方在于是每个单词不仅带词频和同义词,而且还根据不同的词性标注着collocation,也就是所谓的搭配用法。就是标出和这个词使用最相关、密度最高的词的集合。

有了它,我们就知道美国人对这个词的最常用的几十种用法和使用环境。
比如说script排3315,这个词的搭配里,常见的形容词搭配是final, original和feminine,常见的名词搭配是movie, film, writer,常见的动词搭配是write, read, follow. 所以我们知道这个词的用法就有final script, write a script等等。这个比死记硬背好太多了。

这个语料库涵盖美国现当代时期的口语(spoken)、小说(fiction)、流行杂志(pop magazine)、报纸(newspaper)和学术期刊(academic)五大类型的语料库,并且在这五个类型方面基本呈均匀平衡分布。

美国当代英语语料库的文本内容包括:

  1. 口语(spoken):包括150个电视或广播节目对话,约85000000字。
  2. 小说(fiction):包括短篇故事、戏剧/电影剧本,约81000000字。
  3. 杂志(popular magazines):包括新闻、健康、家庭园艺、女性话题、财经、宗教、运动等将近100种不同领域的杂志,约86000000字。
  4. 报纸(newspapers):包括10家报纸不同版面(地方新闻、评论、运动、财经)的文章,约81000000字。
  5. 学术期刊(academic journals):包括近100种不同种类的期刊,约81000000字。

在这个庞大的语料库中使用频率最高的20000个单词极具代表性,几乎覆盖所有权威英语考试的词表。

COCA的词表的样子

COCA的最常用20000词的词表,是一个有2000多页的文件,这份文件里面,没有词汇的解释,如下图,主要包含几个部分

  • 词频
  • 根据词性的搭配,如前面最经常搭配什么词汇,后面经常搭配什么词汇;
  • 近义词;


  • 189代表词频,也就是company做n(名词)时,它出现的频率在英语中是189位。
  • 后面adj代表有哪些形容词经常和company这个名词搭配。小黑点代表词的位置,比如 drug company, phone company,不要理解成company drug, company phone。至于为什么有的词有小黑点有的没有,我也没搞明白。
  • 后面的大黑点代表同义词。company做公司解释时,意思是business等,做朋友解释时,意思是companionship等,等等。
  • 后面的203345代表在4.5亿中出现的次数。0.93代表分布均匀度。越接近1代表在各种文体中分布越均匀。词频排名=次数 * 均匀度。
  • 有些词的均匀度后还有个类似S,M等后缀,代表这个词主要出现在如下文体中:Spoken, Fiction, Magazines, Newspapers, Academic

如何使用COCA词表

写了这么多,终于找到一个真正按照语言实际使用情况的词表了,这就意味着,这个两万的词表拿下,就掌握了英语世界的最高频使用的词汇,这可比任何为考试准备的词表更适合成年的英语学习者了。那么,这个词表怎么使用呢?怎么才能开始使用这个词表呢?

扇贝单词APP

扇贝上面有很多热心人制作的各种词表,有些免费,部分收费,在扇贝上面就有这个COCA的20000词表,大家搜索一下应该可以看到,如下图,如果手里还有贝壳的话,大家可以购买。


自行导入

目前,有很多背单词的APP,支持词表的自行导入,你可以用一个包含了词表的纯文本文件,直接导入到软件里面背诵,据Derke所知,“知米背单词”这个APP就可以自行导入词表。只要你的词表是UTF-8格式的纯文本,都可以导入到“知米背单词”。



如何获得COCA词表,下载资源

COCA词表如果直接拿来背单词,就是上面大家看到的那样,确实难以直接使用,为了方便大家,造福群众,Derek秉承着不给解决方法只提出问题的任何干货都是耍流氓的思路,启动了我的看家本领,编程序,我从PDF文件中提取了20000所有词表,并对文件根据词性进行了分类,还体贴的分成了10000,20000,两个文件,并提供20000分词性的版本,即按动词,形容词,副词等几个大类进行了分解。做到这一步,如果你还不点赞我就真生气了,现在提供如下几个文件下载:

  • 20000词表纯TXT版本
  • 0-10000 词表纯TXT版本
  • 10000-20000词表TXT版本
  • 20000词表分词性版
  • COCA原版词表2200页PDF

注意:词表不包含单词解释,大部分的软件在导入词表时,会自动添加解释。



如何获得:大家需要学习可以向我借阅,这是地址( https://pan.baidu.com/s/1bBcQr8 密码: ti43)


公众号:你想看的World(Youw2s)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 文/ 文心说 不知道你有没有过这样的经历:好不容易背下一堆单词,写作时迫不及待地用出来,而发下来的批改却被打上了几...
    文心说阅读 2,866评论 0 18
  • 保罗.奈易耶(Jean-Paul Nerrière),法国人,曾担任美国 IBM 行销副总裁。他的英语本来也不灵光...
    MRJENGLISH阅读 682评论 0 2
  • 桃夭 高艳在一篇叫做《我这里的北地.台地达子香》的散文里描述了一种叫达子香的植物,在五月里漫漫的花开。 我亦有我爱...
    墨倾城阅读 366评论 0 1
  • Hacker, P. M. S. (1998). Davidson on the ontology and log...
    花斯基阅读 649评论 0 0
  • 1) 最让你生气的是什么事情? 对于我来说,今天是最近一段时间第一次感到生气到无法抑制的一次。 胸口像有东西堵着,...
    扇豆豆阅读 329评论 0 0