Home >  > AntConc

AntConc

0

故事需要从一名叫Laurence Anthony的帅哥说起。

Laurence Anthony 同学天资聪慧,年轻轻轻就考入日本著名的早稻田大学物理系。但等到读完本科的时候他却发现自己真正喜欢的东西并不是相对论,量子力学或者希格斯玻色子,而是莎士比亚十四行诗,词汇词源和语言学研究。于是毅然转行,攻读起了语言学方向的硕士和博士。

Laurence Anthony同学博士论文的方向是语料库研究,所以经常要与各种大规模文本打交道,但在这个过程中碰到了不少瓶颈——那时还是2000年,微软还没推出Windows XP,谷歌刚刚诞生不久,诺基亚的功能机正在开始风靡全球,语料库的研究也还处于刀耕火种的半手工状态中。用计算机辅助语料库研究还属于比较前沿的一个理念,可以用的软件更是少之又少。好在我们的 Laurence Anthony 是理工科出身,写得了一手好代码。学英语懂技术,就像流氓会武术。经过不懈的努力,他终于在2002年成功开发出了一款用于语料库统计的软件:AntConc ,并借助它顺利完成了博士阶段的研究。

后来这款软件逐渐流行起来,并在后面的十几年时间里不断升级完善,被众多英语研究者参考使用。Laurence Anthony 还为此建立起了专门的网站Laurence Anthony's AntConc

这也就是我们今天文章的主题:AntConc的介绍及使用。

AntConc 是什么?

AntConc是一款强大的绿色工具软件,由日本学者Laurence Anthony开发,具有词语检索、统计词频和生成词表等功能。使用AntConc可以很方便地统计出英文文本中的词频,并且按照单词在文本中出现的频率高低进行排列,而且还可以将统计后的结果导出。

AntConc最值得称赞的地方其实是它的lemmatizing(词簇化)功能。什么是词簇化? 举个例子,对于"walk","walks","walked",我们知道在统计时这三个单词应该归到 "walk"条目下,而不能算成不同的三个词。但计算机在处理单词时并没有这么聪明,它并不能区分出单词的单复数以及时态变化,因此我们需要建立一套规则告诉计算机应该怎么对单词进行归类。AntConc为此专门做了一个Lemma List ,列出了常见的几万个单词的所有单复数以及时态变化规律,借助Lemma list 计算机就可以准确统计出单词的数量。
5dbcb83e53cf8f1f1da9307645694cca_b

通过AntConc,我们可以做一些有意思的事情,比如说统计考研英语的高频词。

考研英语试卷中的阅读题文章往往取材于经济学人,卫报,时代周刊等外媒,而这些外刊的用词往往具有一定的偏好性,这就会导致某些词的出现频率特别高,而我们的目标就是把这些高频词给找出来,重点进行巩固记忆。

而统计这些高频词最好的材料其实就是考研真题本身,为了保证统计的准确性,我们需要有一份足够大的真题样本。我找到了一份1980-2013考研英语真题合集。33年的试卷总共包含147,558个单词,样本应该足够大了。

由于AntConc不支持word文档,我们需要把它转存为txt格式,选择“文件-另存为txt”,得到一份文本格式的文档。

打开AntConc,导入真题材料,加载Lemma List,选择Word List,勾选 "Treat all data as lowercase"去除大小写的影响。点击下方的start 按钮,简单几步就可以统计出文本的词频了,结果如下:

22

文本总的单词数是142,217,不重复的单词数一共有7926个,每一个单词后面都有相应的词频,出现频率最高的一个单词是"the",在33年的试卷中一共出现了8289次,"a" 则紧随其后,一共出现了5611次。

接下来我们需要从这份列表中把高频词筛选出来。我对高频词的定义是:在试题文本中出现频数大于或等于3的词汇。这些词汇一共有3887个。使用软件的导出功能可以将这份词表导出来。

但此时导出来的词表仍然不是我们想要的版本,刚刚我们注意到了,排在最前面词频最高的单词都是"the","a","you" 这类单词,并没有什么参考价值,因此要想办法把这些简单的单词去掉。

怎么定义这些“简单”的单词,又怎样将它们排除掉呢?

一个最简单的事实是,越是简单的单词,在日常中出现的频率就越高。英国国家语料库(British National Corpus,BNC)的研究人员曾经对包含一亿个单词的语料库进行过分析,在此基础上他们按照词频高低顺序统计出了一份包含15000词的词表,涵盖了英语中最常见的15000个单词。

333

我们可以根据这一份词表进行高频词筛选。考虑到考研大纲的词汇量要求,我提取了BNC词表中的前5000个单词,在此基础上对上面的考研高频词表进行与操作,去除考研高频词表中包含的BNC前5000词。

筛选的过程并不复杂,甚至连代码都不用写。可以将单词导入到Excel表格中,利用Excel的高级筛选功能,将高频词作为列表区域,BNC前5000词作为条件区域,反向筛选后就可以得到最终的高频词表了:

为了让更好地利用这份高频词表,我将它们导入到欧路词典中,为每一个单词加上了英英释义,做成单词本,释义则来源于麦克米伦词典。最终生成的单词本为html文件(阅读体验最好),不过你可以很方便地将它们转换为其他格式,比如PDF

上面就是利用AntConc制作考研高频词表的完整流程,你可以依样画葫芦根据自己的需求制作词表——比如做一个雅思托福或者GRE的高频词表出来。

作者:魏剑峰

本文暂无标签

发表评论

*

*