重拾对文字的敬畏之心 ——三年个人博文的词频解析与反思



缘起

回想起来,自己的工作其实一直与文字颇有缘分。从市场文案、商业计划书到发表于行业媒体的种种碎碎念,多年累计下来,有用或无用的文字竟也累积了不少。即便如此,在我的内心中,却一直对文字本身缺少足够的敬畏之心。归结起来,借口无非两个:第一,本科学习金融的我,毕竟不是专业写字的,意思表达清楚就好,何必苛求细节;其二:在如今的速读时代,太多咬文嚼字难免给人几分陈旧的感觉,有些不合时宜。

观念的转变始于不久之前,当时,无意中翻开七八年前的个人博客,发现自己晦涩的文风和冗长的句子,不忍卒读,不由得尴尬病发作。从而联想到,在这个网络快照的时代,曾经码过的字,甚至可能会比作者本尊存留的时间还要久远,既然如此,对于留下的种种文字印迹,总要多一点点的珍视。此外,阅读民国几位大家作品时那种行云流水、字字珠玑的快感,也着实令我心驰神往。于是,在已不算年轻的时候,还是决定回归初学者的心态,审视与反思曾经写下的那些文字,探索能够有所进益的可能性。

佛家有云,五毒可转五智。既然我此前一直把文字不够灵动的问题归咎于财经类专业背景,这次索性就顺势而为,应用一些财经分析中常有的数据思维,通过比较的方式,对自己的文字进行初步的诊断。

需要说明的是,本人毕竟没有受过专业的语义分析训练,从素材选取到分析方法,都远远谈不上科学和严谨;这一略显机械而笨拙的探索,大家觉得有所启发,自然最好;如果觉得不妥,也尽可以一笑而过。


素材与工具

个人素材

主要为三年以来,在个人博客、豆瓣和简书上发布的文字,共50000余字。剔除了因工作需要及朋友邀约等原因的应景之作,基本为个人可以决定主题和篇幅的随性文字。略有润色,但并未精雕细琢,相对可以如实反映自己的语言风格。

参照素材

选取了在语言风格方面个人比较欣赏的三位作家(两男一女)的随笔集各一部,分别截取100000字左右进行词频统计。选择随笔的主要原因,是主题相对分散,时间也有所间隔,更能体现作者的整体行文风格而非一时的笔法。

工具

语料库在线网站,可以针对10万字以下文章,统计词频和字频。

目标

毕竟,每个人的文章都有应当有独一无二的风格,即便是名家之作,也不宜盲目效仿。这次词频统计重点尝试解决的问题:通过对比自己和几位名家在词频方面的明显差异,挖掘出自己行文不够流畅、内容缺乏足够张力的几个易于量化的因素,使自己对存在的问题有更直观的认识。这一分析仅为初步探索,不能代替此后的实践。


词频统计结果


词频 TOP20

以下为个人博文中出现频率最高的20个词(含标点符号)


看上去是不是有点一头雾水,别急,有对比才能发现差异,咱们先继续往下看。

关键词

在高频词汇中,选取了个人博文中排名最为靠前的20个名词(两字以上),用词汇云的方式呈现出来(图片见文前):

从词汇云中,可以直观的反映出自己在三年博文中所关注的重点:

1、出现最频繁的关键词是“时代”,这与近几年来我对于这个激荡变化时代的困惑与思考较多是相契合的;

2、本人身处教育行业,目前又在创业型公司,“教育”、“创业”和“团队”等词汇自然会经常在个人的博文中出现;

3、在选取文章中,我在豆瓣上发起读书会的主题帖占据较大比例,所以“阅读”、“分享”、“文化”、“故事”一类的关键词也是文章中的“常客”。

最常用成语

好吧,五个常用成语中竟然有五个“不”字,我到底是有多爱这个“不”字啊。


对比中的反思

详细的数据分析过程这里不赘述,简单结合图表谈谈对比后的几点反思。

1、句子过于冗长,需要大幅度精简

下图为文章当中逗号和句号占全文的对比图,其中K为本人博文,L、W、X分别指代三位作家文章(下同)。


从图中不难看出,在我的博文中,逗号和句号的数量都明显较后面三位为少。尤其是句号的数量,几乎仅为L、W两位的一半,这也就意味着我的博文中句子的平均长度,接近这两位的两倍。

反思

长句的频繁出现,主要原因恐怕是在一句话中想承载的东西过多,因此诞生了太多层层叠叠的复句。从形式到内容的精简,应是此后努力的重要方向。

2、第一人称代词“我”的比例极低,“旁观者”色彩浓厚

下图为文章中第一人称代词“我”与“我们”占全文比例的对比。


可以看出,K的博文中,第一人称代词“我”的出场相较后面三位,可谓少之又少;即便是表达个人观点时,也往往用群像式的“我们“来代替”我“来发声。

反思:

不可否认,个人的世界观受佛家影响较深,对过度的“我执“有一定的警觉;此外,在与商业有关文字的撰写中,为了秉承客观的立场,也形成了不会代入过多个人情绪的积习。但在随笔这种个人情绪主张占据重要地位的文体中,“我”的存在感较弱,“旁观者”色彩浓厚,无疑会大大影响与阅读者的心灵互动与共鸣。

3、转折性词汇比例较大,过度迂回导致观点不够明晰

下图为文章当中转折性词汇(包括但、但是、虽然、然而等)所占文章比例的对比。


在转折性词汇的使用上,我的比例远远超出L和X两位,而略低于W。考虑到W的随笔主要成文于20-30年前,且素以文风犀利,反讽意味强烈著称。对于身处21世纪今天的我,在相对平淡的文章中,竟然使用了与W数量不相上下的转折词汇,似乎确实存在不小的问题。

反思

文章不应平铺直叙,而是要通过适当转折制造悬念,这大概是从中学作文时就开始知晓的方法。不过凡事过犹不及,当文章中充斥着太多的“虽然”、“但是”的时候,真实意图也就往往湮没在曲曲折折之间。换言之,即便确需转折,也未尝不可“意合”,而不必过分囿于“虽然…..但是”、“尽管…..还”的刻板转折形式。

另外,还有一个有趣的发现,在L、W、X三位的文字中,“尽管”一词的使用少之又少。L、W在十万字的文章中,竟然都没有用到一个“尽管”,这是一种趋势还是特例,暂时还没思考清楚,也期待大家的真知灼见。

除了上面的三点之外,在对比中还发现不少问题,比如成语的应用过于频繁等等。不过鉴于这一点在此前的文章“多说人话——来自成语症候群的反思“一文中,已经有了比较详细的分享,这里就不再赘述了。


尾声

行文至此,即将结束。身为一个不够专注的业余写字人,或许穷尽一生,也未必能够真的拥有一支生花妙笔。

但内心还是难免期待自己留下的有限文字,能够多几分律动,少一些滞涩,把温暖和感动传递给有缘看到这些文字的陌生人。

唯有如此,方不辜负这个人人可以发声的自媒体时代之慷慨馈赠。

最后,也卖个小小的关子,下面的三幅词汇云图,分别对应此前提到的三位作家作品的关键词。大家可以猜猜看,分别是哪一部作品,猜到的朋友请留言。


推荐阅读更多精彩内容