数据让嘻哈更真实|案例分析

“使用新奇但谨慎的形式不仅是一种一场冲击,也是一种必要,通过高频率的极限冲击,我们帮助读者增加可视化词汇量。” 

——《不只是美》

数据新闻报道从策划到实现,往往需要较长的时间投入和往复的试错调整,因此,长线选题往往是实践过程中比较重要的一部分。长线选题往往不能保证时效性,而更多的追求对于常规的公共议题与流行现象的新解读。同时,为了避免“撞题”,对于数据分析的把握至关重要。Pudding网站在前年发布的《The Language of Hip Top》就属于这一类选题。

Part1:开篇——群像

作品的起始由美国嘻哈歌手们的头像排布而成,点击会显示歌手的名字并放大图片。作者针对308位嘻哈歌手的音乐内容进行统计,并通过对乐曲中的核心词汇进行统计,按照其中交叠的情况设定歌手的位置。这里的设计并不能说明什么具体的问题,但将整篇作品的研究对象一目了然地铺排出来,设计的风格很吸引人,截取头像的方法也比较贴合这个流行音乐的主题类型。

下滑后会出现两个例子:“skrrt”是这一个单词同时出现在Migos, Kodak Black, and Lil Yachty三位歌手的用词top10之中;而“Wu-Tang”这一美国黑人嘻哈乐队的新老成员中用词的相似度非常高。

Part2:什么词汇最“嘻哈”?

作者首先介绍了文章的数据来源——Billboard嘻哈排行榜上前500名艺人歌曲中的2600万字的歌词以及275905首其他类型歌曲的歌词。通过对这些数据的分析,先用一条数轴体现出嘻哈歌曲中的四个高频词汇“悲伤、挣扎、游戏和爱”,再生成纵轴,体现出这四个词汇在其他歌曲中的出现频率,由两者之间的差异引出所有词汇在这个坐标系中的分布情况。

在这个图片中,蓝色部分为在“嘻哈”中经常出现,而在其他歌曲中并不常见的歌词词汇,红色相反,灰色词汇的呈现情况持平。随后,作者着重列举了一些更为特殊的词汇——只出现在嘻哈中的、几乎从未出现在嘻哈中的,在这里并没有仅凭借两者的比值下结论,而是同时摆出了不同词汇出现的数量,有些数值虽然出现的比例低但次数并不少,这样呈现更为客观。坐标系中加入了tooltip,鼠标滑过每个词汇时都会出现它在嘻哈歌曲(或其他种类)出现的倍数、在两类歌曲中每万个词中出现的频率。

这个排名里“微笑、叹息、破碎、心脏、孤独”这种倾向于表达个人情绪(往往是负面)的词汇在嘻哈歌曲里出现的比较少,反之,“真实”、“兄弟”、“脱衣舞”这类相对有些粗鲁的词语几乎只出现在嘻哈歌曲里。此外,统计中还出现了一些只出现于嘻哈歌曲中的“俚语”,这些特殊的词汇也是嘻哈文化的表征之一。而读者也可以搜索自己感兴趣的词语,查看它在两者之间的出现频率状况。

Part3:对于特定艺术家,是什么样子?

NWA歌曲中使用警察这个词汇的频率远高于这个流派中的其他歌手——作者从这一现象引出第三部分。分析发现,所有歌手都会在歌词里用到警察,只不过NWA的频率更高,而他在用词过程中更为极端的是 “康普顿”这个城市名称——其余75%歌手从未使用过这个词汇,作者基于这一特征将“康普顿”作为概括歌手风格特征的一个因素。

作者举这个例子,是为了引出对于这些嘻哈歌手的群像分析——体现出对于数据集中500位歌手独特的用词特征。文中提到,作者使用tf-idf(term frequency–inverse

document frequency,一种用于信息检索与数据挖掘的常用加权技术)对语料进行分析,主要通过“使用情况超过平均值”和“罕见词汇”两个维度进行评判,得出了每一位嘻哈歌手的十个核心词汇。歌手按照首字母和年代进行分类。

由此,作者回到了文章最开端的嘻哈歌手群像,并解释了画出这个图的依据——每位歌手的中心词。同时,作者不仅完整的排布出每一位歌手的词汇使用情况,还对每两位嘻哈歌手用词详尽程度进行比较并量化,使用t-分布领域嵌入算法将这些歌手进行分组。在此基础上绘制出这个网络。在鼠标悬浮时,图中会出现与匹配度最高的另一位歌手的连线,同时也实现了首尾呼应。文章结束后,作者还邀请机器学习和数据科学领域的专家致信提供建议。

这个数据报道着眼于人们感兴趣的嘻哈文化,运用数据统计和机器学习的技术,单纯通过文本分析展开内容,用一种全新的方式展示数据,则必须包含对其分布情况的解释,新鲜、独特,并且会让人在阅读之后对嘻哈歌手的文化形态有更直观的感受。虽然在一定程度上缺乏新闻价值,但用《Truthful Art》中提及的“表现可靠信息、拥有引人注意的视觉元素、适当延伸、保持真实、清晰与深度”的标尺来衡量,这无疑是一件优秀的视觉化作品。

作品链接:https://pudding.cool/2017/09/hip-hop-words/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容

  • abandon, desert, forsake, leave, give up abandon :强调永远或完全...
    sunxiaohang阅读 2,251评论 0 3
  • 今天是12月3日星期一 今天吃完晚饭,立骞去写日记了,写完拿出来给我读了一遍。说复习英语第8模块,读了两遍。我听着...
    西子张阅读 93评论 0 0
  • Python条件测试——if语句 随着对Python了解的越来越多,很多新知和已知可以融合,发挥更大的功能。 (1...
    自语自乐阅读 277评论 0 0
  • 今天的碎碎念我想用几本书以清单的形式介绍一下我们应该如何欣赏艺术品,无论是中外的名家画作、瓷器雕塑还是音乐曲目都可...
    海豚湾的森林阅读 308评论 0 0
  • 1.先来看一段代码 思考:arrM先赋值给array,再增加d元素,为什么array中却也加入了新的元素?这里先分...
    SimpleSJ阅读 330评论 0 0