当百度统计遇到数据观 数据洗一洗 分析更健康

文:数据观

来自:数据观 https://www.shujuguan.cn/?from=jianshu

[摘要]:数据清洗在数据分析中的重要性毋庸置疑。就像日料一样,“食材”质量越高,“食物”的口感就越好。然而这个过程并不简单,令很多有分析愿望的业务人员都望“洗”生畏。其实,数据观的ETL工具就可以帮助你快速地完成一些主要的清洗工作,而且非常简单。快跟小观练起来吧![主文]:

料理菜式:

找出最近30天内,访问量最高的7个入口页面(不含首页),并能下钻查看网页的累计访问次数和平均访问时长。

所需食材:

1、一份Down自百度统计的实时访客CSV文件。

2、一个数据观免费使用账号。

料理前的准备工作:1、连接数据

点击“数据连接”,选择“文件”,选择“上传CSV”,上传您的实时访客数据即可。

2、新建ETL

点击“创建数据”,选择“ETL”,进入到这张画布,激动人心的时刻就要开始啦!

食材处理难关之——

[日子每天都在过,表格每天都得做?]

描述:我每天都想知道最近30天访问量最高的入口页面,但是我并不想每天调数据。有自动跟着变的方案吗?答案:有!秘密武器:[日期计算]+[过滤]

[日期计算]顾名思义,就是对日期进行计算。您可以对日期、月份、年份、季度等不同时间段动手脚。而我们这次要用的叫做“日期差”,可以很轻松地计算出每一次访问的“距今时间”。

将新列命名为“距今天数”,将操作方式选择为“日期差”,用“当前日期”减去“访问时间”,您的原始表格上就会出现一个名为“距今天数”的新列,并且里面是算好的天数啦!

接下来,我们用一手[过滤],直接解决“30天内”这个需求。

将需要过滤的列选为“距今天数”,比较类型为“小于等于”,因为天数是我们自己设定的,所以选成“与指定值比较”,并输入“30”。PS:如果您希望得到的7天或者15天,那么输入“7”或“15”就可以了。

我们会得到“距今天数”小于等于30的数据,也就是在30天内的访问数据。

食材处理难关之——

[时长构成太混乱,不是整数怎么算?]

描述:我要计算访问时长的平均值,但默认格式是文本,里面有空值、未知、正在访问等等,时长数值后面还有个单位‘s’,完全不具备把它转换为“整数”的条件。有什么功能能批量把单位去掉,并把空值、未知、正在访问都转换为空值吗?答案:有!秘密武器:[替换文本]+[修改列类型]

第一次[替换文本],解决的是单位问题。

我们需要处理的列是“访问时长”,所以选择该列,输入要去掉的字符“s”,将之替换为“空字符串”即可。第二次[替换文本],解决的是将“未知”转成空值的问题。

第三次[替换文本],解决的是将“正在访问”转成空值的问题。最终,“访问时长”只剩下数值及空值,此时再来一招[修改列类型],将“文本”转换成“整数”即可。

此时,“访问时长”已经变成“整数”类型了。

是数字就好办——计数、平均、最大值、最小值……想怎么算就怎么算!

食材处理难关之——

[入口页面一大批 偏偏只想看前七]

描述:访客从各个页面来访,但我们最关注的是前七个页面,能实现只看TOPN,而不看其它吗?答案:能!秘密武器:[排序和累计]

首先扪心自问——我要对什么排序?在空白框中写下你的答案——“访问量排序”。接下来选择排序的方法——“排序值(连续)”。然后找到右上方那个“应用”按钮,点击,即可进入下一步设置了。

选择要排序的列——“访问入口页面”然后选择排序方式——“降序”所有访问入口页面的名次就出来啦!不过,这还不是前七啊?别着急,前七的问题,“摆盘”的时候就给您解决!摆盘:

首先,将图表类型选择为“条图”——最适合展示 TopN的图表类型。然后,将“纵轴”选为“访问入口页面”,横轴选为“访问IP”(统计方式为“计数”),所有访问入口页面就按照访问量排列出来了。

此时,我们添加“过滤”,将过滤字段选为“访问量排序”,将数值设为“1~7”,前七位就出来啦!当然,如果您想看前10,前20,也可以随时调整,非常方便。

最后,点击“数据下钻”,添加想要查看的列,就可以看到该页面的详情。是不是很方便呢?最方便的是,这些处理您只做一次就行。以后,更新数据,结果自动出图哦~

手动处理这些数据,台前1分钟,台后一天功。交给数据观ETL工具的话,台前1分钟,台后也就10分钟。[结语]:百度统计后台设计的已经足够好,但如果能把百度统计的数据按照自己的需求进行分析,甚至和产品数据、其它推广渠道的数据结合起来共同分析,那就更好。当很多运营都止步于那份看起来密密麻麻的CSV文件时,你手起刀落,干净利索地将之变成一份有价值的数据洞察,是多么有成就感的事。大家的原始字段虽然都是流水线出品,但有些字段的待遇却是萨维尔街的,这就是运营与运营之间的不同。当普通运营把后台当作一切,而你把后台当作一切的开始时,你就赢了。让我们都具备让数据说话、让商业智能的魔力吧!更多ETL知识,请阅读:数据观数据处理手册亲手做过才是自己的哦!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269