工作琐记(一)

背景:
PM 总会提一些数据需求,有的数据跑一个 hive 语句也就出来了,在 excel 整理一下,就可以发给 PM 了,但是有的数据需要对多个数据文件做整合操作,这时候该怎么办呢?总结了一些常用的操作,以一个例子的形式展现给大家。

两份文件,名称和内容如下:
文件t1.log
2
4
5
1
2
3

文件t2.log
2
34
5
56
6
1
3
4
56
4
2

得到两个文件的并集数据

思路:合并—排序—去重
sort -n t1.log t2.log | uniq
结果
1
2
3
4
5
6
34
56

得到两个文件的交集数据

思路:连个文件分别去重得到2个新文件—合并—去重--判断重复次数大于1
sort -n t1.log | uniq > uniq_t1.log
sort -n t2.log | uniq > uniq_t2.log
sort -n uniq_t1.log uniq_t2.log | uniq -c |awk '$1>1 {print $2}'
结果
1
2
3
4
5

只在文件1中存在的结果

diff -y uniq_t1.log uniq_t2.log | awk '/<|\\|/ '
结果

只在文件2中存在的结果

diff -y uniq_t1.log uniq_t2.log | awk '/>|\\|/ ' | awk '{print ($1~/\\>/?$3:$2)}'
结果
6
34
56

推荐阅读更多精彩内容

  • 01 应该是11月4日吧,安老师回了省城的家,还没有返回。我照例坐在他的座位上——柔软可旋转的老板椅,用着他27寸...
    慢世人阅读 71评论 0 0
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    O感悟人生O阅读 10,344评论 2 33
  • 转自: https://wujunze.com/server_logs_analysis.jsp 2017-06-...
    鲸息_Leon阅读 296评论 0 0
  • 转载 原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
    XKirk阅读 2,735评论 2 25
  • 两年说完就完,然而,然而什么我也不知道呀。 是啊都周三了吧。 这个周又过了一半了吧。 不准记关于这周了,惯的,真是...
    bu良青阅读 78评论 0 1
  • 不经反思的人生不值得一过,但我却从没进行复盘过。这次参与Angie个人品牌技能课程,我就想用《复盘+把经验化成能力...
    蒋之之爱生活阅读 1,101评论 2 12
  • 1自己更加清楚自己在工作中需要去做的是什么。 2对待每一件事情自己都能保持内心的平静。 3用心的沟通和良好的服务像...
    青心争己阅读 185评论 0 0
  • 《朱天衣的作文课》开讲啦!作者朱天衣老师是台湾语文老师,耕耘作文教学20余年。该书2007年首次出版,十年畅销不衰...
    萧暖暖的小屋阅读 88评论 0 0
  • 西湖音乐节的喧嚣还隐隐在耳边回响,偶尔一段音乐如闪电在脑海里劈开,也劈在她身上一样,激起身体猛地一阵扭曲摇摆。但她...
    诗意科学阅读 171评论 0 0