点击流平台

我:
您好
MASTER 09:25:24
您好,有什么事吗
我 09:53:54
您好
想问一些技术问题 不知道您有时间没
MASTER 09:55:10
spark相关的吗
您说什么问题吧
我 09:55:52
想问下点击流的流程,想做个类似spark的点击流平台
高并发和 安全这块
有什么好的方式
你们是怎么做的618实时监控
MASTER 09:56:30
你们要使用流量数据?
自己做采集?
我 09:57:51
采集这块应该也会选择埋点post到后台 能大概说一下后台的逻辑吗
或者有写过博客 或者ppt
MASTER 09:58:48
为什么不用集团的这套采集系统
我 10:01:12
不是不用 就是想了解一下技术 ,为什么可以支持这么大的数据量
集群规模也可以说下
MASTER 10:02:41
这边是分着5套环境,pc、微信手Q,主APP,小APP,M站
MASTER 10:05:41
采集逻辑大致相同,nginx接收请求,做数据校验、格式化,数据实时发到kafka作为实时数据,同时落地磁盘作为离线数据
大体就是这样
前端又分js采集和sdk采集
我 10:06:53

MASTER 10:07:53
...
kafka里是实时数据
你们可以在大数据平台上申请消费kafka里的实时数据来做分析
MASTER 10:09:09
离线数据在大数据平台已经做了层层处理,落到不同的表里
应该也可以提交任务去处理离线数据的
我 10:09:52
大数据平台实时处理用的storm 吗
MASTER 10:09:57
是的
我 10:10:09
集群大概多大
MASTER 10:10:21
storm的?
我 10:10:24

MASTER 10:12:26
大数据平台storm已经产品化了,每个应用可以申请一些worker来用,大数据平台那边集群好多个,规模不太了解
貌似现在新申请的任务需要自己申请弹性云资源作为storm集群
我 10:13:02
用的京东云的资源
MASTER 10:13:33
新接入的应该都是用弹性云
我 10:13:51
整个过程有没有为了数据的安全性 做一些缓存
比如 数据采集 或者 kafka消费
MASTER 10:15:12
kafka消费需要通过鉴权消费,鉴权在大数据平台申请
详细你可以问问实时计算的产品
MASTER 10:16:16
可以问一下xxx或者xxx
我 10:16:34
好好 谢谢
我 10:17:43
点击流申请平台地址可以发一下吗
我通过页面大概看一下功能
我 10:18:47
数据采集服务器后台 服务器多少太
MASTER 10:20:47
你去看看大数据平台的实时中心吧,那边不止我们流量数据,还有很多其他数据
http://xxxxxxx/xxxxxxx.html
我 10:24:29
好的 非常感谢
MASTER 10:24:38
不客气

推荐阅读更多精彩内容