采集范围
对互联网、内部网提供动态监视工具,实现增量采集和实时更新;
支持多语言网站信息采集;
支持但不限于新闻、微博、微信、博客、论坛、贴吧的信息采集和监控;
支持分页采集;
支持采集网页中的表格、列表等内容;
支持自定义采集流程,眼见即可采;
简单易用
只需简单几步即可实现一站式采集、清洗、去重、存储、展示,省去开发时间
采集频率
支持分布式任务调度,定时任务采集,采集频率支持秒、分钟、小时、天、周、月等级别
数据处理及入库
支持采集链接去重,避免资源浪费
数据提取支持字符串、时间、数字、HTML等格式
支持采集结果清洗、提取
支持增量采集,结果去重、更新等
支持自定义采集存储配置,支持Mysql、MongoDB、Kafka消息队列,Elasticsearch搜索引擎
智能防封
支持模拟浏览器采集
支持采集UA切换、自动登录、避免重复登录、cookie管理
支持反爬虫识别并自动切换代理
支持扫码登录
支持验证码自动识别
支持自定义采集流程,可视化展现,适用复杂操作步骤的网站采集
采集监控
支持采集任务监控-启动、停止、采集量、剩余量
支持采集日志管理-日志图形展示
支持采集数据量监控(每日新增),站点采集量图形展示
支持采集数据报告,支持邮件监控报告和短信监控报告
部署方案
支持私有化部署
支持采集节点水平扩展,提供节点运行状态监控
支持权限控制,自定义用户角色