日志收集十大技术细节

本文探讨在大规模日志数据收集过程中,针对日志文件的处理需要注意的技术细节。

1. 通配符和目录递归搜索

大多数场景下,日志往往被分散在不同的目录中,比如以日期为名的目录。因此,工具必需支持对目录的递归搜索和某种模式匹配。

POSIX标准定义了一组用于通配的特殊符号(Pattern Matching Notation):

  • *:匹配一个或多个字符
  • ?:匹配一个字符
  • []:匹配一个在范围内的字符
  • [!]:匹配一个不在范围内的字符

shell中很多常见命令都可以应用这种模式匹配规则,比如:

find / -name "*.so"

作为日志收集工具,也需要能够做到这种匹配,从而对日志进行初步筛选。在Unix系统中,可以使用fnmatch函数实现。

2. 热日志分析

日志的其中一个特点是:往往同时只有少数的日志文件正在写入,大部分日志文件都不是正在写入状态。那么在收集日志的时候,为了降低资源的消耗,需要有一种机制来判断哪些是“热更新”的日志,只对热更新日志进行读取。我们采用的方式是,如果在若干次采样周期内,发现读取文件都是EOF,那么认为这个文件属于冷日志,并将其剔除出热日志队列,并加入一个新的日志文件作为热日志文件,循环往复。这样,大多数情况下,即保证了实时性,又降低了资源的无效损耗。

3. 新文件检测

对于采集一个目录下的文件这种需求,必需要考虑到新文件增加的情况。通常设置一个间隔时间(比如2s),对目录进行一个遍历,然后对比当前已经被纳管的文件,看是不是新文件。如果是新文件,应立刻加入到热文件队列,因为新的文件往往会立刻被写入数据。这里采用hashmap能提高对比性能。

4. 采集点保存

程序总会因为某种原因退出,但是采集任务往往并没有结束,这个时候,程序就需要有能力记录下一些信息,以便下一次继续从结束的点开始工作,以防止重复采集。针对每个文件,记录当前读取到的offset,并在程序退出时,及时刷写进磁盘。

5. log rotate的探测

log rotate是常用的一种日志策略。当达到rotate的条件时,当前正在写入的文件会重命名,并且不再写入数据;然后创建一个新的文件来继续写入。当文件数量超过一定量时,将最早产生的文件删除,这样能防止日志无限制暴涨造成文件系统空间浪费。

基于log rotate的特点(会产生重命名文件的情况),日志工具可以通过记录并对比inode来判断文件是否是重命名的。

log rotate

6. 归档模式采集

遍历和watch一个拥有百万级文件个数的目录,是件十分浪费资源的事情。因为,实际情况下,这种目录的数据都是历史数据,而且不会发生变化。因此,日志工具应当能够支持我们称为归档模式的工作模式,这种模式下,遍历和watch目录将采用极低的频次,这样不会浪费资源。

7. 文件状态异常

文件状态异常是指下列可能的情况:

  • 读取文件的权限发生变化
  • 读取文件时发生某种错误

程序应避免对这种文件“一刀切”,因为可能过一段时间文件又变成正常状态了。所以,应当定期把有问题的文件再尝试读取,这样不会遗漏。

8. 字符集的探测和转化

在一些老的系统中,日志的编码格式依旧会采用本地编码。典型的是GBK编码的日志。在日志上报的过程中,应采用统一的编码格式。几乎所有的系统都支持libiconv库,这是一个可进行编码转化的常用库。

9. 多行合并

日志数据由应用程序生成,�许多应用程序在写入日志的时候,一条逻辑日志包含多行。比如下面的java异常日志,打印出了堆栈的信息:

11 五月 2016 11:35:52,602 ERROR java.lang.IllegalArgumentException: No bean specified
    at org.apache.commons.beanutils.PropertyUtilsBean.getNestedProperty(PropertyUtilsBean.java:632)
    at org.apache.commons.beanutils.PropertyUtilsBean.getProperty(PropertyUtilsBean.java:715)
    at org.apache.commons.beanutils.PropertyUtils.getProperty(PropertyUtils.java:290)
    at lib.util.BeanUtil.getBeanProperty(BeanUtil.java:184)
    at lib.comm.services.CommWebService.getResponse(CommWebService.java:173)
    at lib.comm.services.CommWebService.SendSimplePack(CommWebService.java:307)
    at lib.comm.services.CommWebService.exchange(CommWebService.java:40)
    at lib.comm.CommunicationUtil.exchange(CommunicationUtil.java:46)
    at lib.comm.CommunicationUtil.exchangeFull(CommunicationUtil.java:105)
    at lib.helper.TradeHelper.tellerBasicInfoQuery(TradeHelper.java:1520)

从日志收集程序的角度,这里有很多行,但是,此时如果按行来分割是完全不行的。因此,应当提供一种可以合并多行日志为一行日志的能力。注意到这个日志以一个时间为开始(通常都是这样),那么我们就可以设置一个正则匹配规则,匹配到就认为是一个逻辑日志行的开始:

/\d{2} \S+ \d{4} \d{2}:\d{2}:\d{2},\d{3}/

这样收集上来的日志才便于处理和分析。通过灵活的设置正则,极大的降低了后端处理日志的难度。

10. Follow Symbolic Link

采集器能够支持一个开关,用于设置是否对链接进行跟踪,即读取链接实际指向的文件或目录。

其实,此外还有很多亮点功能值得探讨,比如:

  • 对历史的归档日志(tar包),直接读取归档压缩文件,从而避免先解压再读取的麻烦。
  • 在通配模式下,排除(exclude)或包含(include)某些特殊日志
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容