awk文本处理工具用法总结

一,awk简介

awk,文本处理三剑客之一,它的名称得自于它的三个创始人Alfred Aho 、Peter Weinberger 和 Brian Kernighan 的姓氏的首字母。

又有多种版本: NEW awk (nawk) , GNU awk (gawk)。一般在linux中awk所指的就是gwk。


(1)基本用法

awk [options] ‘program’ var=value file…    #语法:awk +选项+程序

awk [options] -f programfile var=value file…    # -f调用文件

awk [options]  'BEGIN{ action;… } pattern{ action;… } END{ action;… }'  file ...

awk 程序通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块,共3部 分组成 

program通常是被单引号或双引号中            #建议使用单引号

选项:

-F 指明输入时用到的字段分隔符

-v var=value: 自定义变量

(2)语法

基本格式:

awk [options] 'program' file…

program:pattern{action statements;..}

pattern和action:         

• pattern部分决定动作语句何时触发及触发事件

BEGIN,END       

• action statements对数据进行处理,放在{}内指明

print, printf                            #用于打印显示

分割符、域和记录:

awk执行时,由分隔符分隔的字段(域)标记$1,$2..$n称 为域标识。

$0为所有域,注意:和shell中变量$符含义不同

文件的每一行称为记录

省略action,则默认执行 print $0 的操作


二,awk的工作原理

第一步:执行BEGIN{action;… }语句块中的语句          #BEGIN通常用于打印表头。

第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行扫描文件,从第一行到最后一行重复这 个过程,直到文件全部被读取完毕。

第三步:当读至输入流末尾时,执行END{action;…}语句块    #END经常用于汇总。

BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个 可选的语句块,比如变量初始化、打印输出表格的表头等语句通常 可以写在BEGIN语句块中

END语句块在awk从输入流中读取完所有的行之后即被执行,比如 打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块

pattern语句块中的通用命令是最重要的部分,也是可选的。如果 没有提供pattern语句块,则默认执行{ print $0 },即打印每一个读取到的行,awk读取的每一行都会执行该语句块


三,变量

awk的变量分两种:内置和自定义变量

(1),FS:输入字段分隔符,默认为空白字符

awk -v FS=':'  '{print $1,FS,$3}’ /etc/passwd

awk  –F:  '{print $1,$3,$7}’ /etc/passwd



(2),OFS:输出字段分隔符,默认为空白字符

awk  -v FS=‘:’  -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd


(3)RS:输入记录分隔符,指定输入时的换行符

      awk -v RS=' ' ‘{print }’ /etc/passwd

4) ORS:输出记录分隔符,输出时用指定符号代替换行符

        awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd



(5)NF:字段数量

        awk  -F: ‘{print NF}’ /etc/fstab,引用内置变量不用$


        awk  -F:  '{print $(NF-1)}'  /etc/passwd    #NF-1 为查看倒数第一个字段。


(6)NR:记录号

awk '{print NR}'  /etc/fstab


awk END'{print NR}'  /etc/fstab


(7)FNR:各文件分别计数,记录号

awk -v FS=: '{print FNR,$1}' /etc/passwd /etc/group


FILENAME:当前文件名

awk -v FS=: '{print FNR,FILENAME,$1}' /etc/passwd /etc/group


ARGC:命令行参数的个数

awk '{print ARGC}’  /etc/fstab /etc/inittab


awk ‘BEGIN {print ARGC}’  /etc/fstab /etc/inittab


(8)ARGV:数组,保存的是命令行所给定的各参数

awk ‘BEGIN {print ARGV[0]}’  /etc/fstab /etc/inittab    #下标为0的为第一个参数


般认为命令之后的项目都是参数,但awk认为awk自身也是一个参数

awk ‘BEGIN {print ARGV[1]}’  /etc/fstab /etc/inittab      #下标为1的为第二个参数



(9)awk的自定义变量

        awk的自定义变量(区分字符大小写)

          两种定义方式

            (1)-v var=value

                (2) 在program中直接定义

示例:1,    awk -v var1="hello,awk" 'BEGIN{print var1}'



2,      awk 'BEGIN{var1="hello";print var1}'

3,    awk -F: '{sex="male";print $1,sex,age;age=18}' /etc/passwd

print格式

要点:

(1) 逗号分隔符

(2) 输出的各item可以字符串,也可以是数值;当前记录的字段、 变量或awk的表达式

(3) 如省略item,相当于print $0

示例:awk '{print "hello,awk"}'


awk –F: '{print}' /etc/passwd

awk –F: ‘{print “wang”}’ /etc/passwd

awk –F: ‘{print $1}’ /etc/passwd

awk –F: ‘{print $0}’ /etc/passwd

awk –F: ‘{print $1”\t”$3}’ /etc/passwd


tail –3 /etc/fstab |awk ‘{print $2,$4}’ #awk自动理解文件的分隔符


printf命令

格式化输出:printf “FORMAT”, item1, item2, ...

(1) 必须指定FORMAT

(2) 不会自动换行,需要显式给出换行控制符,\n

(3) FORMAT中需要分别为后面每个item指定格式符

格式符:与item一一对应

%c: 显示字符的ASCII码

%d, %i: 显示十进制整数

%e, %E:显示科学计数法数值

%f:显示为浮点数

%g, %G:以科学计数法或浮点形式显示数值

%s:显示字符串

%u:无符号整数

%%: 显示%自身

修饰符:

#[.#]:第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f

-: 左对齐(默认右对齐) %-15s

+:显示数值的正负符号 %+d

示例:awk -F: 'BEGIN{print"user              uid"}{printf "%-20s:%10d\n",$1,$3 }' /etc/passwd


注:通常有几个百分号就定义几个变量


十,操作符

    (1)算术操作符

        x+y, x-y, x*y, x/y, x^y, x%y

          -x: 转换为负数

          +x: 转换为数值

字符串操作符:没有符号的操作符,字符串连接

2)赋值操作符:

    =, +=, -=, *=, /=, %=, ^=


      ++, --

  (3)比较操作符

                ==, !=, >, >=, <, <=

          模式匹配符:  (可使用正则表达式)

          ~:左边是否和右边匹配包含 !~:是否不匹配

        示例:

        (1)  awk -F: '$0~/^root/{print $0}' /etc/passwd


            (2)awk –F: '$0 ~ /root/{print $1}‘  /etc/passwd



        十一,逻辑操作符:与&&,或||,非!

      awk中的逻辑操作符与或非值表示逻辑关系,不像bash中有短路效果

      示例:找出/etc/passwd中uuid大于等于1000,小于等于1010的用户打印出来



注:在awk中:如果为0取反就是1,非0的值取反都是0,如果为空取反也为1。

通常在awk中0代表为假 ,1代表为真。

示例:

           

函数调用: function_name(argu1, argu2, ...)


条件表达式(三目表达式):

selector?if-true-expression:if-false-expression

示例

awk -F: '{$3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd



十二,awk PATTERN

PATTERN:根据pattern条件,过滤匹配的行,再做处理

(1)如果未指定:空模式,匹配每一行


(2) /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来



awk '/^UUID/{print $1}' /etc/fstab #打印行首为UUID行的第一条属性

awk '!/^UUID/{print $1}' /etc/fstab #打印行首不是UUID的第一条属性

(3) relational expression: 关系表达式,结果为“真”才会被处理

真:结果为非0值,非空字符串

假:结果为空字符串或0值

示例 awk -F: 'i=!i{print NR,$0,i}' /etc/passwd

解析:#打印奇数行加行号和当时的i的值

#首次循环中,i的初始值为空,那么!i不为空,所以打印后续动作

#第二轮循环,i值初始值不为空,!i为空,跳过后续动作

示例2:awk -F: '$NF=="/bin/bash"{print $1,$NF}' /etc/passwd


(4)line ranges:行范围

startline,endline:/pat1/,/pat2/ 不支持直接给出数字

格式

awk -F: ‘/^root>/,/^nobody>/{print $1}' /etc/passwd

awk -F: ‘(NR>=10&&NR<=20){print NR,$1}' /etc/passwd


(5) BEGIN/END模式  BEGIN{}: 仅在开始处理文件中的文本之前执行一次  END{}:仅在文本处理完成之后执行一次

示例:


十三,awk action

常用的action分类

• (1) Expressions:算术,比较表达式等

• (2) Control statements:if, while等

• (3) Compound statements:组合语句

• (4) input statements

• (5) output statements:print等


十四,awk控制语句

主要的控制语句:

{ statements;… } 组合语句

if(condition) {statements;…} 条件判断语句

if(condition) {statements;…} else {statements;…}

while(conditon) {statments;…} 循环语句

do {statements;…} while(condition)

for(expr1;expr2;expr3) {statements;…}

break

continue

delete array[index]                              #支持数组

delete array                                          #删除数组元素

exit


(1)awk控制语句if-else

语法:

if(condition){statement;…}[else statement]

if(condition1){statement1}else if(condition2){statement2} else{statement3}使用场景:对awk取得的整行或某个字段做条件判断

示例


注:如果存在多条语句必须使用花括号括起来。



while循环

语法:

while(condition){statement;…}

条件“真”,进入循环;条件“假”,退出循环

使用场景:

对一行内的多个字段逐一类似处理时使用

对数组中的各元素逐一处理时使用

示例:



do-while循环

语法:do {statement;…}while(condition)

意义:无论真假,至少执行一次循环体

示例

和上图用法相同此用法以及很少使用。


for循环

语法:

for(expr1;expr2;expr3) {statement;…}

常见用法:

for(variable assignment;condition;iteration process)

{for-body}

特殊用法:

能够遍历数组中的元素

语法:for(var in array) {for-body}

示例:

bash awk性能比较

分别用shell,awk,bc计算1到1000000之间所有数字之和比较消耗时间

awk表现:


shell表现:


bc表现:


总和上述测试awk性能最优,bc次之,shell最差。


swich语句

swich语句作用类似bash中的case语句

语法:switch(expression) {case VALUE1 or /REGEXP/: statement1; case VALUE2 or /REGEXP2/: statement2; ...; default: statementn}


break和continue


与bash类似awk语句中break和continue同样支持指定跳过第几层循环

break [n]

continue [n]

next: 提前结束对本行处理而直接进入下一行处理(awk自身循环)

awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd



十五,awk数组

关联数组:array[index-expression]

index-expression: 数组索引、下标

(1) 可使用任意字符串;字符串要使用双引号括起来

(2) 如果某数组元素事先不存在,在引用时,awk会自动创建 此元素,并将其值初始化为“空串”

若要判断数组中是否存在某元素,要使用“index in array”格式进行遍历

若要遍历数组中的每个元素,要使用for循环

for(var in array) {for-body}

注意:var会遍历array的每个索引

   利用数组去除重复的行

遍历数组。

统计IP访问次数。


统计连接状态

统计访问次数大于10000的用户 将其拒绝访问 加入防火墙。(利用脚本实现)



统计ip地址连接次数排在前十个的


head默认为前十个


在一篇文章中统计每个单词出现的次数

awk '{for(i=1;i<=NF;i++){word[$i]++}}END{for(j in word){print j,word[j]}}' /etc/rc.sysinit



求男女平均分:

数组写法


变量写法:


十六,awk函数

内置函数

数值处理:

rand():返回0和1之间一个随机数



字符串处理:

length([s]):返回指定字符串的长度

sub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并将第一个匹 配的内容替换为s

echo "2008:08:08 08:08:08" | awk 'sub(/:/,“-",$1)'

gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换 为s所表示的内容

echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'


split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存 至array所表示的数组中,第一个索引值为1,第二个索引值为2,…

利用split函数实现总结连接数



自定义函数

格式:

 function name ( parameter, parameter, ... ) { 

             statements 

             return expression 

                                 } 

 示例: cat fun.awk

     function max(v1,v2) { 

                 v1>v2?var=v1:var=v2      #三目表达式如果vi>v2那么var=vi,否则var=v2 也就是比较两个数字的最大值

                             return var 

                                         } 

       BEGIN{a=3;b=2;print max(a,b)}        #调用时需要给变量a,b赋值

                                     awk –f fun.awk


awk中调用shell命令

system命令

空格是awk中的字符串连接符,如果system中需要使用awk中的变量可以使用

空格分隔,或者说除了awk的变量外其他一律用""引用起来。

 awk BEGIN'{system("hostname") }' 

 awk 'BEGIN{score=100; system("echo your score is " score) }'



十七,awk脚本

将awk程序写成脚本,直接调用或执行

示例:

第一种方法将语句awk [options] 'program' file… 中的program写成脚本让后调用


第二中方法将整个语句写成脚本,加执行权限以后指定字段分割符直接用



向awk脚本传递参数

格式/:awkfile var=value var2=value2... Inputfile

注意:在BEGIN过程中不可用。直到首行输入完成以后,变量才可用。可以通 过-v 参数,让awk在执行BEGIN之前得到变量的值。命令行中每一个指定的变 量都需要一个-v参数

示例:


完结,个人学习笔记,

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • awk介绍awk变量printf命令:实现格式化输出操作符awk patternawk actionawk数组aw...
    哈喽别样阅读 1,488评论 0 4
  • 本章主要学习内容awk介绍 awk基本用法 awk变量 awk格式化 awk操作符 awk条件判断 a...
    楠人帮阅读 1,216评论 0 8
  • awk:报告生成器,格式化文本输出 内容: awk介绍 awk基本用法 awk变量 awk格式化 awk操作符 a...
    BossHuang阅读 1,434评论 0 9
  • awk: grep,sed,awk grep:文本过滤 sed:文本编辑 awk:文本格式化工具; 1 什么是aw...
    木林森阅读 1,708评论 0 16
  • 文/香茶 我是一个拖延症患者,每天晚上豪言壮语地发誓,早上该干嘛干嘛。 参加21天写作营,也是在某个失眠的夜晚,突...
    尚德茶香阅读 555评论 8 14