命令名称:awk

作用:

     对文本和数据进行处理

详细说明:

     awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。

数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。

它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,

比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势。

语法格式:

     awk [options] 'scripts' var=value filename

常用参数:

     -F 指定分隔符(可以是字符串或正则表达式)

-f 从脚本文件中读取awk命令

-v var=value 赋值一个用户定义变量,将外部变量传递给awk

awk 脚本基本结构:

awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' filename

 一个awk 脚本通常由BEGIN语句+模式匹配+END语句三部分组成,这三部分都是可选项

工作原理:

第一步执行BEGIN 语句

第二步从文件或标准输入读取一行,然后再执行pattern语句,逐行扫描文件到文件全部被读取

第三步执行END语句

         echo "hello world" | awk 'BEGIN{ print "welcome" } END{ print "2017-08-08" }'

         welcome

         2017-08-08

         echo -e  "hello world" | awk 'BEGIN{ print "welcome" } {print} END{ print "2017-08-08" }'

         welcome

         hello world

         2017-08-08

         #不加print参数时默认只打印当前的行

         [root@mingongge ~]# echo |awk '{ a="hello"; b="nihao"; c="mingongge"; print a,b,c; }'

         hello nihao mingongge

        #使用print以逗号分隔时,打印则是以空格分界

         echo |awk '{ a="mgg"; b="mingg"; c="mingongge"; print a" is "b" or "c; }'

         mgg is mingg or mingongge

        #awk的print语句中双引号其实就是个拼接作用

awk 的变量使用:

     内置变量

$0       #当前记录

$1~$n    #当前记录的第N个字段

FS       #输入字段分隔符(-F相同作用)默认空格

RS       #输入记录分割符,默认换行符

NF       #字段个数就是列    

NR       #记录数,就是行号,默认从1开始

OFS      #输出字段分隔符,默认空格

ORS      #输出记录分割符,默认换行符     

外部变量传入

 [mingongge@ ~]#a=100

         [mingongge@ ~]#b=100

         [mingongge@ ~]#echo |awk '{print v1*v2 }' v1=$a v2=$b

         10000

awk 运算与判断:

     算术运算符

         + -  加减

 * / & 乘 除 求余

        ^ *  求幂

++ -- 增加或减少,作为前缀或后缀

[mingongge@ ~]#awk 'BEGIN{a="b";print a,a++,a--,++a;}'

         b 0 1 1

[mingongge@ ~]#awk 'BEGIN{a="0";print a,a++,a--,++a;}'

         0 0 1 1

[mingongge@ ~]#awk 'BEGIN{a="0";print a,a++,--a,++a;}'

         0 0 0 1

#和其它编程语言一样,所有用作算术运算符进行操作,操作数自动转为数值,所有非数值都变为0

     赋值运算符

= += -= *= /= %= ^= **=

正则运算符

     ~ !~  匹配正则表达式/不匹配正则表达式

     逻辑运算符  

      ||  &&  逻辑或  逻辑与

关系运算符

  < <= > >= != = 

其它运算符

$      字段引用 

空格   字符串链接符

?:     三目运算符

ln     数组中是否存在某键值

awk 正则:

     ^    行首定位符

$    行尾定位符

.    匹配任意单个字符

*    匹配0个或多个前导字符(包括回车)

+    匹配1个或多个前导字符

?    匹配0个或1个前导字符   

[]   匹配指定字符组内的任意一个字符/^[ab]

[^]  匹配不在指定字符组内的任意一个字符

()   子表达式

|    或者

\    转义符

~,!~ 匹配或不匹配的条件语句

x{m}  x字符重复m次

x{m,} x字符至少重复m次

X{m,n} x字符至少重复m次但不起过n次(需指定参数-posix或--re-interval)