orey 发表于 2013-4-23 19:50:27

Windows上GAWK的使用

    现在经常要处理到一些日志数据,对这些数据进行分析处理,但首先要对日志数据进行etl处理,如果简单的数据格式处理,使用gawk是最理想不过了,下面我们就介绍如何使用gawk,对数据进行e(extract)处理。
 
一.到网上下载一个gawk.exe程序(用于Windows上)。
二.gawk的基本语法.
 
1.gawk格式.
gawk "{action}" InputFileName.
 
1.1. 命令选项

-F fs or --field-separator fs

指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value or --asign var=value

赋值一个用户定义变量。
-f scripfile or --file scriptfile

从脚本文件中读取awk命令。
-mf nnn and -mr nnn

对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
-W compact or --compat, -W traditional or --traditional

在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright

打印简短的版权信息。
-W help or --help, -W usage or --usage

打印全部awk选项和每个选项的简短说明。
-W lint or --lint

打印不能向传统unix平台移植的结构的警告。
-W lint-old or --lint-old

打印关于不能向传统unix平台移植的结构的警告。
-W posix

打开兼容模式。但有以下限制,不识别:x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
-W re-interval or --re-inerval

允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
-W source program-text or --source program-text

使用program-text作为源代码,可与-f命令混用。
-W version or --version

打印bug报告信息的版本。
3. 模式和操作 And

gawk脚本是由模式和操作组成的:

pattern {action} 如gawk .exe “/root/”  test.text,或gawk.exe  “$3 < 100”  test.text。

两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。
3.1. 模式

模式可以是以下任意一个:

*
/正则表达式/:使用通配符的扩展集。
*

关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。
*
模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
*
模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
*
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
*
END:让用户在最后一条输入记录被读取之后发生的动作。
3.2. 操作
操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:
*变量或数组赋值
*输出命令
*内置函数
*控制流命令
   gawk逐行读取InputFileName文件的内容,将符合pattern规则的行,再按照action指定的操作来执行,pattern相当于是条件,action相当于是执行动作。其中用[]中括号括起来的部分不是必须写的部分,接下来列举一个简单的例子.
test.txt文件中的内容如下:
1111;aaaa;AAAA;
2222;bbbb;BBBB;
3333;cccc;dddd;
在命令窗口运行:gawk.exe "{print $0}" test.txt,则输出以下内容:
1111;aaaa;AAAA;
2222;bbbb;BBBB;
3333;cccc;dddd;
"{print $0}"表示完整的输出从test.txt文件中读取的每一行.$0表示当前读取的行,从这里我们应该知道gawk从test.txt读取一行之后开始执行action块的动作。为了验证这点,下面再举一个例子:
gawk.exe "{print """test"""}" test.txt 输出如下:
test
test
test
由于test.txt文件中有三行,所以action块部分执行了三次.
 
如果想以分号作为分隔符可以将test.txt分成四列,只输出前两列:
gawk.exe -F"73" "{print $1,$2}" test.txt 注意这里"73"是分号的八进制Ascii码。输出如下:
1111 aaaa
2222 bbbb
3333 cccc
我们发现输出的结果中每一列是用空格分隔的,现在我们自己定义分隔符,写法如下:
gawk.exe -F"73" "BEGIN{OFS="""t"""}{print $1,$2}" test.txt 输出结果中每一列是用制表符来分割的,这里面使用到了BEGIN{}块,和内建变量OFS,BEGIN块的作用就是在gawk开始读取test.txt第 一行之前要执行的部分,一般在BEGIN块里面初始化变量,OFS是gawk内建变量,表示输出列的分割符是什么,这里使用的是制表符.
gawk内建环境变量:
变量 描述
$n 当前记录的第n个字段,字段间由FS分隔。
$0 完整的输入记录。
ARGC 命令行参数的数目。
ARGIND 命令行中当前文件的位置(从0开始算)。
ARGV 包含命令行参数的数组。
CONVFMT 数字转换格式(默认值为%.6g)
ENVIRON 环境变量关联数组。
ERRNO 最后一个系统错误的描述。
FIELDWIDTHS 字段宽度列表(用空格键分隔)。
FILENAME 当前文件名。
FNR 同NR,但相对于当前文件。
FS 字段分隔符(默认是任何空格)。
IGNORECASE 如果为真,则进行忽略大小写的匹配。
NF 当前记录中的字段数。
NR 当前记录数。
OFMT 数字的输出格式(默认值是%.6g)。
OFS 输出字段分隔符(默认值是一个空格)。
ORS 输出记录分隔符(默认值是一个换行符)。
RLENGTH 由match函数所匹配的字符串的长度。
RS 记录分隔符(默认是一个换行符)。
RSTART 由match函数所匹配的字符串的第一个位置。
SUBSEP 数组下标分隔符(默认值是34)。
 
gawk运算符




Table 2. 运算符
运算符 描述
= += -= *= /= %= ^= **= 赋值
?: C条件表达式
|| 逻辑或
&& 逻辑与
~ ~! 匹配正则表达式和不匹配正则表达式
< <= > >= != == 关系运算符
空格 连接
+ - 加,减
* / & 乘,除与求余
+ - ! 一元加,减和逻辑非
^ *** 求幂
++ -- 增加或减少,作为前缀或后缀
$ 字段引用
in 数组成员
6. 记录和域
6.1. 记录
gawk把每一个以换行符结束的行称为一个记录。
记录分隔符:默认的输入和输出的分隔符都是回车,保存在内建变量ORS和RS中。
$0变量:它指的是整条记录。如 gawk..exe  “{print $0}”  test.txt将输出test文件中的所有记录。
变量NR:一个计数器,每处理完一条记录,NR的值就增加1。如 gawk.exe  “{print NR,$0}” test.txt将输出test文件中所有记录,并在记录前显示记录号。
6.2. 域
记录中每个单词称做“域”,默认情况下以空格或tab分隔。gawk可跟踪域的个数,并在内建变量NF中保存该值。如 gawk “{print $1,$3}”  test.txt将打印test文件中第一和第三个以空格分开的列(域)。
6.3. 域分隔符
内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如 gawk.exe –F”:”  “{print $1,$5}”  test.txt将打印以冒号为分隔符的第一,第五列的内容。
可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,如gawk.exe –F”[:t]” “{print $1,$3}'” test.exe,表示以空格、冒号和tab作为分隔符。
输出域的分隔符默认是一个空格,保存在OFS中。如gawk.exe –F”:”  “{print $1,$5}”  test.exe,$1和$5间的逗号就是OFS的值。
7. gawk专用正则表达式元字符
一般通用的元字符集就不讲了,可参考我的Sed和Grep学习笔记。以下几个是gawk专用的,不适合unix版本的gawk。
匹配一个单词开头或者末尾的空字符串。
匹配单词内的空字符串。
<<br>
匹配一个单词的开头的空字符串,锚定开始。
匹配一个单词的末尾的空字符串,锚定末尾。
匹配一个字母数字组成的单词。
匹配一个非字母数字组成的单词。

匹配字符串开头的一个空字符串。
匹配字符串末尾的一个空字符串。
9. 匹配操作符(~)
用来在记录或者域内匹配正则表达式。如gawk.exe "$1 ~/^root/" test.txt将显示test文件第一列中以root开头的行。
10. 比较表达式
conditional expression_r1 ? expression_r2: expression_r3,例如:gawk.exe "{max = {$1 > $3} ? $1: $3: print max}" test。如果第一个域大于第三个域,$1就赋值给max,否则$3就赋值给max。
gawk.exe "$1 + $2 < 100" test。如果第一和第二个域相加大于100,则打印这些行。
gawk.exe "$1 > 5 && $2 < 10" test,如果第一个域大于5,并且第二个域小于10,则打印这些行。
11. 范围模板
范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。如gawk.exe "/root/,/mysql/" test将显示root第一次出现到mysql第一次出现之间的所有行。
13. 几个实例
*
gawk.exe "/^(no|so)/" test.txt-----打印所有以模式no或so开头的行。
*
gawk.exe "/^/{print $1}" test.txt -----如果记录以n或s开头,就打印这个记录。
*
gawk.exe "$1 ~/$/(print $1)" test.txt -----如果第一个域以两个数字结束就打印这个记录。
*
gawk.exe "$1 == 100 || $2 < 50" test.txt -----如果第一个或等于100或者第二个域小于50,则打印该行。
*
gawk.exe "$1 != 10" test.txt -----如果第一个域不等于10就打印该行。
*
gawk.exe "/test/{print $1 + 10}" test.txt -----如果记录包含正则表达式test,则第一个域加10并打印出来。
*
gawk.exe "{print ($1 > 5 ? "ok "$1: "error"$1)}" test.txt -----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。
*
gawk.exe "/^root/,/^mysql/" test.txt ----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。
14.gawk编程
14.1. 变量
*
在gawk中,变量不需要定义就可以直接使用,变量类型可以是数字或字符串。
*
赋值格式:Variable = expression_r,如gawk.exe "$1 ~/test/{count = $2 + $3; print count}" test.txt,上式的作用是,gawk先扫描第一个域,一旦test匹配,就把第二个域的值加上第三个域的值,并把结果赋值给变量count,最后打印出来。
*
gawk 可以在命令行中给变量赋值,然后将这个变量传输给gawk脚本。如gawk.exe –F”:” -f awkscript month=4 year=2004 test,上式的month和year都是自定义变量,分别被赋值为4和2004。在awk脚本中,这些变量使用起来就象是在脚本中建立的一样。注意,如果参数前面出现test,那么在BEGIN语句中的变量就不能被使用。
*
域变量也可被赋值和修改,如gawk.exe "{$2 = 100 + $1; print }" test.txt,上式表示,如果第二个域不存在,gawk将计算表达式100加$1的值,并将其赋值给$2,如果第二个域存在,则用表达式的值覆盖$2原来的值。再例如:gawk.exe "$1 == "root"{$1 ="test";print}" test.txt,如果第一个域的值是“root”,则把它赋值为“test”,注意,字符串一定要用双引号。
*
内建变量的使用。变量列表在前面已列出,现在举个例子说明一下。gawk.exe -F: "{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}"test,把IGNORECASE设为1代表忽略大小写,打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。
14.2. BEGIN模块
BEGIN 模块后紧跟着动作块,这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值,如OFS, RS和FS等,以及打印标题。如:gawk.exe "BEGIN{FS=":"; OFS="t"; ORS="nn"}{print $1,$2,$3} test.txt。上式表示,在处理输入文件以前,域分隔符(FS)被设为冒号,输出文件分隔符(OFS)被设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。gawk.exe "BEGIN{print "TITLE TEST"}只打印标题。
14.3. END模块
END不匹配任何的输入文件,但是执行动作块中的所有动作,它在整个输入文件处理完成后被执行。如gawk.exe "END{print "The number of records is" NR}"  test.txt,上式将打印所有被处理的记录数。
14.4. 重定向和管道
*
awk 可使用shell的重定向符进行重定向输出,如:gawk.exe "$1 = 100 {print $1 > "output_file" }"  test.txt。上式表示如果第一个域的值等于100,则把它输出到output_file中。也可以用>>来重定向输出,但不清空文件,只做追加操作。
*
输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内 容,并给NF,NR和FNR等内建变量赋值。如果得到一条记录,getline函数返回1,如果到达文件的末尾就返回0,如果出现错误,例如打开文件失 败,就返回-1。如:
gawk.exe "BEGIN{ "date" | getline d; print d}"  test.txt。执行linux的date命令,并通过管道输出给getline,然后再把输出赋值给自定义变量d,并打印它。
gawk.exe "BEGIN{"date" | getline d; split(d,mon); print mon}" test。执行shell的date命令,并通过管道输出给getline,然后getline从管道中读取并将输入赋值给d,split函数把变量d转化成数组mon,然后打印数组mon的第二个元素。
gawk.exe "BEGIN{while( "ls" | getline) print}",命令ls的输出传递给geline作为输入,循环使getline从ls的输出中读取一行,并把它打印到屏幕。这里没有输入文件,因为 BEGIN块在打开输入文件前执行,所以可以忽略输入文件。
gawk.exe "BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test.txt。在屏幕上打印”What is your name?",并等待用户应答。当一行输入完毕后,getline函数从终端接收该行输入,并把它储存在自定义变量name中。如果第一个域匹配变量 name的值,print函数就被执行,END块打印See you和name的值。
gawk.exe "BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}"。awk将逐行读取文件/etc/passwd的内容,在到达文件末尾前,计数器lc一直增加,当到末尾时,打印lc的值。注意,如果文件不存在,getline返回-1,如果到达文件的末尾就返回0,如果读到一行,就返回1,所以命令 while (getline < "/etc/passwd")在文件不存在的情况下将陷入无限循环,因为返回-1表示逻辑真。
*
可以在awk中打开一个管道,且同一时刻只能有一个管道存在。通过close()可关闭管道。如:gawk.exe "{print $1, $2 | "sort" }" test END {close("sort")}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。
*
system函数可以在awk中执行linux的命令。如:gawk.exe "BEGIN{system("clear")"。
*
fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(""),则刷新所有文件和管道的输出缓冲区。
 
 14.5. 条件语句
gawk中的条件语句是从C语言中借鉴过来的,可控制程序的流程。
14.5.1. if语句
格式:
{if (expression_r){
statement; statement; ...
}
}
gawk.exe "{if ($1 <$2) print $2 """too high"""}" test.txt。如果第一个域小于第二个域则打印。
gawk.exe "{if ($1 < $2) {count++; print """ok"""}}" test.txt.如果第一个域小于第二个域,则count加一,并打印ok。
14.5.2. if/else语句,用于双重判断。
格式:
{if (expression_r){
statement; statement; ...
}
else{
statement; statement; ...
}
}
gawk.exe "{if ($1 > 100) print $1 """bad""" ; else print """ok"""}" test.txt。如果$1大于100则打印$1 bad,否则打印ok。
gawk.exe "{if ($1 > 100){ count++; print $1} else {count--; print $2}" test.txt。如果$1大于100,则count加一,并打印$1,否则count减一,并打印$1。
14.5.3. if/else else if语句,用于多重判断。
格式:
{if (expression_r){
statement; statement; ...
}
else if (expression_r){
statement; statement; ...
}
else if (expression_r){
statement; statement; ...
}
else {
statement; statement; ...
}
}
14.6. 循环
*
gawk有三种循环:while循环;for循环;special for循环。
*
gawk.exe "{ i = 1; while ( i <= NF ) { print NF,$i; i++}}" test.txt。变量的初始值为1,若i小于可等于NF(记录中域的个数),则执行打印语句,且i增加1。直到i的值大于NF.
*
gawk.exe "{for (i = 1; i *
breadkcontinue语句。break用于在满足条件的情况下跳出循环;continue用于在满足条件的情况下忽略后面的语句,直接返回循环的顶端。如:
{for ( x=3; x<=NF; x++)
if ($x<0){print "Bottomed out!"; break}}
{for ( x=3; x<=NF; x++)
if ($x==0){print "Get next item"; continue}}
*
next语句从输入文件中读取一行,然后从头开始执行awk脚本。如:
{if ($1 ~/test.txt/){next}
else {print}
}
*
exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功,非零值表示出错。
14.7. 数组
awk中的数组的下标可以是数字和字母,称为关联数组。
14.7.1. 下标与关联数组
*
用变量作为数组下标。如:gawk.exe {name=$2};END{for(i=0;i *
special for循环用于读取关联数组中的元素。格式如下:
{for (item in arrayname){
print arrayname
}
}
gawk.exe "/^tom/{name=$1}; END{for(i in name){print name}}" test.txt。打印有值的数组元素。打印的顺序是随机的。
*
用字符串作为下标。如:count["test.txt"]
*
用域值作为数组的下标。一种新的for循环方式,for (index_value in array) statement。如:gawk.exe "{count[$1]++} END{for(name in count) print name,count}" test.txt。该语句将打印$1中字符串出现的次数。它首先以第一个域作数组count的下标,第一个域变化,索引就变化。
*
delete 函数用于删除数组元素。如:gawk.exe "{line=$1} END{for(x in line) delete(line)}" test.txt。分配给数组line的是第一个域的值,所有记录处理完成后,special for循环将删除每一个元素。
14.8.gawk的内建函数
14.8.1. 字符串函数
*
sub函数匹配记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候。格式如下:
sub (regular expression_r, substitution string):
sub (regular expression_r, substitution string, target string)
实例:
gawk.exe "{ sub(/test/, """mytest"""); print }" testfile
gawk.exe "{ sub(/test/, """mytest"""); $1}; print }" testfile
第一个例子在整个记录中匹配,替换只发生在第一次匹配发生的时候。如要在整个文件中进行匹配需要用到gsub
第二个例子在整个记录的第一个域中进行匹配,替换只发生在第一次匹配发生的时候。
*
gsub函数作用如sub,但它在整个文档中进行匹配。格式如下:
gsub (regular expression_r, substitution string)
gsub (regular expression_r, substitution string, target string)
实例:
gawk.exe "{ gsub(/test/, """mytest"""); print }" testfile
gawk.exe "{ gsub(/test/, """mytest"""), $1 }; print }" testfile
第一个例子在整个文档中匹配test,匹配的都被替换成mytest。
第二个例子在整个文档的第一个域中匹配,所有匹配的都被替换成mytest。
*
index函数返回子字符串第一次被匹配的位置,偏移量从位置1开始。格式如下:
index(string, substring)
实例:
gawk.exe "{ print index("""test""",  """mytest""") }" testfile
实例返回test在mytest的位置,结果应该是3。
*
length函数返回记录的字符数。格式如下:
length( string )
length
实例:
gawk.exe "{ print length("""test""") }"
gawk.exe "{ print length }" testfile
第一个实例返回test字符串的长度。
第二个实例返回testfile文件中第条记录的字符数。
*
substr函数返回从位置1开始的子字符串,如果指定长度超过实际长度,就返回整个字符串。格式如下:
substr( string, starting position )
substr( string, starting position, length of string )
实例:
gawk.exe "{ print substr( """hello world""", 7,11 ) }"
上例截取了world子字符串。
*
match函数返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置,RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串。函数格式如下:
match( string, regular expression_r )
实例:
gawk.exe "{start=match("""this is a test""",/+$/); print start}"
gawk.exe "{start=match("""this is a test""",/+$/); print start, RSTART, RLENGTH }"
第一个实例打印以连续小写字符结尾的开始位置,这里是11。
第二个实例还打印RSTART和RLENGTH变量,这里是11(start),11(RSTART),4(RLENGTH)。
*
toupper和tolower函数可用于字符串大小间的转换,该功能只在gawk中有效。格式如下:
toupper( string )
tolower( string )
实例:
gawk.exe "{ print toupper("""test"""), tolower("""TEST""") }"
*
split函数可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供,则按当前FS值进行分割。格式如下:
split( string, array, field separator )
split( string, array )
实例:
gawk.exe "{ split("""20:18:00""", time, """:""" ); print time }"
上例把时间按冒号分割到time数组内,并显示第二个数组元素18。
14.8.2. 时间函数
*
systime函数返回从1970年1月1日开始到当前时间(不计闰年)的整秒数。格式如下:
systime()
实例:
gawk.exe "{ now = systime(); print now }"
*
strftime函数使用C库中的strftime函数格式化时间。格式如下:
systime( [,timestamp] )
Table 3. 日期和时间格式说明符
格式 描述
%a 星期几的缩写(Sun)
%A 星期几的完整写法(Sunday)
%b 月名的缩写(Oct)
%B 月名的完整写法(October)
%c 本地日期和时间
%d 十进制日期
%D 日期 08/20/99
%e 日期,如果只有一位会补上一个空格
%H 用十进制表示24小时格式的小时
%I 用十进制表示12小时格式的小时
%j 从1月1日起一年中的第几天
%m 十进制表示的月份
%M 十进制表示的分钟
%p 12小时表示法(AM/PM)
%S 十进制表示的秒
%U 十进制表示的一年中的第几个星期(星期天作为一个星期的开始)
%w 十进制表示的星期几(星期天是0)
%W 十进制表示的一年中的第几个星期(星期一作为一个星期的开始)
%x 重新设置本地日期(08/20/99)
%X 重新设置本地时间(12:00:00)
%y 两位数字表示的年(99)
%Y 当前月份
%Z 时区(PDT)
%% 百分号(%)
实例:
gawk.exe "{ now=strftime("""%D""", systime() ); print now }"
gawk.exe "{ now=strftime("""%m/%d/%y"""); print now }"
14.8.3. 内建数学函数
Table 4.
函数名称 返回值
atan2(x,y) y,x范围内的余切
cos(x) 余弦函数
exp(x) 求幂
int(x) 取整
log(x) 自然对数
rand() 随机数
sin(x) 正弦
sqrt(x) 平方根
srand(x) x是rand()函数的种子
int(x) 取整,过程没有舍入
rand() 产生一个大于等于0而小于1的随机数
14.8.4. 自定义函数
在awk中还可自定义函数,格式如下:
function name ( parameter, parameter, parameter, ... ) {
statements
return expression_r # the return statement and expression_r are optional
}
15. How-to
*
如何把一行竖排的数据转换成横排?
gawk.exe "{printf("""%s,""",$1)}" filename
这里将列出 gawk.exe 程式的一些例子。
gawk.exe.exe "{if (NF > max) max = NF}
END {print max}"
此程式会印出所有输入行之中,栏位的最大个数。
gawk.exe "length($0) > 80"
此程式会印出一行超过 80 个字元的每一行。此处只有 pattern 被
列出,action 是采用内定的 print。
gawk.exe "NF > 0"
对於拥有至少一个栏位的所有行,此程式皆会印出。这是一个简
单的方法,将一个档案里的所有空白行删除。
gawk.exe "{if (NF > 0) print}"
对於拥有至少一个栏位的所有行,此程式皆会印出。这是一个简
单的方法,将一个档案里的所有空白行删除。
gawk.exe "BEGIN {for (i = 1; i <= 7; i++)
print int(101 * rand())}"
此程式会印出□围是 0 到 100 之间的 7 个乱数值。
gawk.exe "BEGIN {FS = """:"""}
{print $1 | "sort"}" /etc/passwd
此程式会将所有使用者的login名称,依照字母的顺序印出
gawk.exe "{nlines++}
END {print nlines}"
此程式会将一个档案的总行数印出。
gawk.exe "END {print NR}"
此程式也会将一个档案的总行数印出,但是计算行数的工作由gawk.exe
来做。
gawk.exe "{print NR,$0}"
此程式印出档案的内容时,会在每行的最前面印出行号
---------------------------------
gawk详解
gawk能够用很短的程序对文档里的资料做修改、比较、提取、打印等处理。
它不仅是一个编程语言,它还是Linux系统管理员和程序员的一个不可缺少的工具。
gawk是GNU计划下所做的awk,gawk最初在1986年完成,之后不断地被改进、更新。
gawk包含awk的所有功能。
1)gawk的执行方式
gawk程序很短,则可以将gawk 直接写在命令行
例如:gawk 'pattern/action' input-file1 input-file2 ...
gawk程序较长,则应该将gawk程序存在文件中,用gawk解释器执行
例如:gawk -f script-file input-file1 input-file2 ...
当有多个脚本文件时应当以据执行顺序排列
例如:gawk -f script-file1 -f script-file2 ... input-file1 input-file2 ...
2)模式和动作
在gawk中每一个命令都由两部分组成:模式(pattern)和相应的动作(action)。
只要模式符合,gawk就会执行相应的动作。模式部分yin应该用两个斜杠括起来,动作部分用一对花括号括起来。
例如:
    /pattern1/ {action1 }
    /pattern2/ {action2 }
    /pattern3/ {action3 }
其中模式或动作都能够被省略,但是两个不能同时被省略。
如果模式被省略,则对于作为输入的文件里面的每一行,动作都会被执行。
如果动作被省略,则缺省的动作被执行,既显示出所有符合模式的输入行而不做任何的改动。
3)逻辑和数值运算
gawk基本逻辑运算:
== 相等
!= 不相等
> 大于
< 小于
>= 大于等于
<= 小于等于
例如:gawk '$4 > 100' testfile    (显示文件testfile 中那些第四个字段大于100的记录)
gawk基本数值运算符:
+ 加法
- 减法
* 乘法
/ 除法
^ 乘方
% 求模
例如:gawk '{print $4/2}' testfile    (显示第4个字段被2除的结果)
在gawk中,运算符的优先级和一般的数学运算的优先级一样。如果不确定的话可以用小括号改变优先次序。
4)内部函数
gawk中有各种的内部函数,现在介绍如下:
随机数和数学函数
sqrt(x) 求x的平方根
sin(x) 求x的正弦函数
cos(x) 求x的余弦函数
log(x) 求x的自然对数
int(x) 求x的整数部分
rand() 求0和1之间的随机数
srand(x) 将x设置为rand()的种子数
字符串的内部函数
index(find,in) 在字符串"find"中寻找"in"第一次出现的位置,返回值是字符串"in"出现在字符串find"里面的位置。如果没有超找到则返回0。
length(string) 求出string的长度。
match(string,regexp) 在字符串string中寻找符合regexp的最长、最靠左边(正则表达式默认是贪婪的)的子字符串。
    返回值是regexp在string的开始位置,即index值。
    match函数将会设置系统变量RSTART等于index的值,系统变量RLENGTH等于符合的字符个数。如果不符合,则会设置RSTART为0、RLENGTH为-1。
sprintf(format,expression1,. . . )和C语言的printf类似,但是sprintf并不显示,而是返回字符串。
sub(regexp,replacement,target) 在字符串target中寻找符合regexp的最长、最靠左的地方,以字串replacement代替最左边的regexp。
gsub(regexp,replacement,target) 与sub类似。在字符串target中寻找符合regexp的所有地方,以字符串replacement代替所有的regexp。
substr(string,start,length) 返回字符串string 的子字符串,这个子字符串的长度为length,从第start个位置开始。
    如果没有length ,则返回的子字符串是从第start 个位置开始至结束。
tolower(string) 将字符串string的大写字母改为小写字母。
toupper(string) 将字符串string的小写字母改为大写字母。
I/O的内部函数
close(filename) 将输入或输出的文件filename关闭。
system(command) 此函数允许用户执行操作系统的指令,执行完毕后将回到gawk程序。
5)格式化输出
借用C语言的格式化输出指令,可以让gawk的输出形式更为多样。这时,应该用printf而不是print。
例如:gawk '{printf "%5s likes this language/n",$2 }' testfile
p r i n t f中的%5s 部分告诉gawk 如何格式化输出字符串,也就是输出5个字符长。它的值由
printf 的最后部分指出,在此是第二个字段。/ n是回车换行符。
gawk语言支持的其他格式控制符号如下:
c如果是字符串,则显示第一个字符;如果是整数,则将数字以ASCII字符的形式显示。
d显示十进制的整数。
i显示十进制的整数。
e将浮点数以科学记数法的形式显示。
f将数字以浮点的形式显示。
g将数字以科学记数法的形式或浮点的形式显示。数字的绝对值如果大于等于0.0001则以浮点的形式显示,否则以科学记数法的形式显示。
o显示无符号的八进制整数。
s显示一个字符串。
x显示无符号的十六进制整数。1 0至1 5以a至f表示。
X显示无符号的十六进制整数。1 0至1 5以A至F表示。
%它并不是真正的格式控制字符,% %将显示%。
使用这些格式控制字符时,可以在控制字符前给出数字,以表示你将用的几位或几个字符。
换码控制符
/a 警告或响铃字符。
/b 后退一格。
/f 换页。
/n 换行。
/r 回车。
/t Ta b。
/v 垂直的tab。
1)改变字段分隔符
gawk中,缺省的字段分隔符一般是空格符或TAB。也可以在命令行使用-F选项改变字符分隔符,只需在-F后面跟着你想用的分隔符即可。
例如:gawk -F";"'/root/ {print}' /etc/passwd
2)简单的正则表达式
gawk语言在格式匹配时符合正则表达式。
^ 表示字段的开始。
例如:$3 ~ /^b/    如果第三个字段以字符b开始,则匹配。
$ 表示字段的结束。例如:$3 ~ /b$/    如果第三个字段以字符b结束,则匹配。
. 表示和任何单字符m匹配。例如:$3 ~ /i.m/    如果第三个字段有字符i,则匹配。
| 表示“或”。例如:/cat | CAT/    和cat 或CAT字符匹配。
* 表示字符的零到多次重复。例如:/UNI*X/    和U N X、U N I X、U N I I X、U N I I I X等匹配。
+ 表示字符的一次到多次重复。例如:/UNI+X/    和U N I X、U N I I X等匹配。
/{a,b/} 表示字符a次到b次之间的重复。例如:/ U N I / { 1,3 / } X    和U N I X、U N I I X和U N I I I X匹配(其中的“/”为转义标记)。
? 表示字符零次和一次的重复。例如:/UNI?X/    和UNX 和UNIX匹配。
[] 表示字符的范围。例如:/IM/    和IBM、IDM和IGM匹配。
[^] 表示不在[]中的字符。例如:/I[^DE]M/    和所有的以I开始、M结束的包括三个字符的字符串匹配,除了IDM和IEM之外。
3)BEGIN和END
BEGIN模式用来指明gawk开始处理一个文件之前执行一些动作。BEGIN经常用来初始化数值,设置参数等。
END模式用来在文件处理完成后执行一些指令,一般用作总结或注释。
BEGIN和END中所有要执行的指令都应该用花括号括起来。BEGIN和END必须使用大写。
例如:
    BEGIN { print "Starting the process the file" }
    $1 == "UNIX" {print}
    $2 > 10 {printf "This line has a value of %d",$2 }
    END { print "Finished processing the file. Bye!"}
4)变量
在gawk中,可以用等号"="给一个变量赋值,变量不用事先声明。
变量可以和字段和数值一起使用。
变量也可以作为格式的一部分使用。
内置变量
gawk中有几个十分有用的内置变量:
NR 已经读取过的记录数。
FNR 从当前文件中读出的记录数。
FILENAME输入文件的名字。
FS 字段分隔符(缺省为空格)。
RS 记录分隔符(缺省为换行)。
OFMT 数字的输出格式(缺省为%g)。
OFS 输出字段分隔符。
ORS 输出记录分隔符。
NF 当前记录中的字段数。
5)控制结构
if表达式:
if 表达式的语法:
if (expression){    动作的每一部分用逗号隔开。
commands
}
else{
commands
}
while循环
while 循环的语法:
while (expression){
commands
}
for循环
for 循环的语法如下:
for (initialization; expression; increment) {
commands
}
next和exit
next指令用来告诉gawk处理文件中的下一个记录,而不管现在正在做什么,类似于C中的continue。
gawk运行到exit指令后,就转到程序的末尾去执行END,如果有END的话。
6)数组
gawk语言支持数组结构。数组不必事先初始化。声明一个数组的方法如下:
arrayname = value
请看下面的例子:
#将文件中的行逆向输出
{line = $0 } # remember each line
END {var=NR # output lines in reverse order
while (var > 0){
print line
var--
}
}
7)自定义函数
复杂的gawk程序常常可以使用自己定义的函数来简化。
调用用户自定义函数与调用内部函数的方法一样。
函数的定义可以放在gawk 程序的任何地方。
用户自定义函数的格式:
function name (parameter-list) {
body-of-function
}

注意:awk只能处理文本文件,如果不是文件的话,可以通过管道或是其他重定向方式将数据递交给awk。
print动作的每一部分用逗号隔开。
页: [1]
查看完整版本: Windows上GAWK的使用