文章目录
- 一、awk概述
-
- 1、awk工作原理
- 二、awk的格式
- 三、内置变量演示
-
- 1、【$n】进行演示
- 2、【$0】的演示
- 3、【NF】(多少列) 和 【NR】(多少行)的演示
- 4、面试题
- 5、BEGIN开始和END结尾
- 6、模糊匹配
- 7、关于数值与字符串的比较
- 四、总结
一、awk概述
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。
它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描,过滤,统计汇总等工作,数据可以来自标准输入也可以是管道或文件。
1、awk工作原理
-
当读到第一行时,匹配条件,然后执行指定动作,在接着读取第二行数据处理,不会默认输出。
-
如果没有定义匹配条件,则是默认匹配所有数据行,awk隐含循环,条件匹配多少次,动作就会执行多少次。
-
逐行读取文本,默认以空格或tab键为分割符进行分割,将分割所得的各个字段,保存到内建变量中,并按模式或或条件执行编辑命令。
与sed工作原理相比:
sed命令常用于一整行的处理。而awk比较倾向于将一行分成多个 “ 字段 ” 然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符。(&&“表示"与”、“||表示"或”、"!“表示非”;还可以进行简单的数学运算,如+、一、*、/、%、^分别表示加、减、乘、除、取余和乘方。)
二、awk的格式
格式1: awk 【选项】 '模式或条件{操作} ' 文件名
格式2: awk -f 脚本文件 文件名
1、awk包含几个特殊的内建变量(可直接用)如下所示
内置变量 | 功能 |
---|---|
NF | 当前处理的行的字段个数(就是:有多少列) |
NR | 当前处理的行的行号(就是:有多少行) |
FNR | 读取文件的记录数(行号),从1开始,新的文件重新从1开始计数 |
$0 | 当前处理的行的整行内容(就是:表示一行的内容) |
$n | 当前处理行的第n个字段(就是:第n列) |
FILENAME | 被处理的文件名 |
FS | 指定每行的字段分隔符,默认为空格或制表位(相当于选项 -F ) |
OFS | 输出字段的分隔符,默认也是空格 |
RS | 行分割符。awk从文件上读取资料时,将根据Rs的定义把资料切割成许多条记录,而awk一次仅读取一条记录,预设值是“\n“ |
ORS | 输出分割符,默认也是换行符 |
三、内置变量演示
1、【$n】进行演示
n为数字,数字为及就表示第几列
案例1:结合print进行输出,默认分隔符。
案例2:设定分割符号
案例3:输出时,显示列的空格
案例4:两列之间插入制表符
案例5:设置多个分割符
2、【$0】的演示
$0表示整行
3、【NF】(多少列) 和 【NR】(多少行)的演示
NR:表示该处理的行序号是多少
NF:表示该处理的行,有多少列
案例1:打印每一行的列数
案例2:显示行号
案例3:显示行号,并显示每一行的内容
案例4:打印第二行,不加print也一样,默认就是打印
案例5:打印第二行的第一列
案例6:打印最后一列
案例7:打印总行数
案例8:打印文件最后一行
案例9:加上文字描述行数和列数
4、面试题
案例1:查看本机的ip地址多少,截取出来
案例2:查看本机流量有多少字节
案例3:查看根分区的可用量
5、BEGIN开始和END结尾
逐行执行开始之前执行什么任务,结束之后再执行什么任务,用BEGIN、END。
- BEGIN:一般用来做初始化操作,仅在读取数据记录之前执行一次
- END:一般用来做汇总操作,仅在读取完数据记录之后执行一次
案例1:在打印之前定义字段分割符为冒号
案例2:OFS定义了输出时以什么分隔,$1$2中间要用逗号分隔,因为逗号默认被映射为OFS变量,而这个变量默认是空格
案例2:可以看到当有多个文件时,序号会分别标好每一个文件内容的行号,不同文件会从头开始。(NR会连续在一起)
案例3:RS:指定以什么为换行符,这里指定是冒号,你指定的必须是原文里存在的字符
案例4:把多行合并成一行输出,输出的时候自定义以空格分隔每行,本来默认的是回车键
6、模糊匹配
精确匹配: 可以将要匹配的内容加上双引号。
用~表示包含,用!~表示不包含
7、关于数值与字符串的比较
加上逻辑运算: && ||
案例:打印1-200之间所有能被7整除并且包含数字7的整数数字
四、总结
awk常用操作是提取转换文本文件内容,awk功能十分强大,几乎其它文本处理命令能做的,awk都能做。
此处主要介绍awk的几种内置变量。
- $n:表示截取哪一列,通常和print一起使用
- $0:表示整行内容
- NF:表示该行有多少列
- NR:表示该行的行号
- FNR:表示读取两个文件时,序号会分别从0开始标
- FS:表示读取文件的分隔符(默认空格)
- OFS:表示输入的内容以什么为分割符(默认空格)
- RS:表示读取文件的以什么为换行符(默认\n)
- ORS:表示输出的内容以什么为换行符(默认\n)
- ~:表示包含
- !~:表示不包含