点击勘误issues (opens new window),哪吒感谢大家的阅读
# 1. 基本匹配
正则表达式只是我们用于在文本中检索字母和数字的模式。例如正则表达式 cat
,表示: 字母 c
后面跟着一个字母 a
,再后面跟着一个字母 t
。
"cat" => The cat sat on the mat
正则表达式 123
会匹配字符串 "123"。通过将正则表达式中的每个字符逐个与要匹配的字符串中的每个字符进行比较,来完成正则匹配。
正则表达式通常区分大小写,因此正则表达式 Cat
与字符串 "cat" 不匹配。
"Cat" => The cat sat on the Cat
# 2. 元字符
元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样,而是以某种特殊的含义去解释。有些元字符写在方括号内的时候有特殊含义。 元字符如下:
元字符 | 描述 |
---|---|
. | 匹配除换行符以外的任意字符。 |
[ ] | 字符类,匹配方括号中包含的任意字符。 |
[^ ] | 否定字符类。匹配方括号中不包含的任意字符 |
* | 匹配前面的子表达式零次或多次 |
+ | 匹配前面的子表达式一次或多次 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。 |
{n,m} | 花括号,匹配前面字符至少 n 次,但是不超过 m 次。 |
(xyz) | 字符组,按照确切的顺序匹配字符xyz。 |
| | 分支结构,匹配符号之前的字符或后面的字符。 |
\ | 转义符,它可以还原元字符原来的含义,允许你匹配保留字符 [ ] ( ) { } . * + ? ^ $ \ | |
^ | 匹配行的开始 |
$ | 匹配行的结束 |
# 2.1 英文句号
英文句号 .
是元字符的最简单的例子。元字符 .
可以匹配任意单个字符。它不会匹配换行符和新行的字符。例如正则表达式 .ar
,表示: 任意字符后面跟着一个字母 a
,
再后面跟着一个字母 r
。
".ar" => The car parked in the garage.
# 2.2 字符集
字符集也称为字符类。方括号被用于指定字符集。使用字符集内的连字符来指定字符范围。方括号内的字符范围的顺序并不重要。
例如正则表达式 [Tt]he
,表示: 大写 T
或小写 t
,后跟字母 h
,再后跟字母 e
。
"[Tt]he" => The car parked in the garage.
然而,字符集中的英文句号表示它字面的含义。正则表达式 ar[.]
,表示小写字母 a
,后面跟着一个字母 r
,再后面跟着一个英文句号 .
字符。
"ar[.]" => A garage is a good place to park a car.
# 2.2.1 否定字符集
一般来说插入字符 ^
表示一个字符串的开始,但是当它在方括号内出现时,它会取消字符集。例如正则表达式 [^c]ar
,表示: 除了字母 c
以外的任意字符,后面跟着字符 a
,
再后面跟着一个字母 r
。
"[^c]ar" => The car parked in the garage.
# 2.3 重复
以下元字符 +
,*
或 ?
用于指定子模式可以出现多少次。这些元字符在不同情况下的作用不同。
# 2.3.1 星号
该符号 *
表示匹配上一个匹配规则的零次或多次。正则表达式 a*
表示小写字母 a
可以重复零次或者多次。但是它如果出现在字符集或者字符类之后,它表示整个字符集的重复。
例如正则表达式 [a-z]*
,表示: 一行中可以包含任意数量的小写字母。
"[a-z]*" => The car parked in the garage #21.
该 *
符号可以与元符号 .
用在一起,用来匹配任意字符串 .*
。该 *
符号可以与空格符 \s
一起使用,用来匹配一串空格字符。
例如正则表达式 \s*cat\s*
,表示: 零个或多个空格,后面跟小写字母 c
,再后面跟小写字母 a
,再再后面跟小写字母 t
,后面再跟零个或多个空格。
"\s*cat\s*" => The fat cat sat on the cat.
# 2.3.2 加号
该符号 +
匹配上一个字符的一次或多次。例如正则表达式 c.+t
,表示: 一个小写字母 c
,后跟任意数量的字符,后跟小写字母 t
。
"c.+t" => The fat cat sat on the mat.
# 2.3.3 问号
在正则表达式中,元字符 ?
用来表示前一个字符是可选的。该符号匹配前一个字符的零次或一次。
例如正则表达式 [T]?he
,表示: 可选的大写字母 T
,后面跟小写字母 h
,后跟小写字母 e
。
"[T]he" => The car is parked in the garage.
"[T]?he" => The car is parked in the garage.
# 2.4 花括号
在正则表达式中花括号(也被称为量词 ?)用于指定字符或一组字符可以重复的次数。例如正则表达式 [0-9]{2,3}
,表示: 匹配至少2位数字但不超过3位(0到9范围内的字符)。
"[0-9]{2,3}" => The number was 9.9997 but we rounded it off to 10.0.
我们可以省略第二个数字。例如正则表达式 [0-9]{2,}
,表示: 匹配2个或更多个数字。如果我们也删除逗号,则正则表达式 [0-9]{2}
,表示: 匹配正好为2位数的数字。
"[0-9]{2,}" => The number was 9.9997 but we rounded it off to 10.0.
"[0-9]{2}" => The number was 9.9997 but we rounded it off to 10.0.
# 2.5 字符组
字符组是一组写在圆括号内的子模式 (...)
。正如我们在正则表达式中讨论的那样,如果我们把一个量词放在一个字符之后,它会重复前一个字符。
但是,如果我们把量词放在一个字符组之后,它会重复整个字符组。
例如正则表达式 (ab)*
表示匹配零个或多个的字符串 "ab"。我们还可以在字符组中使用元字符 |
。例如正则表达式 (c|g|p)ar
,表示: 小写字母 c
、g
或 p
后面跟字母 a
,后跟字母 r
。
"(c|g|p)ar" => The car is parked in the garage.
# 2.6 分支结构
在正则表达式中垂直条 |
用来定义分支结构,分支结构就像多个表达式之间的条件。现在你可能认为这个字符集和分支机构的工作方式一样。
但是字符集和分支结构巨大的区别是字符集只在字符级别上有作用,然而分支结构在表达式级别上依然可以使用。
例如正则表达式 (T|t)he|car
,表示: 大写字母 T
或小写字母 t
,后面跟小写字母 h
,后跟小写字母 e
或小写字母 c
,后跟小写字母 a
,后跟小写字母 r
。
"(T|t)he|car" => The car is parked in the garage.
# 2.7 转义特殊字符
正则表达式中使用反斜杠 \
来转义下一个字符。这将允许你使用保留字符来作为匹配字符 { } [ ] / \ + * . $ ^ | ?
。在特殊字符前面加 \
,就可以使用它来做匹配字符。
例如正则表达式 .
是用来匹配除了换行符以外的任意字符。现在要在输入字符串中匹配 .
字符,正则表达式 (f|c|m)at\.?
,表示: 小写字母 f
、c
或者 m
后跟小写字母 a
,后跟小写字母 t
,后跟可选的 .
字符。
"(f|c|m)at\.?" => The fat cat sat on the mat.
# 2.8 定位符
在正则表达式中,为了检查匹配符号是否是起始符号或结尾符号,我们使用定位符。
定位符有两种类型: 第一种类型是 ^
检查匹配字符是否是起始字符,第二种类型是 $
,它检查匹配字符是否是输入字符串的最后一个字符。
# 2.8.1 插入符号
插入符号 ^
符号用于检查匹配字符是否是输入字符串的第一个字符。如果我们使用正则表达式 ^a
(如果a是起始符号)匹配字符串 abc
,它会匹配到 a
。
但是如果我们使用正则表达式 ^b
,它是匹配不到任何东西的,因为在字符串 abc
中 "b" 不是起始字符。
让我们来看看另一个正则表达式 ^(T|t)he
,这表示: 大写字母 T
或小写字母 t
是输入字符串的起始符号,后面跟着小写字母 h
,后跟小写字母 e
。
"(T|t)he" => The car is parked in the garage.
"^(T|t)he" => The car is parked in the garage.
# 2.8.2 美元符号
美元 $
符号用于检查匹配字符是否是输入字符串的最后一个字符。例如正则表达式 (at\.)$
,表示: 小写字母 a
,后跟小写字母 t
,后跟一个 .
字符,且这个匹配器必须是字符串的结尾。
"(at\.)" => The fat cat. sat. on the mat.
"(at\.)$" => The fat cat sat on the mat.
# 3. 简写字符集
正则表达式为常用的字符集和常用的正则表达式提供了简写。简写字符集如下:
简写 | 描述 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配所有字母和数字的字符: [a-zA-Z0-9_] |
\W | 匹配非字母和数字的字符: [^\w] |
\d | 匹配数字: [0-9] |
\D | 匹配非数字: [^\d] |
\s | 匹配空格符: [\t\n\f\r\p{Z}] |
\S | 匹配非空格符: [^\s] |
# 4. 断言
后行断言和先行断言有时候被称为断言,它们是特殊类型的 非捕获组 (用于匹配模式,但不包括在匹配列表中)。当我们在一种特定模式之前或者之后有这种模式时,会优先使用断言。
例如我们想获取输入字符串 $4.44 and $10.88
中带有前缀 $
的所有数字。我们可以使用这个正则表达式 (?<=\$)[0-9\.]*
,表示: 获取包含 .
字符且前缀为 $
的所有数字。
以下是正则表达式中使用的断言:
符号 | 描述 |
---|---|
?= | 正向先行断言 |
?! | 负向先行断言 |
?<= | 正向后行断言 |
?<! | 负向后行断言 |
# 4.1 正向先行断言
正向先行断言认为第一部分的表达式必须是先行断言表达式。返回的匹配结果仅包含与第一部分表达式匹配的文本。
要在一个括号内定义一个正向先行断言,在括号中问号和等号是这样使用的 (?=...)
。先行断言表达式写在括号中的等号后面。
例如正则表达式 (T|t)he(?=\sfat)
,表示: 匹配大写字母 T
或小写字母 t
,后面跟字母 h
,后跟字母 e
。
在括号中,我们定义了正向先行断言,它会引导正则表达式引擎匹配 The
或 the
后面跟着 fat
。
"(T|t)he(?=\sfat)" => The fat cat sat on the mat.
# 4.2 负向先行断言
当我们需要从输入字符串中获取不匹配表达式的内容时,使用负向先行断言。负向先行断言的定义跟我们定义的正向先行断言一样,
唯一的区别是不是等号 =
,我们使用否定符号 !
,例如 (?!...)
。
我们来看看下面的正则表达式 (T|t)he(?!\sfat)
,表示: 从输入字符串中获取全部 The
或者 the
且不匹配 fat
前面加上一个空格字符。
"(T|t)he(?!\sfat)" => The fat cat sat on the mat.
# 4.3 正向后行断言
正向后行断言是用于获取在特定模式之前的所有匹配内容。正向后行断言表示为 (?<=...)
。例如正则表达式 (?<=(T|t)he\s)(fat|mat)
,表示: 从输入字符串中获取在单词 The
或 the
之后的所有 fat
和 mat
单词。
"(?<=(T|t)he\s)(fat|mat)" => The fat cat sat on the mat.
# 4.4 负向后行断言
负向后行断言是用于获取不在特定模式之前的所有匹配的内容。负向后行断言表示为 (?<!...)
。例如正则表达式 (?<!(T|t)he\s)(cat)
,表示: 在输入字符中获取所有不在 The
或 the
之后的所有单词 cat
。
"(?<!(T|t)he\s)(cat)" => The cat sat on cat.
# 5. 标记
标记也称为修饰符,因为它会修改正则表达式的输出。这些标志可以以任意顺序或组合使用,并且是正则表达式的一部分。
标记 | 描述 |
---|---|
i | 不区分大小写: 将匹配设置为不区分大小写。 |
g | 全局搜索: 搜索整个输入字符串中的所有匹配。 |
m | 多行匹配: 会匹配输入字符串每一行。 |
# 5.1 不区分大小写
i
修饰符用于执行不区分大小写匹配。例如正则表达式 /The/gi
,表示: 大写字母 T
,后跟小写字母 h
,后跟字母 e
。
但是在正则匹配结束时 i
标记会告诉正则表达式引擎忽略这种情况。正如你所看到的,我们还使用了 g
标记,因为我们要在整个输入字符串中搜索匹配。
"The" => The fat cat sat on the mat.
"/The/gi" => The fat cat sat on the mat.
# 5.2 全局搜索
g
修饰符用于执行全局匹配 (会查找所有匹配,不会在查找到第一个匹配时就停止)。
例如正则表达式 /.(at)/g
,表示: 除换行符之外的任意字符,后跟小写字母 a
,后跟小写字母 t
。
因为我们在正则表达式的末尾使用了 g
标记,它会从整个输入字符串中找到每个匹配项。
".(at)" => The fat cat sat on the mat.
"/.(at)/g" => The fat cat sat on the mat.
# 5.3 多行匹配
m
修饰符被用来执行多行的匹配。正如我们前面讨论过的 (^, $)
,使用定位符来检查匹配字符是输入字符串开始或者结束。但是我们希望每一行都使用定位符,所以我们就使用 m
修饰符。
例如正则表达式 /at(.)?$/gm
,表示: 小写字母 a
,后跟小写字母 t
,匹配除了换行符以外任意字符零次或一次。而且因为 m
标记,现在正则表达式引擎匹配字符串中每一行的末尾。
"/.at(.)?$/" => The fat cat sat on the mat.
"/.at(.)?$/gm" => The fat cat sat on the mat.
# 常用正则表达式
- 正整数:
^\d+$
- 负整数:
^-\d+$
- 电话号码:
^+?[\d\s]{3,}$
- 电话代码:
^+?[\d\s]+(?[\d\s]{10,}$
- 整数:
^-?\d+$
- 用户名:
^[\w\d_.]{4,16}$
- 字母数字字符:
^[a-zA-Z0-9]*$
- 带空格的字母数字字符:
^[a-zA-Z0-9 ]*$
- 密码:
^(?=^.{6,}$)((?=.*[A-Za-z0-9])(?=.*[A-Z])(?=.*[a-z]))^.*$
- 电子邮件:
^([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4})*$
- IPv4 地址:
^((?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))*$
- 小写字母:
^([a-z])*$
- 大写字母:
^([A-Z])*$
- 网址:
^(((http|https|ftp):\/\/)?([[a-zA-Z0-9]\-\.])+(\.)([[a-zA-Z0-9]]){2,4}([[a-zA-Z0-9]\/+=%&_\.~?\-]*))*$
- VISA 信用卡号码:
^(4[0-9]{12}(?:[0-9]{3})?)*$
- 日期 (MM/DD/YYYY):
^(0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])[- /.](19|20)?[0-9]{2}$
- 日期 (YYYY/MM/DD):
^(19|20)?[0-9]{2}[- /.](0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])$
- 万事达信用卡号码:
^(5[1-5][0-9]{14})*$
# 邮箱
gaozihang-001@gmail.com
只允许英文字母、数字、下划线、英文句号、以及中划线组成
^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$
高子航001Abc@bowbee.com.cn
名称允许汉字、字母、数字,域名只允许英文域名
^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$
# 电话
13012345678
手机号
^1(3|4|5|6|7|8|9)\d{9}$
XXX-XXXXXXX
XXXX-XXXXXXXX
固定电话
(\(\d{3,4}\)|\d{3,4}-|\s)?\d{8}
# 域名
https://google.com/
^((http:\/\/)|(https:\/\/))?([a-zA-Z0-9]([a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}(\/)
# IP
127.0.0.1
((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
# 帐号校验
gaozihang_001
字母开头,允许5-16字节,允许字母数字下划线
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
# 字符校验
# 汉字
高子航
^[\u4e00-\u9fa5]{0,}$
# 英文和数字
^[A-Za-z0-9]+$
# 长度为3-20的所有字符
^.{3,20}$
# 英文字符
# 由26个英文字母组成的字符串
^[A-Za-z]+$
# 由26个大写英文字母组成的字符串
^[A-Z]+$
# 由26个小写英文字母组成的字符串
^[a-z]+$
# 由数字和26个英文字母组成的字符串
^[A-Za-z0-9]+$
# 由数字、26个英文字母或者下划线组成的字符串
^\w+$
# 中文、英文、数字包括下划线
^[\u4E00-\u9FA5A-Za-z0-9_]+$
# 中文、英文、数字但不包括下划线等符号
^[\u4E00-\u9FA5A-Za-z0-9]+$
# 禁止输入含有%&',;=?$"等字符
[^%&',;=?$\x22]+
# 禁止输入含有~的字符
[^~\x22]+
# 数字正则
# 整数
^-?[1-9]\d*$
# 正整数
^[1-9]\d*$
# 负整数
^-[1-9]\d*$
# 非负整数
^[1-9]\d*|0$
# 非正整数
^-[1-9]\d*|0$
# 浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
# 正浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
# 负浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
# 非负浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
# 非正浮点数
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
# 常用正则表达式收集
//正整数
/^[0-9]*[1-9][0-9]*$/;
//负整数
/^-[0-9]*[1-9][0-9]*$/;
//正浮点数
/^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$/;
//负浮点数
/^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$/;
//浮点数
/^(-?\d+)(\.\d+)?$/;
//email地址
/^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$/;
//url地址
/^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$/;
或:^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+!]*([^<>\"\"])*$
//年/月/日(年-月-日、年.月.日)
/^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$/;
//匹配中文字符
/[\u4e00-\u9fa5]/;
//匹配帐号是否合法(字母开头,允许5-10字节,允许字母数字下划线)
/^[a-zA-Z][a-zA-Z0-9_]{4,9}$/;
//匹配空白行的正则表达式
/\n\s*\r/;
//匹配中国邮政编码
/[1-9]\d{5}(?!\d)/;
//匹配身份证
/\d{15}|\d{18}/;
//匹配国内电话号码
/(\d{3}-|\d{4}-)?(\d{8}|\d{7})?/;
//匹配IP地址
/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/;
//匹配首尾空白字符的正则表达式
/^\s*|\s*$/;
//匹配HTML标记的正则表达式
< (\S*?)[^>]*>.*?|< .*? />;
//sql 语句
^(select|drop|delete|create|update|insert).*$
//提取信息中的网络链接
(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
//提取信息中的邮件地址
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
//提取信息中的图片链接
(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
//提取信息中的 IP 地址
(\d+)\.(\d+)\.(\d+)\.(\d+)
//取信息中的中国手机号码
(86)*0*13\d{9}
//提取信息中的中国邮政编码
[1-9]{1}(\d+){5}
//提取信息中的浮点数(即小数)
(-?\d*)\.?\d+
//提取信息中的任何数字
(-?\d*)(\.\d+)?
//电话区号
^0\d{2,3}$
//腾讯 QQ 号
^[1-9]*[1-9][0-9]*$
//帐号(字母开头,允许 5-16 字节,允许字母数字下划线)
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
//中文、英文、数字及下划线
^[\u4e00-\u9fa5_a-zA-Z0-9]+$
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61