程默的博客 » 正则表达式

正则表达式性能优化（高效正则表达式书写）

程默 — Thu, 04 Jul 2013 09:25:59 +0000

这里说的正则表达式优化，主要是针对目前常用的NFA模式正则表达式，详细可以参考：正则表达式匹配解析过程探讨分析（正则表达式匹配原理）。从上面例子，我们可以推断出，影响NFA类正则表达式（常见语言：GNU Emacs,Java,ergp,less,more,.NET语言,
PCRE library,Perl,PHP,Python,Ruby,sed,vi )其实主要是它的“回溯”，减少“回溯”次数（减少循环查找同一个字符次数），是提高性能的主要方法。我们来看个例子：

源字符串：

匹配要求，匹配….标签里面所有内容，包括改标签

常见写法(1)，因为

正则表达式：.*? (测试工具使用了：regexBuddy)

总共花费115步，回溯了：48次。因为我们使用”.”字符，匹配默认情况下除了\n之外所有字符。

方法（2），我们分析特点发现，后面，应该是除了”>”之外都可以字符，然后一对

19步，0次回溯！，步骤只有原先的15%左右，性能几倍的提升了！

从上面我们看到，不同正则表达式，对通用字符配平，性能相差会很大。减少“回溯”是最好的方法，减少回溯其中最主要的方法是：”用最小范围的元字符，尽量避免用过大的元字符！”。一般规律如下：

1、使用正确的边界匹配器（^、$、\b、\B等），限定搜索字符串位置

2、使用具体的元字符、字符类（\d、\w、\s等），少用”.”字符

3、使用正确的量词（+、*、?、{n,m}），如果能够限定长度，匹配最佳

4、使用非捕获组、原子组，减少没有必要的字匹配捕获用(?:)

如：我想匹配一些英文字母，它后面接的是数字。如：abc1234,我可以写 “\w+\d+”，也可以写”[a-zA-Z]+\d+” ，其中第一个\w+会先匹配所有abc1234，然后回溯，匹配满足\d+格式。一共4步，而后面这个只需要2步，步骤减少一半了！好了，今天就先到这里，欢迎大家讨论、交流！

正则表达式、分组、子匹配（子模式）、非捕获子匹配（子模式）

程默 — Mon, 17 Jun 2013 14:25:25 +0000

前面我们知道正则表达式有很多元字符表示匹配次数（量词），都是可以重复匹配前面出现的单个字符次数。有时候，我们可能需要匹配一组多个字符一起出现的次数。这个时候，我们需要分组了。就是用小括号来括起这些字符，指定子表达式(也叫做分组)。然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作。这个时候，可以把括号中一组字符，看作一个整体了。

分组模式举例说明

如：查找字符串中，连续出现多个win字符串的字符。可以这样完成


 
$str = "this is win winwindows!";
 
preg_match_all("/(win)+/",$str,$marr);
 
var_dump($marr);

不用分组模式，同时匹配多个字符，可以吗？ 我们发现以前操作符号：[win]+，尽管可以匹配到winwin字符，因为它代表是有w,i,n组合的一个或者多个字符，不会限制顺序。所见它会匹配到象：wwin,www,inw等等，只要是这3个字符组成的，多个字符都匹配成功了。

上面怎么匹配到，每一个有2个结果呢？这就是子模式（子匹配），默认除了可以将多个字符组合一个整体，另外还会把括号，括起来的这部分表达式存储到一个临时缓冲区中，以便后面正则表达式调用。上面这个例子里面，我们不需要，后期调用的。因此，怎么样屏蔽掉这个子表达式捕获内容呢？只需要在：前加上”?:” 即可。我们看看下面例子正则表达式分组非捕获模式。

 

非捕获模式优点有哪些呢？从上面看，可以减少捕获，也就会减少匹配次数。因此，在不必要分组表达式加入非捕获前缀”?:”，可以节省内存开销，并且可以提升匹配速度！

刚刚说到了正则表达式分组，默认情况会将子表达式捕获内容，存储到一个缓存区。以便后续调用。那这个是什么样情况呢？其实，这个是正则表达式的引用。所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容按顺序存储。存储子匹配的缓冲区编号从1开始，最多可以一般存储为9。以便后面表达式引用该值，又叫后向引用。

我们看下下面例子，查找一个字符串中，互不相邻，出现多次系统单词：add。


$str = "add123456addasdf";
 
preg_match_all('/(add)\d+\1/',$str,$marr);
 
var_dump($marr);

反向引用，常用来处理一些处理一些特殊匹配情况。如：查找字符串中，不相邻重复字符串。查找html一对标签中内容。特别分析html非常常见了(注意，如果使用了反向引用，前面不能屏蔽子匹配捕获，也就是不能加”?:"前缀了)。经常会用：


$str = file_get_contents('http://blog.chacuo.net/');
preg_match_all('/<(\S+)[^>]*>[^<]*<\/\1>/',$str,$marr);
 
var_dump($marr);
 
// (\S+) 表示非显示字符之外所有字符，一般作为html tag名称
// tag格式一般为  后面[^>]* 匹配tag里面所有其它属性
// 后面的[^<]* 表示 中间内容 表示中间内容，到"<"结束，因此匹配所有[^<]* 字符
// 最后的<\/\1> "\/" 转义"/"字符，后面的"\1" 表示反向应用前面的(\S+)

以上是正则表达式使用比较重要的，分组，反向匹配，以及非捕获分组说明及实例。希望对要属性改功能朋友有所帮助。同时欢迎朋友们交流！

正则表达式断言、巡视（Assertions）、正向断言、反向断言

程默 — Fri, 14 Jun 2013 15:50:00 +0000

断言（Assertions）在正则表达式概念里面难理解，它通常指的是在目标字符串的当前匹配位置进行的一种测试但这种测试并不占用目标字符串，也即不会移动模式在目标字符串中的当前匹配位置。详细可以看看,正则表达式匹配解析过程探讨分析（正则表达式匹配原理），里面提到“零宽度“很多元字符，只是对特殊位置进行匹配，它们可以理解为断言。

断言元字符

常见断言元字符有： \b, \B, \A, \Z, \z, ^ ,$ 它们只是表示特殊位置，各自作用如有字符串AB,带位置表示为：₀A₁B₂

元字符意义(以上面带位置字符串说明)

^ 行首，字符串首表示位置0

$ 行尾，字符串尾部，表示位置2

\b 字分界线，可以表示：0,2位置

\B 非字分界线，可以表示1位置

\A 目标的开头（独立于多行模式）表示位置0

\Z 目标的结尾或位于结尾的换行符前（独立于多行模式）表示位置2

\z 目标的结尾（独立于多行模式）表示位置2

\G 目标中的第一个匹配位置

A,Z,z,G很少使用

元字符	意义(以上面带位置字符串说明)
^	行首，字符串首表示位置0
$	行尾，字符串尾部，表示位置2
\b	字分界线，可以表示：0,2位置
\B	非字分界线，可以表示1位置
\A	目标的开头（独立于多行模式）表示位置0
\Z	目标的结尾或位于结尾的换行符前（独立于多行模式）表示位置2
\z	目标的结尾（独立于多行模式）表示位置2
\G	目标中的第一个匹配位置
A,Z,z,G很少使用

这些断言的测试都是一些基于当前位置的测试，断言还支持更多复杂的测试条件。更复杂的断言以子模式方式来表示，它包括先行（前向)断言(Lookahead assertions)和后行（后向）断言(Lookbehind assertions)，这些断言判断只做匹配判断条件，不会记录在匹配结果中，不会匹配字符。

先行断言、正向断言、正向巡视（Lookahead assertions）

先行断言，常有表示（?=pattern)，从当前匹配位置开始测试后面匹配字符串是否成立，还有(?!pattern)这样两种格式，我们来看看一个例子。源字符串：“abc100”，正则表达式是：
/[a-z]+(?=\d+)/ ，我们分析下过程如下图：

首先由正则表达式字符 [a-z]+ 取得控制权,匹配字符：”abc”，位置从”0”开始匹配，变成3。从该位置测试/d+是否成立。匹配到字符100，返回成立。因此正则表达式正向断言成功。返回匹配字符串”abc”

(?!pattern) 只是，正向匹配，当后面没有匹配成功，将返回真。以下是系统源字符串：abc100，测试结果如下：

后行断言、反向断言、反向巡视（Lookbehind assertions）

后行断言，常见表达式是：(?<=pattern)或者(?

首先由正则表达式字符 /\w+/取得控制权,匹配字符：”abc100”，位置从”0”开始匹配，匹配到6个字符。从该位置0检测左变\w匹配失败。因此/\w+/从字符b开始匹配到”bc100”，测试它左侧有字符”a”，反向断言正确。因此匹配到字符串“bc100”,(?

后记：从这篇文章，我们发现搜索特点都是从左到有，一般正向断言放到，正则表达式后，反向断言放到匹配正则表达式前。但是，这里也可以放到前或后。这里就不再举例。欢迎交流讨论！

正则表达式匹配解析过程探讨分析（正则表达式匹配原理）

程默 — Fri, 14 Jun 2013 10:03:35 +0000

已经有多篇关于正则表达式介绍的文章，随着我们越来越多使用正则表达式，想对性能做优化、减少我们正则表达式书写匹配Bug。我们不得不进一步深入了解正则表达式执行过程了。下面我们一起学习，分析下正则表达式执行过程。我们会用regexbuddy测试工具分解执行过程，具体工具使用，可以看：正则表达式性能测试工具推荐、优化工具推荐(regexbuddy推荐)。要了解正则表达式解析过程前，我们先来熟悉几个概念。

常见正则表达式引擎

引擎决定了正则表达式匹配方法及内部搜索过程，了解它至关重要的。目前主要流行引擎有：DFA,NFA两种引擎，我们比较区分下。

引擎区别点

DFA
Deterministic finite automaton
确定型有穷自动机 DFA引擎它们不要求回溯（并因此它们永远不测试相同的字符两次），所以匹配速度快！DFA引擎还可以匹配最长的可能的字符串。不过DFA引擎只包含有限的状态，所以它不能匹配具有反向引用的模式，还不可以捕获子表达式。代表性有：awk,egrep,flex,lex,MySQL,Procmail

NFA
Non-deterministic finite automaton　非确定型有穷自动机，又分为传统NFA,Posix NFA 传统的NFA引擎运行所谓的“贪婪的”匹配回溯算法（longest-leftmost），以指定顺序测试正则表达式的所有可能的扩展并接受第一个匹配项。传统的NFA回溯可以访问完全相同的状态多次，在最坏情况下，它的执行速度可能非常慢，但它支持子匹配。代表性有：GNU Emacs,Java,ergp,less,more,.NET语言,
PCRE library,Perl,PHP,Python,Ruby,sed,vi等，一般高级语言都采用该模式。

DFA以字符串字符，逐个在正则表达式匹配查找，而NFA以正则表达式为主，在字符串中逐一查找。尽管速度慢，但是对操作者来说更简单，因此应用更广泛！下面所有以NFA引擎举例说明，解析过程！

引擎	区别点
DFA Deterministic finite automaton 确定型有穷自动机	DFA引擎它们不要求回溯（并因此它们永远不测试相同的字符两次），所以匹配速度快！DFA引擎还可以匹配最长的可能的字符串。不过DFA引擎只包含有限的状态，所以它不能匹配具有反向引用的模式，还不可以捕获子表达式。代表性有：awk,egrep,flex,lex,MySQL,Procmail
NFA Non-deterministic finite automaton　非确定型有穷自动机，又分为传统NFA,Posix NFA	传统的NFA引擎运行所谓的“贪婪的”匹配回溯算法（longest-leftmost），以指定顺序测试正则表达式的所有可能的扩展并接受第一个匹配项。传统的NFA回溯可以访问完全相同的状态多次，在最坏情况下，它的执行速度可能非常慢，但它支持子匹配。代表性有：GNU Emacs,Java,ergp,less,more,.NET语言, PCRE library,Perl,PHP,Python,Ruby,sed,vi等，一般高级语言都采用该模式。

解析引擎眼中的字符串组成

对于字符串“DEF”而言，包括D、E、F三个字符和 0、1、2、3 四个数字位置：₀D₁E₂F₃，对于正则表达式而言所有源字符串，都有字符和位置。正则表达式会从0号位置，逐个去匹配的。

占有字符和零宽度

正则表达式匹配过程中，如果子表达式匹配到的是字符内容，而非位置，并被保存到最终的匹配结果中，那么就认为这个子表达式是占有字符的；如果子表达式匹配的仅仅是位置，或者匹配的内容并不保存到最终的匹配结果中，那么就认为这个子表达式是零宽度的。占有字符是互斥的，零宽度是非互斥的。也就是一个字符，同一时间只能由一个子表达式匹配，而一个位置，却可以同时由多个零宽度的子表达式匹配。常见零宽字符有：^，(?=)等

正则表达式匹配过程详解实例

我们掌握了上面几个概念，我们接下来分析下几个常见的解析过程。结合使用软件regexBuddy来分析。

Demo1: 源字符DEF,对应标记是：₀D₁E₂F₃，匹配正则表达式是：/DEF/

过程可以理解为：首先由正则表达式字符 /D/ 取得控制权，从位置0开始匹配，由 /D/ 来匹配“D”，匹配成功，控制权交给字符 /E/ ；由于“D”已被 /D/ 匹配，所以 /E/ 从位置1开始尝试匹配，由 /E/ 来匹配“E”，匹配成功，控制权交给 /F/ ；由 /F/ 来匹配“F”，匹配成功。

Demo2:源字符DEF,对应标记是：₀D₁E₂F₃，匹配正则表达式是：/D\w+F/

 
过程可以理解为：首先由正则表达式字符 /D/ 取得控制权，从位置0开始匹配，由 /D/ 来匹配“D”，匹配成功，控制权交给字符 /\w+/ ；由于“D”已被 /D/ 匹配，所以 /\w+/ 从位置1开始尝试匹配，\w+贪婪模式，会记录一个备选状态，默认会匹配最长字符，直接匹配到EF，并且匹配成功，当前位置3了。并且把控制权交给 /F/ ；由 /F/ 匹配失败，\w+匹配会回溯一位，当前位置变成2。并把控制权交个/F/，由/F/匹配字符F成功。因此\w+这里匹配E字符,匹配完成！

Demo3:源字符DEF,对应标记是：₀D₁E₂F₃，匹配正则表达式是：/^(?=D)[D-F]+$/

 
过程可以理解为：元字符 /^/ 和 /$/ 匹配的只是位置，顺序环视 /(?=D)/ （匹配当前位置，右边是否有字符“D”字符出现）只进行匹配，并不占有字符，也不将匹配的内容保存到最终的匹配结果，所以都是零宽度的。首先由元字符 /^/ 取得控制权，从位置0开始匹配， /^/ 匹配的就是开始位置“位置0”，匹配成功，控制权交给顺序环视 /(?=D)/；/(?=D])/ 要求它所在位置右侧必须是字母”D”才能匹配成功，零宽度的子表达式之间是不互斥的，即同一个位置可以同时由多个零宽度子表达式匹配，所以它也是从位置0尝试进行匹配，位置0的右侧是字符“D”，符合要求，匹配成功，控制权交给 /[D-F]+/ ；因为 /(?=D)/ 只进行匹配，并不将匹配到的内容保存到最后结果，并且 /(?=D)/ 匹配成功的位置是位置0，所以 /[D-F]+/ 也是从位置0开始尝试匹配的， /[D-F]+/ 首先尝试匹配“D”，匹配成功，继续尝试匹配，直到匹配完”EF”，这时已经匹配到位置3，位置3的右侧已没有字符，这时会把控制权交给 /$/，元字符 /$/ 从位置3开始尝试匹配，它匹配的是结束位置，也就是“位置3”，匹配成功。此时正则表达式匹配完成，报告匹配成功。匹配结果为“DEF”，开始位置为0，结束位置为3。其中 /^/ 匹配位置0， /(?=D)/ 匹配位置0， /[D-F]+/ 匹配字符串“DEF”， /$/ 匹配位置3。

后记：上面这几个例子，我们分析了正则表达式普通匹配，还有回溯过程，然后零宽度字符，匹配过程。当然，给出的例子比较简单，实际过程中会遇到更长，更复杂的正则表达式。但是，思想是类似的。只要我们把我解析原理，都可以逐一分解的。好了，就到这里，欢迎交流！

正则表达式性能测试工具推荐、优化工具推荐(regexbuddy推荐)

程默 — Thu, 13 Jun 2013 14:59:17 +0000

前不久，我们推荐了个正则表达式入门学习工具。正则表达式工具推荐（学习工具、测试工具），今天我们看下，正则表达式的性能测试工具。这里我们先说下，为什么需要这样的工具，这个工具有什么作用呢？

为什么需要性能测试工具

我们都知道，正则表达式使用进行搜索查找，没有字符串直接查找快！而且性能是几何倍数下降。那么，为什么正则表达式速度会比字符串搜索慢呢。我们来看看，正则表达式查找字符串的匹配过程吧。正则表达式由一些元字符，普通字符，量词字符组合成。默认情况下，这些量词元字符（*,+,?)都是贪婪模式，会最大长度匹配字符串。我们知道，正则表达式往往搜索路径会有多个，我们看看，下面匹配过程。就知道，主要影响正则表达式执行性能有哪些了。

正则表达式匹配过程如：\d+abc，元字符是：”12345bdc”，查找会从左向右进行，\d+，贪婪模式，一下子匹配到12345，然后bdc与\d+不能匹配，”abc”中,”a”字符，开始匹配”bdc”，发现匹配失败。正则表达式开始回溯匹配（贪婪模式量词开始逐一减少匹配字符长度)，\d+只匹配”1234”，”5bdc”与”abc”匹配，任然失败。\d+继续减少匹配长度为：”123”，”45bdc”与”abc”匹配，任然失败。继续回退，直到\d+匹配”1”，用”2345bdc”与”bdc”匹配，任然失败。整个匹配就失败了。

从上面过程中，我们发现，每次回溯，要重新操作匹配因此匹配搜索次数，直接影响正则表达式的性能。做正则表达式性能优化，一般就是优化查询的次数。这个是我们分析过程，如果有个工具能够实实在在看到每一步匹配过程，对于我们优化正则表达式将带来太多方便了。这里介绍工具是：regexbuddy软件，它就是一个实实在在看到匹配过程工具。

regexbuddy工具怎么样使用，使用介绍

1、安装完regexbuddy
该工具支持多种程序语言正则表达式，如：perl,pcre,javascript,python,ruby,c#,java等等，还能自动生成程序代码，并且内部带有大量的常用正则表达式。
2、一般切换到side by side：
3、匹配过程
从上面一个匹配看，这个简单一个匹配，搜索了8次，进行了不断查找。如果我们已经准确知道自己要匹配什么样字符，我们可以对源正则表达式修改下，减少匹配次数。就达到优化正则表达式目的，提高匹配效率！

后记：这个工具是不是很强大呢，你知道在baidu搜索，该关键字：regexbuddy，就可以方便下载到。通过该工具，对我们写出好的高性能正则表达式确实能带来很大帮助。有时候可能一个小小修改，自己程序正则表达式匹配速度可能几个数量级的提升。好了，欢迎大家交流，你有好的工具、方法，欢迎留言，可以给更多朋友分享！

正则表达式单行、多行模式简介（使用说明）

程默 — Wed, 12 Jun 2013 14:13:00 +0000

继上几篇正则表达式相关说明（详情：正则表达式 )，我们今天继续讨论下，它的单行，多行模式使用，及容易出现错误地方。单行，多行模式，都是正则表达式的模式修饰符里面出现的参数。目前常用正则表达式都有该使用选项，如：javascript 正则表达式，一般是：”/正则表达式匹配字符/修饰符“ ，最后一个”/” 后面是修饰符。然后，php也是类似的，c#，python等，一般调用正则表达式的匹配函数，都有一个另外选项的，设置模式。

单行、多行模式容易出现理解错误

为什么说，容易出现理解错误呢，它们英文对应说明是：SingleLine ，MultiLine，刚好是单行、多行意思。因此，很多朋友就会从字面理解里面，得出以下结论：（哈哈、刚刚使用，我也是这些朋友中一员）

1、单行，就是从头到尾匹配，多行就是如果匹配字符串，里面有换行符，就匹配到之前

2、单行跟多行是冲突的，一次只能指定一个选项，不能同时使用

这样来理解其实，很容易就会这样的。我们来看看，官方手册里面怎么说的。

单行、多行模式官方解释

模式符描述

s(单行) 如果设置了这个修饰符, 模式中的点号元字符匹配所有字符, 包含换行符. 如果没有这个修饰符, 点号不匹配换行符

m(多行) 目标字符串是由单行字符组成的(然而实际上它可能会包含多行), “行首”元字符(^)仅匹配字符串的开始位置, 而”行末”元字符($)仅匹配字符串末尾。当这个修饰符设置之后, “行首”和”行末”就会匹配目标字符串中任意换行符（\n)之前或之后

模式符	描述
s(单行)	如果设置了这个修饰符, 模式中的点号元字符匹配所有字符, 包含换行符. 如果没有这个修饰符, 点号不匹配换行符
m(多行)	目标字符串是由单行字符组成的(然而实际上它可能会包含多行), “行首”元字符(^)仅匹配字符串的开始位置, 而”行末”元字符($)仅匹配字符串末尾。当这个修饰符设置之后, “行首”和”行末”就会匹配目标字符串中任意换行符（\n)之前或之后

通过上面说明，其实这2个修饰符都只是，修改正则表达式常见元字符的匹配范围了。如果加”s”修饰符,元字符”.” 将能够匹配换行符(\n)，如果加”m”修饰符，元字符”$”，将只匹配到”\n”字符前；元字符”^”，将匹配到”\n”字符后。我们还是举例说明吧！（下面关于正则表达式?字符，可以看看前面一节:正则表达式(regex) 贪婪模式、懒惰模式使用)

举例，看单行应用


///读取hao123.com首页
///并且去掉里面script代码
 
/**
 *去掉script标签*
 * @author chengmo
 * @copyright http://blog.chacuo.net/
 * @param string $content 原字符串 
 * @param int $style 匹配模式
 * @return string
 */
function remove_script($content,$style=1)
{
	$reg = $style == 1?"%.*?%":"%.*?%s";
 
	return preg_replace($reg,"",$content);
}
 
$content = file_get_contents('http://www.hao123.com');
echo remove_script($content);

&nbsp;

举例，看多行应用


///读取hao123.com首页
///读取meta标签内容
 
/**
 *读取meta标签内容*
 * @author chengmo
 * @copyright http://blog.chacuo.net/
 * @param string $content 原字符串 
 * @param int $style 匹配模式
 * @return string
 */
function read_meta($content,$style=1)
{
	$reg = $style == 1?"%^%":"%^\s+$%m";	
	preg_match_all($reg,$content,$arr);
	return $arr;
}
 
$content = file_get_contents('http://www.hao123.com');
var_dump(read_meta($content));

后记：s，m 修饰符只对，几个特殊元字符有改变。如果你正则表达式中没有那几个元字符。开启s,m字符前后将没有什么变化的。对于上面读取hao123.com代码，我们可以继续同时使用s,m模式。如：”%.*?(^currentProfile.*$).*?%sm” ，匹配所有script标签，并且里面js代码，有一行以curentProfile开头字符串。（以下是正则表达式，单行多行一起使用）

正则表达式(regex) 贪婪模式、懒惰模式使用

程默 — Tue, 11 Jun 2013 14:26:02 +0000

正则表达式贪婪匹配模式，对于初学者，往往也很容易出错。有时候需要匹配一个段代码内容，发现匹配与想要不一致。发现原来，跟贪婪模式有关系。如下，我们看下例子：

什么是贪婪模式

字符串有: “
abd
bcd
”，我们想匹配
…
内容，正则表达式如下：

1、h3开头与结尾，”
待添加
”
都作为普通字符

2、中间可以出现任意字符，个数可以是0个或者多个，正则表达式可以用：.* ，“.”代表任意字符，默认模式不匹配换行,”*” 重复前面字符0个或者多个。

3、最终我们考虑结果将是：”
.*
” ，也可以是：”
.{0,}
” ｛｝代表，重复前面指定个数字符，以下用到是，正则表达式调试工具截图，软件可以看：正则表达式工具推荐（学习工具、测试工具）

2种结果都一样，这是我们不希望得到的，我们希望从左边开始，第一个出现，就开始匹配。以上这种模式，是贪婪模式，也是正则表达式默认以这个方法匹配。表示重复字符，操作符，默认都是贪婪模式，如：.*,.+,.{1,},.{0,} 都会匹配最大长度字符。正则表达式元字符，量词默认首先最大匹配字符串，这些量词有：+,*,?,{m,n} 。一开始匹配，就直接匹配到最长字符串。

什么是懒惰模式

既然上面几种，表示字符重复个数，元字符默认都是贪婪模式。如果，我们需要最小长度匹配，也就是懒惰模式，怎么样写正则表达式呢？其实，正则表达式里面通用方法是，在表示重复字符元字符，后面加多一个”?”字符即可。上面正则表达式可以写成：”

.*?

”，或者”

.{0,}?

” 都可以。

懒惰模式，就匹配到我们需要字符串了。

总结：正则表达式，表示字符串重复个数元字符，’?,+,*,{}’ 默认都会选择贪婪模式，会最大长度匹配字符串，而要切换到懒惰模式，就只是在该元字符，后面加多一个”?” 即可切换到非贪婪模式（懒惰模式）。

正则表达式工具推荐（学习工具、测试工具）

程默 — Mon, 10 Jun 2013 15:25:41 +0000

我们学习正则表达式，有个好的工具，对于我们初学者还是不错的选择。这里推荐大家使用：RegExBuilder工具，该工具支持正则表达式多种扩展类型匹配方式，包括：单行，多行，从右向左，忽略大小写等。匹配结果直观显示。截图如下：

将原始字符串输入，就可以在正则表达式窗口写入表达式，一边写一边有提示字符。如果有出错，还有错误提示。下面就会显示匹配到的结果。非常方便！该工具，可以搜索：regExbuilder ，有好的工具，欢迎交流！

正则表达式（regex)入门、元字符(特殊字符)、学习提高、学习实例

程默 — Mon, 10 Jun 2013 10:22:48 +0000

什么是正则表达式呢？

正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），它是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。几乎在各种计算机编程语言中都有用到。可以分为普通正则表达式、扩展正则表达式、高级正则表达式。普通正则表达式在linux shell中常用到，高级正则表达式语法规范，基本由perl演化而来。目前常见程序语言（php,perl,python,java,c#)都支持高级正则表达式。

我们为什么要学习正则表达式？

高级程序语言的正则表达式几乎都从perl语言发展而来，因此，语法几乎一致。你学好了，一门正则表达式语言。几乎在所有程序语言中就可以用到。就像，我知道sql语法，后端mysql,mssql几乎都通用。这个也是我们需要学好正则表达式一个原因，通用性。另外一个原因是：正则表达式强大的文本匹配功能。很多文本匹配处理，如果没有正则表达式，还真的很难做出来。如：从一段字符串，读出手机号格式，我们如果用字符串查找，需要做循环，需要写判断。估计耗费不少代码，开发时间。如果用正则表达式，就一行代码就可以了。匹配所有成对的：html标签，如果要做这个，我们发现非常复杂，要处理层次，要匹配标签。一般同人短短几个小时可能完成不了。如果用正则表达式，估计也就几分钟而已。

正则表达式字符串格式

既然我们知道正则表达式重要性，通用性。那么我们对常见格式可以了解下。一般正则表达式由：普通字符+特殊字符（元字符）一起组成的字符串。如：匹配“ab开头，后面紧跟数字字符串“ “ab\d+” 这其中ab就是普通字符，\d代表可以是0-9数字，+代表前面字符可以出现1次或以上。哈哈，看起来还真的很容易吧！

正则表达式无论是普通还是扩展还是高级正则表达式。不同之处，可能在特殊字符方面有些不同。很多特殊字符，可以组合，形成一套新匹配规则。这里就不说太深了。我们一般只要知道它的常见元字符。基本上常见正则表达式就可以写出来了。

以下是javascript 正则表达式常见的元字符：

字符描述

\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，’n’ 匹配字符 "n"。’\n’ 匹配一个换行符。序列 ‘\\’ 匹配 "\" 而 "\(" 则匹配 "("。

^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。

$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。

* 匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。

+ 匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

? 匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。

{n} n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 "Bob" 中的 ‘o’，但是能匹配 "food" 中的两个 o。

{n,} n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 "Bob" 中的 ‘o’，但能匹配 "foooood" 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。

{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。

? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，’o+?’ 将匹配单个 "o"，而 ‘o+’ 将匹配所有 ‘o’。

. 匹配除 "\n" 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]‘ 的模式。

(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘$‘ 或 ‘$’。

(?:pattern) 匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如， ‘industr(?:y|ies) 就是一个比 ‘industry|industries’ 更简略的表达式。

(?=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， ‘Windows (?=95|98|NT|2000)’ 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern) 负向预查，在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如’Windows (?!95|98|NT|2000)’ 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始

x|y 匹配 x 或 y。例如，’z|food’ 能匹配 "z" 或 "food"。’(z|f)ood’ 则匹配 "zood" 或 "food"。

[xyz] 字符集合。匹配所包含的任意一个字符。例如， ‘[abc]‘ 可以匹配 "plain" 中的 ‘a’。

[^xyz] 负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]‘ 可以匹配 "plain" 中的’p'。

[a-z] 字符范围。匹配指定范围内的任意字符。例如，’[a-z]‘ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]‘ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。

\b 匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 "verb" 中的 ‘er’。

\B 匹配非单词边界。’er\B’ 能匹配 "verb" 中的 ‘er’，但不能匹配 "never" 中的 ‘er’。

\cx 匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。

\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。

\f 匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于 \x0a 和 \cJ。

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于 \x09 和 \cI。

\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]‘。

\W 匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]‘。

\xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如， ‘\x41′ 匹配 "A"。’\x041′ 则等价于 ‘\x04′ & "1"。正则表达式中可以使用 ASCII 编码。.

\num 匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1′ 匹配两个连续的相同字符。

\n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。

\nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。

\nml 如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。

\un 匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，’n’ 匹配字符 "n"。’\n’ 匹配一个换行符。序列 ‘\\’ 匹配 "\" 而 "\(" 则匹配 "("。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 "Bob" 中的 ‘o’，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 "Bob" 中的 ‘o’，但能匹配 "foooood" 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，’o+?’ 将匹配单个 "o"，而 ‘o+’ 将匹配所有 ‘o’。
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]‘ 的模式。
(pattern)	匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘\(‘ 或 ‘\)’。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， ‘industr(?:y\|ies) 就是一个比 ‘industry\|industries’ 更简略的表达式。
(?=pattern)	正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， ‘Windows (?=95\|98\|NT\|2000)’ 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	负向预查，在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如’Windows (?!95\|98\|NT\|2000)’ 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x\|y	匹配 x 或 y。例如，’z\|food’ 能匹配 "z" 或 "food"。’(z\|f)ood’ 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， ‘[abc]‘ 可以匹配 "plain" 中的 ‘a’。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]‘ 可以匹配 "plain" 中的’p'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，’[a-z]‘ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]‘ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 "verb" 中的 ‘er’。
\B	匹配非单词边界。’er\B’ 能匹配 "verb" 中的 ‘er’，但不能匹配 "never" 中的 ‘er’。
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]‘。
\W	匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]‘。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如， ‘\x41′ 匹配 "A"。’\x041′ 则等价于 ‘\x04′ & "1"。正则表达式中可以使用 ASCII 编码。.
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1′ 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

从上面元字符里面，我们看到，很多元字符，实际上可以代表一组普通字符。因此，我们要匹配一些字符串，正则表达式往往会有很多种。如：匹配0-9数字，可以用[0-9],\d,[0123456789] ，这样3种都可以，条条大路通罗马，都是对的。那么那一种正则表达式更好呢，性能更高呢，匹配速度更快呢？通过10万次循环匹配，发现几种几乎相差不大，\d速度比[0-9快，[0-9]比[0123456789]快。从正则表达式精简]程度方面，\d最简单。使用时候，我们尽量用代表字符集元字符去匹配。精简且速度快！

怎么样书写正则表达式呢？

我们写正则表达式，都是从分析匹配字符串特点开始，然后逐步补充其它元字符，普通字符。匹配从左到右。

例如：我们要匹配一个手机号码。

1. 分析字符串特点，手机号码是数字，并且是以1开头，11位长

2.可以写”1\d” 1开头，后面跟着数字也可以是：1[0-9]

3.数字长度是11位，继续补充1\d{10} ，后面数字长11字符，也可以是：1[0-9]{10} ；{}里面数字，表示它左边字符可以重复出现次数

4.所有字符必须是11位，因此头尾直接必须满足条件，因此可以是：^1\d{10}$ 了。

例如：我们匹配QQ号码

1.分析QQ号码特点是，号码是最少是5位数，首位字符非0，最大长度，目前到11位了

2.可以先定义首位字符，[1-9]\d 首位字符是1到9，后面是字符

3.后面字符个数在4到10位 [1-9]\d{4,10}

4.所有字符串必须都满足上面匹配，因为可以写成：^[1-9]\d{4,10}

例如：匹配IP地址

1.分析ip结构是，每节 0-255，中间用”.”分割，一共有4节

2.首先我们写第一个0-255 ，可以分解为0-9 一位数,10-99两位数,100-199三位数,200-249三位数第2节,250-255第四节

[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5] “|”表示或者，计算优先级最低，左右两边可以是多个元字符普通字符组合字符串为一个整体。

3.这样的字符，有三次重复，中间加”.” ，所以结果是：

[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]\. ，因为是点字符是元字符，所有需要转义。这样是不是可以了呢，我们发现有问题，”|”优先级最低，这样会把最后\.字符表，组合为：“25[0-5] \.”了。因此，应该是前面几种情况，后面跟个”.”字符，正确是：([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\. ，这样就达到要求了。我们会发现，实际上每家一个()字符，都一个子匹配，会在匹配结果里面出现()内容。这里我们加()目的是，让优先计算，因此不需要里面子匹配内容。我们可以加忽略子匹配内容字符：?: ，结果将变为：(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.

4.一段已经匹配到了，然后我们这样需要重复三次，我们可以直接重复上一个表达式3次：

方法一：(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.

方法二：把第一段作为分组，重复3次 ((?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3} ，然后同样忽略子匹配结果，可以变为：

(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3} 哈哈，看到这个表达式是不是很晕了，其实一个长的表达式，都是从一点一点加上去的。这个利用到，重复次数，将结果简化不少了。

5.最后还有一段0-255匹配

(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]) ，也就是在后面加多一个0-255匹配即可，然后在上面再加上头尾限定符，变成了：^(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$

下面一个图，是读一段文字里面，所有IP个格式地址

其中(?=……)是正向匹配，搜索左边字符串，并且该字符串右边必须满足?=后面匹配成功的才匹配成功！

好了，写了这么些例子，发现一口气能从很简单正则表达式，匹配到这么长的表达式了。是不是感觉有些晕了，其实不奇怪，长的正则表达式都是从简单正则表达式得到。逐步加上去了。欢迎讨论交流！

正则表达式（regex)或操作符”|“使用易出现功能Bug

程默 — Sun, 09 Jun 2013 11:05:27 +0000

接上一篇：正则表达式（regex)错误使用导致功能漏洞，我们继续梳理，正则表达式错误使用，导致功能设计漏洞（bug），做web方面，需要掌握的知识很多，网站开发这项工作，在国内也就10多年，很多开发人员，都是通过：培训(自学) ->模仿->做项目，这样一个过程。很多就是修修改改后，就成为了web开发工程师。这行入门低，很容易上手。但是想成为大师级的，还是很不容易。需要学习，掌握的知识几十门。而对于刚刚入门同人，很多时候因为缺乏系统学习，理论支持。导致提升有些心有余而力不足啦！因此，出现这些或多或少的功能设计漏洞，是很常见的！

好了，有些跑题了，在做代码走查时候，这类漏洞也是时常出现。我们看下，下面代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$user="bcd123张三";
///匹配用户名中出现abc还有bcd开头，后面紧跟是数字字符
 
preg_match_all("/abc|bcd\d+/",$user,$match);
var_dump($match);
 
/*结果是
array(1) {
  [0]=>
  array(1) {
    [0]=>
    string(6) "bcd123"
  }
}
*/
查找所有页面出现abc或者bcd开头，后面紧跟数字字符串。通过上面，我们看，正确匹配到bcd123，如果我们输入:$user = “abc123张三”，发现不能匹配到了。原因是”|”字符，优先级最低，以上写法会变成：匹配abc 或者是bcd\d+ 字符串。

以上图，将|，包含到()中。

如果要提升优先级，可以(abc|bcd)\d+ ，匹配所有abc或者bcd 字符串，并且后面紧跟数字的。在使用”|”字符串，注意它的优先级级别低，如果要优先匹配，可以放入（）中。

正则表达式（regex)错误使用导致功能漏洞

程默 — Sat, 08 Jun 2013 14:05:00 +0000

写在前面的话

正则表达式它的强大字符串匹配功能，导致目前在各种程序语言中，都非常流行！它被用来描述或者匹配一系列符合某个句法规则的字符串。很多刚刚使用正则表达式都是从听说这个，然后在要使用时候去网上搜索。很少人一开始就系统去学习正则表达式，从定义原理使用系统学习。因为，对应初学者觉得它太麻烦了，好多原字符。看到那么长一串字符，就很头痛。因此，也懒得去学习。一般遇到问题，直接去网上搜索。如：“邮箱正则表达式，手机号正则表达式，url正则表达式…..” ，我们发现一个很有意思现象，“怎么邮箱正则表达式可以各种各样，url正则表达式也不相同“，都出都在推荐，都说自己是正确的，到底那个是正确的呢？

从各异的正则表达式，我们可以得出2个结论。一、正则表达式很灵活，多种方法可以实现同一种结果（条条大路通罗马），二、正则表达式匹配结果需要验证的，复杂正则表达式很容易产生错误匹配。今天，我这里不说正则表达式灵活性，我们看看常见正则表达式错误使用，产生功能漏洞例子。希望，我们在使用时候多多注意。以下例子，来自我工作中审核代码，经常出现例子，也欢迎朋友们补充！

定界符”^$”缺失bug


///检测用户名，只能是字符加数字
 
$user="chengmo8";
 
if(!preg_match("/[0-9a-zA-Z]+/",$user))
{
	exit("用户名错误！");
}

这是很常见的，因为没有定界符，正则表达式搜索，会从$user中，字符中从左向右搜索，指导找到满足条件的字符，就会匹配到，并且返回true，程序将继续执行。我们测试，用户名输入：chengmo8，chengmo8??!，#$chengm，中国cadadf，都可以匹配成功，看似要限制只能字符加数字用户名。实际由于缺乏限定符正则表达式，变成了，只要字符串中包含字母加数字就可以注册。而我们需要的是，从头到尾字符串必须是字母加数字。正则表达式应该是：^[0-9a-zA-Z]+$ ，看似简单，在做从头到尾字符匹配时候，不要忘记了^$字符。一个匹配输入字符开头，一个匹配输入字符结尾（默认换行符前)

这种经常做，手机号，邮箱，url，注册用户名，密码等。都需要有限定符号！

方括号字符"[ ]”中字符使用Bug

在正则表达式中，常见正则表达式原字符（.*?等等）在方括号字符中将变成普通字符。在方括号字符中，表示特殊字符，只有“^-\” 3个字符是特殊字符。其中，“^”字符，在左方括号第一个字符时候，是代表不在后面所有字符中字符！

如：[^0]不能是0字符。而如果是：[0^] ，就代表包含0^字符了。因为：^已经不是左括号最右边一个字符了。已经跟普通字一样了。“-”字符代表是范围字符，如：[0-9] 代表是匹配0到9直接字符。”\”转义字符，如果想匹配”-“字符，可以[0\-9]，如果要匹配”\”，可以是：[0\\9]，表示“09\” 3个字符了。说这么些，其实就是因为，很多朋友在使用方括号字符时候，经常会弄错特殊字符。


///检测用户名，只能是字符加数字
 
$code = "";
 
///匹配字符范围包含.*?
preg_match("/[.*?]+/",$code);
 
///匹配字符范围包含a到z 26个字符
preg_match("/[a-z]+/",$code);
 
///匹配字符范围包含A到z 实际上，是从默认情况ascii表中，A字符到z字符中间，一共48字符
preg_match("/[A-z]+/",$code);
 
///匹配字符范围包含A到z 是对应ascill码，16进制
preg_match("/[x41-x7A]+/",$code);
 
<font color="#ff0000">///只想匹配字符串and
preg_match("/[and]/",$code);
///实际匹配，所有包含a,n,d 组成所有字符，跟顺序无关
font>

加红是经常错误理解，只想匹配and，一旦加入到"[ ]"中字符，可以理解为所有字符组成字符集合。任意在其中出现字符，就可以匹配，跟顺序无关系！如果真需要匹配这类，按字符分组来，如”and|bnd” 将匹配and字符串，或者是bnd字符串。”|”字符是，字符串或操作符。左右两边连续字符串会组合为一个整体匹配。

好了，今天就整理，常见正则表达式，2种常见错误。欢迎大家交流！

程默的博客 » 正则表达式

正则表达式性能优化（高效正则表达式书写）

正则表达式、分组、子匹配（子模式）、非捕获子匹配（子模式）

正则表达式断言、巡视（Assertions）、正向断言、反向断言

正则表达式匹配解析过程探讨分析（正则表达式匹配原理）

常见正则表达式引擎

解析引擎眼中的字符串组成

占有字符和零宽度

正则表达式匹配过程详解实例

正则表达式性能测试工具推荐、优化工具推荐(regexbuddy推荐)

为什么需要性能测试工具

regexbuddy工具怎么样使用，使用介绍

正则表达式单行、多行模式简介（使用说明）

单行、多行模式容易出现理解错误

单行、多行模式官方解释

举例，看单行应用

举例，看多行应用

正则表达式(regex) 贪婪模式、懒惰模式使用

什么是贪婪模式

abd

bcd

…

待添加

.*

.{0,}

什么是懒惰模式

.*?

.{0,}?

正则表达式工具推荐（学习工具、测试工具）

正则表达式（regex)入门、元字符(特殊字符)、学习提高、学习实例

什么是正则表达式呢？

我们为什么要学习正则表达式？

正则表达式字符串格式

怎么样书写正则表达式呢？

正则表达式（regex)或操作符”|“使用易出现功能Bug

正则表达式（regex)错误使用导致功能漏洞