程默的博客 » php

php header 重定向常出现功能(使用)漏洞

程默 — Sat, 15 Jun 2013 09:45:28 +0000

php header函数功能强大，可以给用户发送各种header头信息，只要header头里面能够发送的内容，都可以通过header函数来完成。如发送302跳转，设置cookie，发送401认证，发现last-modify等等！ HTTP/1.1 specification for more information on HTTP headers，都可以用该函数完成。总之一句话，任何服务区response应答的头信息几乎都可以用它来发送。如：

这里我们经常用header发送302跳转，会发现一个问题。在走查代码时候，遇到很多同人会有类似操作代码，如：


header("Content-type: text/html; charset=utf-8");
 
//判断用户是否授权

if('用户未授权')
{
	header("location:forbidden.php");
}
 
///下面是进行摸个记录操作
//删除条记录，或者修改某条记录……

这类代码，在开发中很常见，我们会发现，一个没有权限用户，操作该记录，网页会跳转到未授权页面，但是：记录任然被修改了，问题我们找到了，一般操作人员，对于js跳转会知道是前端浏览器跳转的。但是对于php操作跳转，错误认为是服务器跳转，好像php以执行到location，然后就终止了下面运行。其实，知道header函数真实意义就很容易理解了：header() is used to send a raw HTTP header！

header location 302实际上只是如下：

跟其它普通echo 函数没有多大区别，只是给header信息头,echo 一行而已。

屏蔽Bug方法：

知道了，发送header跳转，服务器不会终止程序，因此为了安全起见。header locaction后，最好加一句exit()函数。这样，php解析引擎就会停止解析了！我们正确方法是封装个header_302方法


/*header_302跳转*
 * *
 *@author http://blog.chacuo.net/
 * @param string $url 跳转url
 */
function  header_302($url)
{
	if(headers_sent())
	{
		exit('header 已经发送过！');
	}
	header("location:$url");
	exit();
}

后记：这类问题，不光出在php程序中，其它很多header loction跳转语言程序，原理相同。都有类似功能，很多时候。都是使用时候没有注意，造成的。容易在代码走查中，遗漏掉！好了，先到这里，欢迎交流！

正则表达式（regex)入门、元字符(特殊字符)、学习提高、学习实例

程默 — Mon, 10 Jun 2013 10:22:48 +0000

什么是正则表达式呢？

正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），它是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。几乎在各种计算机编程语言中都有用到。可以分为普通正则表达式、扩展正则表达式、高级正则表达式。普通正则表达式在linux shell中常用到，高级正则表达式语法规范，基本由perl演化而来。目前常见程序语言（php,perl,python,java,c#)都支持高级正则表达式。

我们为什么要学习正则表达式？

高级程序语言的正则表达式几乎都从perl语言发展而来，因此，语法几乎一致。你学好了，一门正则表达式语言。几乎在所有程序语言中就可以用到。就像，我知道sql语法，后端mysql,mssql几乎都通用。这个也是我们需要学好正则表达式一个原因，通用性。另外一个原因是：正则表达式强大的文本匹配功能。很多文本匹配处理，如果没有正则表达式，还真的很难做出来。如：从一段字符串，读出手机号格式，我们如果用字符串查找，需要做循环，需要写判断。估计耗费不少代码，开发时间。如果用正则表达式，就一行代码就可以了。匹配所有成对的：html标签，如果要做这个，我们发现非常复杂，要处理层次，要匹配标签。一般同人短短几个小时可能完成不了。如果用正则表达式，估计也就几分钟而已。

正则表达式字符串格式

既然我们知道正则表达式重要性，通用性。那么我们对常见格式可以了解下。一般正则表达式由：普通字符+特殊字符（元字符）一起组成的字符串。如：匹配“ab开头，后面紧跟数字字符串“ “ab\d+” 这其中ab就是普通字符，\d代表可以是0-9数字，+代表前面字符可以出现1次或以上。哈哈，看起来还真的很容易吧！

正则表达式无论是普通还是扩展还是高级正则表达式。不同之处，可能在特殊字符方面有些不同。很多特殊字符，可以组合，形成一套新匹配规则。这里就不说太深了。我们一般只要知道它的常见元字符。基本上常见正则表达式就可以写出来了。

以下是javascript 正则表达式常见的元字符：

字符描述

\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，’n’ 匹配字符 "n"。’\n’ 匹配一个换行符。序列 ‘\\’ 匹配 "\" 而 "\(" 则匹配 "("。

^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。

$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。

* 匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。

+ 匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

? 匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。

{n} n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 "Bob" 中的 ‘o’，但是能匹配 "food" 中的两个 o。

{n,} n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 "Bob" 中的 ‘o’，但能匹配 "foooood" 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。

{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。

? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，’o+?’ 将匹配单个 "o"，而 ‘o+’ 将匹配所有 ‘o’。

. 匹配除 "\n" 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]‘ 的模式。

(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘$‘ 或 ‘$’。

(?:pattern) 匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如， ‘industr(?:y|ies) 就是一个比 ‘industry|industries’ 更简略的表达式。

(?=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， ‘Windows (?=95|98|NT|2000)’ 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern) 负向预查，在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如’Windows (?!95|98|NT|2000)’ 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始

x|y 匹配 x 或 y。例如，’z|food’ 能匹配 "z" 或 "food"。’(z|f)ood’ 则匹配 "zood" 或 "food"。

[xyz] 字符集合。匹配所包含的任意一个字符。例如， ‘[abc]‘ 可以匹配 "plain" 中的 ‘a’。

[^xyz] 负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]‘ 可以匹配 "plain" 中的’p'。

[a-z] 字符范围。匹配指定范围内的任意字符。例如，’[a-z]‘ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]‘ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。

\b 匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 "verb" 中的 ‘er’。

\B 匹配非单词边界。’er\B’ 能匹配 "verb" 中的 ‘er’，但不能匹配 "never" 中的 ‘er’。

\cx 匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。

\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。

\f 匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于 \x0a 和 \cJ。

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于 \x09 和 \cI。

\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]‘。

\W 匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]‘。

\xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如， ‘\x41′ 匹配 "A"。’\x041′ 则等价于 ‘\x04′ & "1"。正则表达式中可以使用 ASCII 编码。.

\num 匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1′ 匹配两个连续的相同字符。

\n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。

\nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。

\nml 如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。

\un 匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，’n’ 匹配字符 "n"。’\n’ 匹配一个换行符。序列 ‘\\’ 匹配 "\" 而 "\(" 则匹配 "("。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配 "Bob" 中的 ‘o’，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配 "Bob" 中的 ‘o’，但能匹配 "foooood" 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，’o+?’ 将匹配单个 "o"，而 ‘o+’ 将匹配所有 ‘o’。
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]‘ 的模式。
(pattern)	匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘\(‘ 或 ‘\)’。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， ‘industr(?:y\|ies) 就是一个比 ‘industry\|industries’ 更简略的表达式。
(?=pattern)	正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， ‘Windows (?=95\|98\|NT\|2000)’ 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	负向预查，在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如’Windows (?!95\|98\|NT\|2000)’ 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x\|y	匹配 x 或 y。例如，’z\|food’ 能匹配 "z" 或 "food"。’(z\|f)ood’ 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， ‘[abc]‘ 可以匹配 "plain" 中的 ‘a’。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]‘ 可以匹配 "plain" 中的’p'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，’[a-z]‘ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]‘ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 "verb" 中的 ‘er’。
\B	匹配非单词边界。’er\B’ 能匹配 "verb" 中的 ‘er’，但不能匹配 "never" 中的 ‘er’。
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]‘。
\W	匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]‘。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如， ‘\x41′ 匹配 "A"。’\x041′ 则等价于 ‘\x04′ & "1"。正则表达式中可以使用 ASCII 编码。.
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1′ 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

从上面元字符里面，我们看到，很多元字符，实际上可以代表一组普通字符。因此，我们要匹配一些字符串，正则表达式往往会有很多种。如：匹配0-9数字，可以用[0-9],\d,[0123456789] ，这样3种都可以，条条大路通罗马，都是对的。那么那一种正则表达式更好呢，性能更高呢，匹配速度更快呢？通过10万次循环匹配，发现几种几乎相差不大，\d速度比[0-9快，[0-9]比[0123456789]快。从正则表达式精简]程度方面，\d最简单。使用时候，我们尽量用代表字符集元字符去匹配。精简且速度快！

怎么样书写正则表达式呢？

我们写正则表达式，都是从分析匹配字符串特点开始，然后逐步补充其它元字符，普通字符。匹配从左到右。

例如：我们要匹配一个手机号码。

1. 分析字符串特点，手机号码是数字，并且是以1开头，11位长

2.可以写”1\d” 1开头，后面跟着数字也可以是：1[0-9]

3.数字长度是11位，继续补充1\d{10} ，后面数字长11字符，也可以是：1[0-9]{10} ；{}里面数字，表示它左边字符可以重复出现次数

4.所有字符必须是11位，因此头尾直接必须满足条件，因此可以是：^1\d{10}$ 了。

例如：我们匹配QQ号码

1.分析QQ号码特点是，号码是最少是5位数，首位字符非0，最大长度，目前到11位了

2.可以先定义首位字符，[1-9]\d 首位字符是1到9，后面是字符

3.后面字符个数在4到10位 [1-9]\d{4,10}

4.所有字符串必须都满足上面匹配，因为可以写成：^[1-9]\d{4,10}

例如：匹配IP地址

1.分析ip结构是，每节 0-255，中间用”.”分割，一共有4节

2.首先我们写第一个0-255 ，可以分解为0-9 一位数,10-99两位数,100-199三位数,200-249三位数第2节,250-255第四节

[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5] “|”表示或者，计算优先级最低，左右两边可以是多个元字符普通字符组合字符串为一个整体。

3.这样的字符，有三次重复，中间加”.” ，所以结果是：

[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]\. ，因为是点字符是元字符，所有需要转义。这样是不是可以了呢，我们发现有问题，”|”优先级最低，这样会把最后\.字符表，组合为：“25[0-5] \.”了。因此，应该是前面几种情况，后面跟个”.”字符，正确是：([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\. ，这样就达到要求了。我们会发现，实际上每家一个()字符，都一个子匹配，会在匹配结果里面出现()内容。这里我们加()目的是，让优先计算，因此不需要里面子匹配内容。我们可以加忽略子匹配内容字符：?: ，结果将变为：(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.

4.一段已经匹配到了，然后我们这样需要重复三次，我们可以直接重复上一个表达式3次：

方法一：(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.

方法二：把第一段作为分组，重复3次 ((?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3} ，然后同样忽略子匹配结果，可以变为：

(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3} 哈哈，看到这个表达式是不是很晕了，其实一个长的表达式，都是从一点一点加上去的。这个利用到，重复次数，将结果简化不少了。

5.最后还有一段0-255匹配

(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]) ，也就是在后面加多一个0-255匹配即可，然后在上面再加上头尾限定符，变成了：^(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$

下面一个图，是读一段文字里面，所有IP个格式地址

其中(?=……)是正向匹配，搜索左边字符串，并且该字符串右边必须满足?=后面匹配成功的才匹配成功！

好了，写了这么些例子，发现一口气能从很简单正则表达式，匹配到这么长的表达式了。是不是感觉有些晕了，其实不奇怪，长的正则表达式都是从简单正则表达式得到。逐步加上去了。欢迎讨论交流！

正则表达式（regex)或操作符”|“使用易出现功能Bug

程默 — Sun, 09 Jun 2013 11:05:27 +0000

接上一篇：正则表达式（regex)错误使用导致功能漏洞，我们继续梳理，正则表达式错误使用，导致功能设计漏洞（bug），做web方面，需要掌握的知识很多，网站开发这项工作，在国内也就10多年，很多开发人员，都是通过：培训(自学) ->模仿->做项目，这样一个过程。很多就是修修改改后，就成为了web开发工程师。这行入门低，很容易上手。但是想成为大师级的，还是很不容易。需要学习，掌握的知识几十门。而对于刚刚入门同人，很多时候因为缺乏系统学习，理论支持。导致提升有些心有余而力不足啦！因此，出现这些或多或少的功能设计漏洞，是很常见的！

好了，有些跑题了，在做代码走查时候，这类漏洞也是时常出现。我们看下，下面代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$user="bcd123张三";
///匹配用户名中出现abc还有bcd开头，后面紧跟是数字字符
 
preg_match_all("/abc|bcd\d+/",$user,$match);
var_dump($match);
 
/*结果是
array(1) {
  [0]=>
  array(1) {
    [0]=>
    string(6) "bcd123"
  }
}
*/
查找所有页面出现abc或者bcd开头，后面紧跟数字字符串。通过上面，我们看，正确匹配到bcd123，如果我们输入:$user = “abc123张三”，发现不能匹配到了。原因是”|”字符，优先级最低，以上写法会变成：匹配abc 或者是bcd\d+ 字符串。

以上图，将|，包含到()中。

如果要提升优先级，可以(abc|bcd)\d+ ，匹配所有abc或者bcd 字符串，并且后面紧跟数字的。在使用”|”字符串，注意它的优先级级别低，如果要优先匹配，可以放入（）中。

姓名中点字符输入思考（输入特殊字符）

程默 — Fri, 07 Jun 2013 14:46:53 +0000

最近工作中，时不时有用户输入自己真实姓名，然后申请银行提款时候，遇到一些特殊字符。而输入错误，提款失败！其中最多就是少数名字，姓名中的点字符。如：某某·李四，经常有人输入：某某.李四或某某・李四。其中：”·・” 这2个中间点很容易输入错误。都是中间点，一个大一个细。

那一个才是中文姓名中间点呢？

作为技术开发人员，我们有办法知道，到底那个点才是中文中间分割点。因为，这些都是常见姓名字符，因此，我们只要检测下，这2个字符对应在gb2312字符集中，字符编码即可。对于计算机而言，无论多怪的字符，看起来还怎么像，其实计算机本质去区分，是按照字符在字符集中，对应编码（字符编码）来保存、传输的。因此，作为技术人员，只要能够判断字符在字符集中编码，就能知道对应字符是不是相同的。

从上面看，在gb2312中，第一个字符编码是a1a4,第二个字符返回是%3F，这个是”?”，其实意思是，该字符在这个字符集gb2312中找不到，就默认返回”?”，经常做大字符集，转小字符集合时候常遇到。毫无疑问，我们可以确定第一个字符才是姓名中分隔符，第二个只是看起来更象中文分隔符字符而已。后来查询，发现，其实”・”是日文中的分隔符。通过这种方法，我们其实很容易通过程序就可以查出真假“李逵”啦！

怎么样快速输入相似字符呢？

对于技术人员，已经知道怎么样辨别真假李逵了。那么，如果有些自己常见的字符，我要去输入，我该怎么样去做呢？查询输入中文姓名中间点，方法很多。

1、智能ABC状态，直接按“`”键盘

2、五笔输入法按，shiftv+ @键

……

这里省略N多方法，方法都能很快打印出字符，但是都有各自前提条件，都跟需要安装输入法有关系。如果，选择错误输入法，又很容易将相似字符输入进入。对于，普通用户，还是很难区分。

我们必须找个，统一输入法，无论什么用户都可以正确输入！

我们知道目前最大字符集是unicode，也叫万国码，里面可以存储100多万字符，而且几乎所有字符集中，字符都在该字符集中能够找到，那么，我们只要知道字符在该字符中编码，就可以唯一确定一个字符。对于windows而言，目前可以快速输入unicode码字符，只需要打开锁定数字键，按住：alt + unicode字符位置编码数字（小键盘）即可。

如：我们发现”·” 字符unicode编码是 183，因此只要打开数字锁定键，按住alt + 小键盘输入183 松开alt即可。问题似乎变成了，怎么样知道字符的unicode编码了。

怎么样知道字符unicode编码？

unicode由于字符非常多，因此，常有几种实现模式，utf-8,utf-16等。都是unicode字符集一种存储编码方式。我们只需要将任意字符转换到utf-32编码即可，utf-32每个字符用4个字节表示。结果，跟unicode值一致。只是都占用4个字节而已。


///当前文件选择utf-8字符集
 
/**
 *得到字符的unicode字符编码值*
 * @author QQ:8292669
 * @copyright http://blog.chacuo.net
 * @param string $char 传入单字符
 * @return int 10禁止字符值
 */
function getUnicodeDec($char)
{
	$c = iconv("utf-8","utf-32BE",$char); ///得到4个16进制字节
	return array_pop(unpack('N',$c));   ///16进制转换为10机制
}
echo "·", getUnicodeDec('·'),"\r\n";
echo "・", getUnicodeDec('・');

从上面，我们可以看到一个用alt+183,一个用alt+12539输入。这样看起来输入很难记住，不过，如果某个人自己姓名刚好有特殊字符，这种方法是个不错选择。你只要记住自己姓名特殊字怎么输入就行。记住后，以后无论那个电脑上面，就可以准确无误输入。呵呵，是个不错的选择！如果，我姓名里面，有难打字符。要输入：程默，分别是：alt +31243,alt + 40664 就可以了。

后记：从技术角度分析下，其实我们遇到这类问题，都可以方便甄别，也可以有个一劳永逸的办法。当然，没有特殊难输入字符，完全没有必要去记录编码啦。好了，就这里，欢迎朋友们交流！

php session阻塞页面分析及优化（session_write_close session_commit使用）

程默 — Thu, 06 Jun 2013 11:17:59 +0000

这个问题很多做php开发朋友应该都有遇到过，一个启用了session_start 页面，由于执行时间过长。导致通一个用户访问，另外一个很简单的启用session_start页面一直阻塞着。直到第一个页面执行完了。第二个页面就可以读取。这个就是，我们常说的，session阻塞机制。

我用file 存放用户session

session默认以文件保存，当一个用户访问session_start页面后，这个时候，就会默认创建一个包含session_id文件名，并且这个时候，会对文件进行锁定。如果这个用户点击链接，又访问一个该站session_start网页。这是，由于session_id一样，这个页面也有读取锁定该用户存放session文件。由于，第一个页面没有执行完，它一直锁定了该文件。第2个页面就不能获取锁，一直处于等待状态。

这样一个看似小的问题，实际上，如果网站上面有大量用户访问，会导致session读取文件一直阻塞等待着。用户浏览器一直跟服务器保持连接，会消耗很多服务器资源。web服务器活跃连接数也会增大，可能很快就会耗费完连接资源，出现拒绝服务器。

我用memcache 存放用户session

用memcache保存用户session，相比读取文件有很大速度提升。而且可以做到多服务器共享session。确实很方便，这个时候，我们发现不会出现用文件保存session锁定清理。memcached读取时候，是共享的，不会出现等待。但是，我们会发现，memcached连接数，还是会保持着。并且，连接数会增加，如果这个时候，你设置的memcached连接数过小，你会发现，很快memcached就挂死了。这也是，做memcache接管session时候，经常遇到问题。有时候，web服务器很多，session(memcache)很少。发现memcache莫名其妙死掉，可能跟这个有关系。太多反映很慢的页面(启动session)，会导致占用了大量memcached连接数。

改变session使用习惯、优化调用方法

其实，通过file或者session，如果处理耗时页面，都会带来服务器资源很大消耗。其实我们一般写入session或者读取时候，如果自己能够控制。用完了，就关闭掉文件锁，或者mem连接。就会自动释放资源，其实，php里面的：session_write_close，session_commit 函数就能做到改功能。我们看下下面代码执行过程：

";
	return(true);
}
function close()
{
	echo __FUNCTION__,"
";
	return(true);
}
function read($id)
{
	echo __FUNCTION__,"
";
}
function write($id, $sess_data)
{
	echo __FUNCTION__,"
";
	return(true);
}
function destroy($id)
{
	echo __FUNCTION__,"
";
	return(true);
}
function gc($maxlifetime)
{
	echo __FUNCTION__,"
";
	return true;
}
session_set_save_handler("open", "close", "read", "write", "destroy", "gc");
register_shutdown_function('test');

function test()
{
	echo __FUNCTION__,"
";
}
session_start();
echo 'aaaaa',"
";

启动”session_start” 会自动执行,open,read函数，然后页面执行完，会执行shutdown函数，最后会把session写入进去，然后执行close关闭文件。从session_start 到页面结束，会一直锁定文件或者保持连接的。

我们如果执行完session_start后，执行”session_commit();” 看看结果

执行过程：执行commit后，直接会调用，wirte,close操作。直接关闭文件或者关闭连接(memcache)了。

我们的问题

1.我们页面有多次写入，怎么样操作？

第一次写入后，然后提交，再次打开写入，然后再次提交。我们发现，2次数据都保存到用户session中了。

我们来总结下吧

1.只读取session页面，建议打开后，就直接commit，这是$_SESSION变量已经生成了。

2.有对session进行写入页面，建议修改完$_SESSION后，直接调用commit

3.多次打开并且写入，这个不建议使用，比较打开文件，写入都是耗费时间的。如果能一次搞定的，就不要做多次了。除非，中间执行很耗时的业务。

后记：其实，使用完session，随手commit也不是坏事，养成习惯后。可以节省性能，减少服务器开销。是个不错选择！欢迎大家交流！

web文件操作常见安全漏洞（目录、文件名检测漏洞）

程默 — Wed, 05 Jun 2013 10:35:54 +0000

做web开发，我们经常会做代码走查，很多时候，我们都会抽查一些核心功能，或者常会出现漏洞的逻辑。随着技术团队的壮大，组员技术日益成熟。常见傻瓜型SQL注入漏洞、以及XSS漏洞。会越来越少，但是我们也会发现一些新兴的隐蔽性漏洞偶尔会出现。这些漏洞，跟多来自开发人员，对一个函数、常见模块功能设计不足，遗留下的问题。以前我们能够完成一些功能模块，现在要求是要安全正确方法完成模块才行。接下来，我会分享一些常见功能模块，由于设计原因导致漏洞出现。下面，我们先看下，读取文件型功能漏洞。

我们先看下下面一段代码，通过用户输入不同目录，包含不同文件

$mod = str_replace("..",".",$mod);

///得到文件
$file = "/home/www/blog/".$mod.".php";

///包含文件
@include($file);

这段代码，可能在很多朋友做的程序里面有遇到过，对于新人来说，也是很容易出现这样问题，记得走查遇到该代码时候，我问到，你这个代码安全方面能做到那些？

答：1. 对”..”目录有做替换，因此用户传入模块名里面有有..目录都会被替换掉了。

2.构造拼接file名称，有前面目录限制，有后面扩展名限制，包含文件就会限制在该目录了

这段代码真的做到了目录安全检测吗？

我们来测试下，如果$mod传入这个值将会是什么样的结果。

$mod 通过构造输?mod=…%2F…%2F…%2F…%2Fetc%2Fpasswd%00 ，我们看结果将是：

居然include(“/etc/passwd”)文件了。

怎么逃脱了我参数限制呢？

首先：做参数过滤类型去限制用户输入本来就不是一个好方法，一般规则是：能够做检测的，不要做替换只要是检测不通过的，直接pass 掉！这是我们的一个原则。过滤失败情况，举不胜举，我们来看看，实际过程。

1、输入”…/…/…/” 通过把”..” 替换为”.”后

2、结果是”../../../” 就变成了这个了

有朋友就会说，如果我直接替换为空格是不是就好了？在这个里面确实可以替换掉。但是不代表以后你都替换为空格就好了。再举例子下。如：有人将字符串里面javascript替换掉。代码如下：

……

$msg = str_replace(“javascript”,””,$msg);

看似不会出现了javascript了，但是，如果输入:jjavascriptavascript 替换，会替换掉中间一个变为空格后。前面的”j” 跟后面的会组成一个新的javascript了。

其次：我们看看，怎么逃脱了，后面的.php 限制呢。用户输入的参数有：”etc/passwd/0” ，\0字符非常特殊，一段连接后，文件名称变成了”……etc/passwd\0.php”，你打印出该变量时候，还是正确的。但是，一段放入到文件读写操作方法里面，\0后面会自动截断。操作系统，只会读取……etc/passwd文件了。 “\0”会出现在所有文件系统读写文件变量中。都会同样处理。这根c语言\0作为字符串完整标记有关系。

通过上面分析，大家发现做文件类型操作时候，一不注意将产生大的漏洞。而且该漏洞就可能引发一系列安全问题。

该怎么做文件类操作呢？

到这里，估计有人就会思考这个，做文件读写操作时候，如果路径里面有变量时候，我该怎么样做呢？有人会说，替换可以吗？ “可以”，但是这个方法替换不严格，将会出现很多问题。而且，对于初写朋友，也很难杜绝。做正确的事情，选择了正确的方法，会从本身杜绝问题出现可能了。这里，我建议：对于变量做白名单限制。

什么是白名单限制

举例来说：

$mod = isset($_GET['m'])?trim($_GET['m']):’index’; ///读取模块名称后

mod变量值范围如果是枚举类型那么：

if(!in_array($mod,array(‘user’,’index’,’add’,’edit’))) exit(‘err!!!’);

完全限定了$mod，只能在这个数组中，够狠！！！！
怎么做白名单限制

通过刚才例子，我们知道如果是枚举类型，直接将值放到list中即可，但是，有些时候，这样不够方面。我们还有另外一个白名单限制方法。就是限制字符范围

举例来说：

$mod = isset($_GET['m'])?trim($_GET['m']):’index’; ///读取模块名称后

我限制知道$mod是个目录名称，对于一般站点来说，就是字母加数字下划线之类。

if(!preg_match(“/^\w+$/”,$mod)) exit(‘err!!!’);

字符只能是：[A-Za-z0-9_] 这些了。够狠！！！

总结：是不是发现，白名单限制方法，做起来其实很简单，你知道那个地方要什么，就对输入检测必须是那些。而且，检测自己已知的，比替换那些未知的字符，是不是简单多了。好了，先到这里，正确的解决问题方法，会让文件简单，而且更安全！！欢迎交流！

识别真假搜索引擎（搜索蜘蛛）方法（baidu,google,Msn,sogou,soso等)

程默 — Tue, 04 Jun 2013 11:10:16 +0000

最近工作中遇到个问题，就是有一些资源，不希望别人很派发的抓取，这样会占用我们带宽还有资源。因此，我们对页面访问做了频率限制。这样一来，又怕搜索蜘蛛给限制了。因此，我们有个需求，就是除了常见搜索蜘蛛，其它都要做频率限制。工作就变成了，首先我们怎么样正确表示搜索蜘蛛。

怎么样识别搜索蜘蛛

搜索引擎基本上由最先google,和国内的baidu统一了。刚开始比较混乱，后期有很多规则协议，可以遵循。基本上一些新兴的搜索引擎在访问站点时候，都会延用google制定的一些规则。它们一般都会有特定的user-agent，但是，如果我们只通过user-agent去识别搜索蜘蛛的话，那样第三方抓取程序，都会去伪造个user-agent。变成搜索蜘蛛的，如：Googlebot/2.1 (+http://www.googlebot.com/bot.html) 是，google蜘蛛的值。

现在一般搜索引擎都提供一个DNS 反向IP查询功能，只需要把访问来的IP 通过反向查询域名，看是不是搜索引擎域名。这样伪造的爬虫工具，就会被很容易识别了。具体识别真假蜘蛛只需要：1，判断user-agent是否满足蜘蛛格式 2，然后进一步确定IP 反解析域名是否属于该搜索引擎域名.

搜索引擎	user-agent(包含)	是否PTR	备注
google	Googlebot	√	host ip 得到域名：googlebot.com主域名
baidu	Baiduspider	√	host ip 得到域名：.baidu.com 或 .baidu.jp
yahoo	Yahoo!	√	host ip 得到域名：inktomisearch.com主域名
Sogou	Sogou	×	Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″) Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易	YodaoBot	×	*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN	MSNBot	√	host ip 得到域名：live.com主域名
360	360Spider	×	Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Firefox/1.5.0.11; 360Spider
soso	Sosospider	×	Sosospider+(+http://help.soso.com/webspider.htm)
bing	bingbot	√	host ip 得到域名：msn.com主域名

以上是我整理一些常用搜索引擎的user-agent特征码，以及IP反向解析情况。保证准确识别搜索引擎，我们通过IP反解析是最为准确方法。好在google,baidu,bing都有做反向解析。基本上占用了80%搜索市场了。下面，我是我检测方法。

PHP反解析IP方法

array('Googlebot','googlebot.com'),
	'baidu'=>array('Baiduspider','.baidu.'),
	'yahoo'=>array('Yahoo!','inktomisearch.com'),
	'msn'=>array('MSNBot','live.com'),
	'bing'=>array('bingbot','msn.com')
	);
	
	if(!preg_match('/^(\d{1,3}\.){3}\d{1,3}$/',$ip)) return false;
	if(empty($ua)) return false;
 
	foreach ($spider_list as $k=>$v)
	{
		///如果找到了
		if(stripos($ua,$v[0])!==false)
		{
			$domain = gethostbyaddr($ip);

			if($domain && stripos($domain,$v[1])!==false)
			{
				return $k;
			}
		}
	}
	return false;
}

目前只加入几个搜索引擎检测，这些是可以做反解析查询的。不能做反解析查询的，最好做速度限制，用户会使用它们来伪造搜索引擎来抓取你的资源。欢迎大家交流，先写到这里了。

web上存漏洞及原理分析、防范方法（安全文件上存方法）

程默 — Mon, 03 Jun 2013 10:08:42 +0000

看我上两篇，我们知道，上存漏洞常见有，文件名检测漏洞，还有就是文件格式检查漏洞。另外还有个一个，就是保存文件存在漏洞。这类漏洞，主要是可以读取用户传入路径名称，采用不正确的过滤方法，导致恶意用户，将文件上存到非预期的地方，带来安全隐患。

其实，我们抓住几个地方即可，我们先来分析下，既然用户要上存文件，而且文件将是多种多样格式；可能有的文件内容与用户传入格式不一致，有的文件内容还夹杂木马代码。那么，我们让用户上存文件，跟站点文件做一个分别授权，做隔离。

让保存上存目录独立开来，目录权限只读不能执行

这一步从系统设计加以授权，无论你上次什么文件，都不可能执行到。就算我不做任何检测，你的文件都上存到这里了，也不会对我系统构成安全。（如果有用户上存一些反动言语的图片，那另外需要处理的）

不直接使用服务器传入值，所有都要进行检测

这类跟我们做一切输入都是有害原则一样，对于客户端传入的：type, name ，都要进行判断，不直接使用。对于要生成到某个目录，某个文件名。

文件名最好方法是：自己写死目录（不要读取传入目录），文件名，最好自己随机生成，不读取用户文件名。文件扩展名，可以取最右边”.”后面字符。

以上2个方法，刚好从2个方面对上存做了整体约束。

方法2 ：保存上存文件名，按照自己指定目录写入，并且文件名自己生成的。

方法1：只要保证文件写对了位置，然后从配置上，对写入目录进行权限控制，这个是治本。可以做到，你无论上存什么文件，都让你没有权限跳出去可以运行。

以上2个方法，一起使用，可以保证文件正确存到地方，然后，权限可以控制。这里顺便说明下，判断用户上存文件是否满足要求类型，就直接检查文件扩展名，只要满足扩展名就让上存。反正，做了执行权限限制，你不按要求上存内容，也无妨。反正，不能执行，也不会有多大危害性的。

正确步骤：

1.读取文件名，验证扩展名是不是在范围内

2.自己定义生成的文件名，目录，扩展名可以来自文件名扩展名。其它值，都自己配置，不读取上存中内容

3.将文件移到新目录(这个目录权限设置只读)

好了，以上是一般操作方法，希望对大家有帮助，也欢迎朋友们交流！也希望提供更好的方法！接下来，我会在web 开发中，常见一些方法功能安全设计方面继续写一些我的心得，看法！欢迎大家随时交流！

web上存漏洞及原理分析、防范方法（文件类型检测漏洞）

程默 — Sun, 02 Jun 2013 08:59:00 +0000

通过上一篇文章，我们知道wed上存漏洞，最常见一种是文件名检测漏洞，接下来，我们看看另外一种漏洞，上存文件类型漏洞，这也是一种较为容易出现问题。

我当时就想，既然我知道我需要允许上存什么样的文件，那么，我就只允许你上存该文件。只要我文件类型判断准确了，你想上存能够执行的代码。我都给阻止掉，不就行了吗？这确实，是个好的方法，但是我们再做的时候，往往会出现下面一些问题。

这里我们看下常见实现的php代码。这里，常见两个问题是：

1.读取文件type,直接做文件类型判断

2.通过工具分析文件格式，以此来确认文件类型

问题一：读取文件type，判断文件类型

if(isset($_FILES['img']))
{
    $file = save_file($_FILES['img']);
	if($file===false) exit('上存失败！');
	
	echo "上存成功！",$file;
}



function check_file($img)
{
	///读取文件
	if($img['error']>0) return false;
	
	$type = $img['type'];
	$filename = $img['name'];
	
	
	///读取文件扩展名
	$len=strrpos($filename,".");
	if($len===false) return false;
	
	//得到扩展名
	$ext = strtolower(substr($filename,$len+1));
	
	///判断文件类型
	if($type && preg_match('%^image/.+$%',$type)) return $ext;
	
	return false;
}

function save_file($img)
{
	$ext = check_file($img);
	if(!ext) return false;
	
	//格式检测ok，准备移动数据
	$filename = time().$ext;
	$newfile = "upload/" .$filename;
	if(!move_uploaded_file($img["tmp_name"],$newfile)) return false;
	
	return $newfile;

}

以上加蓝色代码，是关键，这个里面我们直接读取type类型，也就是文件内容。通过第一篇知识：web上存漏洞及原理分析、防范方法我们知道，type来自浏览器端浏览器自动传入变量。如果是浏览器，这个值一般没有问题。但是，如果是来自用户自己组织的包，他可以给type 设置个：image/jpeg值，然后，给name 一个 index.php 值。

估计大家已经看到问题，这样一来，我们生成的文件$filename变成为：time().’php’了。就创建一个php文件。

通过工具分析文件格式，以此来确认文件类型

我们已经清楚知道了,type值是可以随便构造的，这类检查用户类型方法。是没有任何作用，恶意用户，可以随便给一个php文件发送上来，传一个image类型。那么，肯定有朋友会说，我直接用php程序，去分析用户传入的tmp_name 文件格式，这个总靠谱吧！我们看看下面代码。

function check_file($img)
{
	///读取文件
	if($img['error']>0) return false;
	
	$typelist = array(array("FFD8FFE1","jpg"),
	array("89504E47","png"),
	array("47494638","gif"),
	array("49492A00","tif"),
	array("424D","bmp"));
	
	$file = $img['tmp_name'];
	$filename = $img['name'];
	
	
	///读取文件扩展名
	$len=strrpos($filename,".");
	if($len===false) return false;
	
	//得到扩展名
	$ext = strtolower(substr($filename,$len+1));
	
	///判断文件类型
	//读取文件开头15字节，一般通过这些字节值，可以确定它的格式
	$file = @fopen($file,"rb");
	$bin = fread($file, 15);
	
	foreach ($typelist as $v)
	{
		$blen=strlen(pack("H*",$v[0])); //得到文件头标记字节数
		$tbin=substr($bin,0,intval($blen)); ///需要比较文件头长度
		 
		if(strtolower($v[0])==strtolower(array_shift(unpack("H*",$tbin)))) 
		{
			return $ext;
		}
	}
	
	return false;
}

该方法，直接分析用户传入文件格式，然后决定该文件类型，是否允许保存！这套，我们看来非常可靠方法，应该很准确，应该没有问题，不读取type,自己来分析格式。其实：如果用户传入一个文件，前面4字节是：89504E47，然后，后面加入一段将php木马隐藏在图片里” ，这样做出的文件，你用画图软件看是个图片，你如果用php运行这段代码，里面php能够执行了。

好了，我们总结下，看来通过type判断类型，以及通过文件格式检测类型。都不能很好解决，准确判断用户上存文件格式了。其实，我们反过来想想，文件格式，不是通过一个简单字节标识码就能够准确判断的。如果真的要去检测文件类型，我们该用什么方法呢？如果真的要检测格式，例如是图片，可以用php gd库，直接去打开文件，然后再保存一次。这样，里面不合法的代码会去掉的。但是，我们想想，这样该会花费多大的性能呢？

综上所述，其实，去判断文件内容格式，不是明智的方法。会非常复杂，而且也容易出现问题。想准确判断，还会消耗大量的服务器资源。除非万不得已，我们不要去尝试做这种操作。接下来，对于安全上存方法，我会说说思路，欢迎交流！

web上存漏洞及原理分析、防范方法（文件名检测漏洞）

程默 — Sat, 01 Jun 2013 15:09:59 +0000

我们通过前篇：web上存漏洞及原理分析、防范方法学习，已经知道后端获取服务器变量，很多来自客户端传入的。跟普通的get,post没有什么不同。下面我们看看，常见出现漏洞代码。

1、检测文件类型，并且用用户上存文件名保存

if(isset($_FILES['img']))
{
    $file = save_file($_FILES['img']);
	if($file===false) exit('上存失败！');
	
	echo "上存成功！",$file;
}

function check_file($img)
{
	///读取文件
	if($img['error']>0) return false;
	
	$tmpfile = $img['tmp_name'];
	$filename = $img['name'];
	
	
	///读取文件扩展名
	$len=strrpos($filename,".");
	if($len===false) return false;
	
	//得到扩展名
	$ext = strtolower(substr($filename,$len+1));
	if(!in_array($ext,array('jpg','jpeg','png'))) return false;
	return true;
}

function save_file($img)
{
	if(!check_file($img)) return false;
	
	//格式检测ok，准备移动数据
	$filename = $img['name'];
	$newfile = "upload/" .$filename;
	if(!move_uploaded_file($img["tmp_name"],$newfile)) return false;
	
	return $newfile;

}
?>

以上代码，对输入类型也做了判断，看了没有问题。但是问题，确恰恰出现在对获取的用户名变量检测上面。直接获取传入用户名，然后存为文件。有朋友会说：这些文件名都是我电脑里面存在的，文件名格式都受限于操作系统对文件名定义。 但是，需要注意是，对于$_FILES里面获取变量，是直接来自http request请求。它跟普通获取其它get,post变量一样。因此，别有用心的人，往往会自己模拟浏览器，给服务器发送一个特殊文件名。然后，让存文件时候，能够正常保存为自己格式。

前些年，”\0” 在字符串中，保存为文件，会自动截断后面内容。如：$filename 构造为：”a.php\0.jpg” ，我们想想，将会变成怎么样？

$newfile = “upload/a.php\0.jpg” 因为，对扩展名验证，最右边”.”后面字符是jpg ，是允许图片格式。但是，我们一以该文件名，保存。发现磁盘会在upload目录下面生成a.php ，\0后面所有字符，被自动截断。

该漏洞，风靡一时。当时几乎大多数上存网站都有漏洞。一时，很多平台关闭了上存。其实，根本原因就在此。我们拿到文件名，自己作为最终生成文件名保存了。好的方法，是自己随机生成文件名+读取扩展名。这样可以组织输入特殊字符，在进行文件保存时候，被抛弃或截断了。

php4时代这个漏洞可以利用，到php5时代，生成的变量文件名值中，会自动过滤掉”\0” ，这样无论用户构造怎么样的特殊”\0”用户名，都会被截断。但是，目前这类漏洞，在asp,jsp 等站点。还经常有出现。老版本的php站点也会经常出现。

好了，今天先到这里，后面还有2种其它常见方法，后面给出！欢迎交流！

web上存漏洞及原理分析、防范方法

程默 — Thu, 30 May 2013 15:42:34 +0000

网站提供上存功能，是很多站点经常会有功能，商城，论坛还有常见一些网盘站点。常见互联网上面，我们也是经常听说，某某站点出现上存漏洞，某某开源项目有上存漏洞。从互联网开始出现动态程序，上存漏洞像幽灵一样，频繁的出现在各种系统中。为什么，一个上存漏洞会这么频繁出现呢。而且，有些系统反复修补，多次还没有修补成功！其实主要问题，还是出现在上存原理上面。我们先看看，上存过程。

网站上存过程分析

php
header("Content-type: text/html; charset=utf-8"); 
if($_FILES)
{
	echo '';
	var_dump($_FILES);
	echo '';
}
?>
<form action="" enctype="multipart/form-data" method="POST">
<input type="file" name="txt" size="50">
<input name="Submit" type="submit" value="提交" >
form>

以上是个简单测试例子，我们看看

我们来分析下：

name来自上存时候选择文件名称

type 是文件类型，这个类型那里来的呢？呵呵，这里非常关键的。很多时候，很多同人会认为，这个是服务器自动判断生成的。如果是这样想，觉得也有可能。 php 封装了上存，它自带类库好像可以的。但是，反过来想想，你随便选择个什么格式文件，都会有格式类型。这样一想，我们推断这个值，可能也来自用户输入的。我们来抓包看看我们类型。

type值也来自，用户输入值了。

size来自程序计算上存文件大小，这个是自动计算的。相比我们都清楚的。

你说这么多有啥样呢？

想必有朋友开始问了，我上面分析上存文件格式，跟开发出现漏洞有什么关联呢。其实，我们想想，上面说的，一个文件名称name属性，以及文件类型type属性。在我们上存文件，后端处理时候，会经常用到的。作为开发者，在使用这2个变量，一定要继续执行“一切输入代码是有害的”原则。你在使用时候，要把它当作，跟其它get,post 获取变量一样处理。要检测，过滤一切输入变量。

我们经常做功能是，限定用户输入必须是某种格式文件，然后保存为该格式。分析到这里，下面有很多需要继续分析地方，今天先提出大纲。接下来会分析这样常见3类上存漏洞。

1. 使用用户文件名，生成文件，特殊字符过滤不严格，导致文件生成出现漏洞

2.移动文件目录时候，由于采用用户传入的文件名拼接，生成到错误目录

3.相信用户输入type 类型，直接将用户文件名保存为文件

好了，下一篇我会举例逐步分析这3种常见漏洞，欢迎朋友们提出你的观点，与我交流！

获取用户Ip地址通用方法常见安全隐患(HTTP_X_FORWARDED_FOR)

程默 — Tue, 28 May 2013 15:27:51 +0000

分析过程

这个来自一些项目中，获取用户Ip，进行用户操作行为的记录，是常见并且经常使用的。一般朋友，都会看到如下通用获取IP地址方法。

function getIP() { 
	if (isset($_SERVER['HTTP_X_FORWARDED_FOR'])) { 
		$realip = $_SERVER['HTTP_X_FORWARDED_FOR']; 
	} elseif (isset($_SERVER['HTTP_CLIENT_IP'])) { 
		$realip = $_SERVER['HTTP_CLIENT_IP']; 
	} else { 
		$realip = $_SERVER['REMOTE_ADDR']; 
		} 
		return $realip; 
	}

这个是网上常见获取，ip函数，用这些值获取IP,我们首先要弄清楚，这些数据是从那个地方传过来的。

IP获取来源

1.’REMOTE_ADDR’ 是远端IP，默认来自tcp 连接是，客户端的Ip。可以说，它最准确，确定是，只会得到直接连服务器客户端IP。如果对方通过代理服务器上网，就发现。获取到的是代理服务器IP了。

如：a->b(proxy)->c ,如果c 通过’REMOTE_ADDR’ ，只能获取到b的IP,获取不到a的IP了。

另外:该IP想篡改将很难实现，在传递知道生成php server值，都是直接生成的。

2.’HTTP_X_FORWARDED_FOR’，’HTTP_CLIENT_IP’ 为了能在大型网络中，获取到最原始用户IP，或者代理IP地址。对HTTp协议进行扩展。定义了实体头。

HTTP_X_FORWARDED_FOR = clientip,proxy1,proxy2 所有IP用”,”分割。 HTTP_CLIENT_IP 在高级匿名代理中，这个代表了代理服务器IP。既然是http协议扩展一个实体头，并且这个值对于传入端是信任的，信任传入方按照规则格式输入的。以下以x_forword_for例子加以说明，正常情况下，这个值变化过程。

分析Bug风险点：

通过刚刚分析我们发现，其实这些变量，来自http请求的：x-forword-for字段，以及client-ip字段。正常代理服务器，当然会按rfc规范来传入这些值。但是，当一个用户直接构造该x-forword-for值，发送给用户用户，那将会怎么样呢？

图（1）

第2步，修改x-forword-fox值，我们看看结果

第三步，我们再修改下看看会怎么样？

哈哈，看到上面结果没，x-forwarded-for不光可以自己设置值，而且可以设置任意格式值。这样一来，好比就直接有一个可以写入任意值的字段。并且服务器直接读取，或者写入数据库，或者做显示。它将带来危险性，跟一般对入输入没有做任何过滤检测，之间操作数据源结果一样。并且容易带来隐蔽性。

结论：

上面getip函数，除了客户端可以任意伪造IP，并且可以传入任意格式IP。这样结果会带来2大问题，其一，如果你设置某个页面，做IP限制。对方可以容易修改IP不断请求该页面。其二，这类数据你如果直接使用，将带来SQL注册，跨站攻击等漏洞。至于其一，可以在业务上面做限制，最好不采用IP限制。对于其二，这类可以带来巨大网络风险。我们必须加以纠正。

需要对getip 进行修改，得到安全的getip函数。

这类问题，其实很容易出现，以前我就利用这个骗取了大量伪装投票。有它的隐蔽性，其实只要我们搞清楚了，某些值来龙去脉的话。理解了它的原理，修复该类bug将是非常容易。

题外话，做技术，有三步，先要会做，会解决；后要思考为什么要这么做，原因原理是什么；最后是怎么样做，有没有其它方法。多问问自己，你发现距离技术真理越来越近。你做事会越来越得心应手的！

程默的博客 » php

php header 重定向常出现功能(使用)漏洞

正则表达式（regex)入门、元字符(特殊字符)、学习提高、学习实例

什么是正则表达式呢？

我们为什么要学习正则表达式？

正则表达式字符串格式

怎么样书写正则表达式呢？

正则表达式（regex)或操作符”|“使用易出现功能Bug

姓名中点字符输入思考（输入特殊字符）

那一个才是中文姓名中间点呢？

怎么样快速输入相似字符呢？

怎么样知道字符unicode编码？

php session阻塞页面分析及优化 （session_write_close session_commit使用）

我用file 存放用户session

我用memcache 存放用户session

改变session使用习惯、优化调用方法

我们的问题

1.我们页面有多次写入，怎么样操作？

我们来总结下吧

web文件操作常见安全漏洞（目录、文件名检测漏洞）

这段代码真的做到了目录安全检测吗？

怎么逃脱了我参数限制呢？

该怎么做文件类操作呢？

识别真假搜索引擎（搜索蜘蛛）方法（baidu,google,Msn,sogou,soso等)

怎么样识别搜索蜘蛛

PHP反解析IP方法

web上存漏洞及原理分析、防范方法（安全文件上存方法）

让保存上存目录独立开来，目录权限只读不能执行

不直接使用服务器传入值，所有都要进行检测

web上存漏洞及原理分析、防范方法（文件类型检测漏洞）

问题一：读取文件type，判断文件类型

通过工具分析文件格式，以此来确认文件类型

web上存漏洞及原理分析、防范方法（文件名检测漏洞）

1、检测文件类型，并且用用户上存文件名保存

web上存漏洞及原理分析、防范方法

网站上存过程分析

你说这么多有啥样呢？

获取用户Ip地址通用方法常见安全隐患(HTTP_X_FORWARDED_FOR)

分析过程

IP获取来源

分析Bug风险点：

结论：

php session阻塞页面分析及优化（session_write_close session_commit使用）