[C#學習筆記15]常用的正則表達式及相關基礎知識
正則表達式(Regular Expression)是一種文本模式,包括普通字符(例如,a 到 z 之間的字母)和特殊字符(稱為"元字符")。
正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規(guī)則的字符串。
正則表達式是繁瑣的,但它是強大的,學會之后的應用會讓你除了提高效率外,會給你帶來絕對的成就感。只要認真閱讀本教程,加上應用的時候進行一定的參考,掌握正則表達式不是問題。
許多程序設計語言都支持利用正則表達式進行字符串操作。
正則表達式中的反斜杠字符(\)指示其后跟的字符是特殊字符,或應按原義解釋該字符。
下表列出了轉義字符:
字符類
字符類與一組字符中的任何一個字符匹配。
下表列出了字符類:

定位點
定位點或原子零寬度斷言會使匹配成功或失敗,具體取決于字符串中的當前位置,但它們不會使引擎在字符串中前進或使用字符。
下表列出了定位點:

分組構造
分組構造描述了正則表達式的子表達式,通常用于捕獲輸入字符串的子字符串。
下表列出了分組構造:

實例
using?System;
using?System.Text.RegularExpressions;
public?class?Example
{
? ?public?static?void?Main()
? ?{
? ? ??string?input?=?"1851 1999 1950 1905 2003";
? ? ??string?pattern?=?@"(?<=19)\d{2}\b";
? ? ??foreach?(Match match?in?Regex.Matches(input, pattern))
? ? ? ? ?Console.WriteLine(match.Value);
? ?}
}
運行實例 ?
限定符
限定符指定在輸入字符串中必須存在上一個元素(可以是字符、組或字符類)的多少個實例才能出現(xiàn)匹配項。 限定符包括下表中列出的語言元素。
下表列出了限定符:

反向引用構造
反向引用允許在同一正則表達式中隨后標識以前匹配的子表達式。
下表列出了反向引用構造:

備用構造
備用構造用于修改正則表達式以啟用 either/or 匹配。
下表列出了備用構造:

替換
替換是替換模式中使用的正則表達式。
下表列出了用于替換的字符:

雜項構造
下表列出了各種雜項構造:

Regex 類
Regex 類用于表示一個正則表達式。
下表列出了 Regex 類中一些常用的方法:

如需了解 Regex 類的完整的屬性列表,請參閱微軟的 C# 文檔。
實例 1
下面的實例匹配了以 'S' 開頭的單詞:
實例
using?System;
using?System.Text.RegularExpressions;
namespace?RegExApplication
{
? ?class?Program
? ?{
? ? ??private?static?void?showMatch(string?text,?string?expr)
? ? ??{
? ? ? ? ?Console.WriteLine("The Expression: "?+?expr);
? ? ? ? ?MatchCollection mc?=?Regex.Matches(text, expr);
? ? ? ? ?foreach?(Match m?in?mc)
? ? ? ? ?{
? ? ? ? ? ? Console.WriteLine(m);
? ? ? ? ?}
? ? ??}
? ? ??static?void?Main(string[]?args)
? ? ??{
? ? ? ? ?string?str?=?"A Thousand Splendid Suns";
? ? ? ? ?Console.WriteLine("Matching words that start with 'S': ");
? ? ? ? ?showMatch(str,?@"\bS\S*");
? ? ? ? ?Console.ReadKey();
? ? ??}
? ?}
}
當上面的代碼被編譯和執(zhí)行時,它會產生下列結果:
Matching words that start with 'S':The Expression: \bS\S*SplendidSuns
實例 2
下面的實例匹配了以 'm' 開頭以 'e' 結尾的單詞:
實例
using?System;
using?System.Text.RegularExpressions;
namespace?RegExApplication
{
? ?class?Program
? ?{
? ? ??private?static?void?showMatch(string?text,?string?expr)
? ? ??{
? ? ? ? ?Console.WriteLine("The Expression: "?+?expr);
? ? ? ? ?MatchCollection mc?=?Regex.Matches(text, expr);
? ? ? ? ?foreach?(Match m?in?mc)
? ? ? ? ?{
? ? ? ? ? ? Console.WriteLine(m);
? ? ? ? ?}
? ? ??}
? ? ??static?void?Main(string[]?args)
? ? ??{
? ? ? ? ?string?str?=?"make maze and manage to measure it";
? ? ? ? ?Console.WriteLine("Matching words start with 'm' and ends with 'e':");
? ? ? ? ?showMatch(str,?@"\bm\S*e\b");
? ? ? ? ?Console.ReadKey();
? ? ??}
? ?}
}
當上面的代碼被編譯和執(zhí)行時,它會產生下列結果:
Matching words start with 'm' and ends with 'e':The Expression: \bm\S*e\b make maze manage measure
實例 3
下面的實例替換掉多余的空格:
實例
using?System;
using?System.Text.RegularExpressions;
namespace?RegExApplication
{
? ?class?Program
? ?{
? ? ??static?void?Main(string[]?args)
? ? ??{
? ? ? ? ?string?input?=?"Hello ? World ? ";
? ? ? ? ?string?pattern?=?"\\s+";
? ? ? ? ?string?replacement?=?" ";
? ? ? ? ?Regex rgx?=?new?Regex(pattern);
? ? ? ? ?string?result?=?rgx.Replace(input, replacement);
? ? ? ? ?Console.WriteLine("Original String: {0}", input);
? ? ? ? ?Console.WriteLine("Replacement String: {0}", result);?? ?
? ? ? ? ?Console.ReadKey();
? ? ??}
? ?}
}
當上面的代碼被編譯和執(zhí)行時,它會產生下列結果:
Original String: Hello ? World ? Replacement String: Hello World ?
一、校驗數(shù)字的表達式
1. 數(shù)字:^[0-9]*$
2. n位的數(shù)字:^\d{n}$
3. 至少n位的數(shù)字:^\d{n,}$
4. m-n位的數(shù)字:^\d{m,n}$
5. 零和非零開頭的數(shù)字:^(0|[1-9][0-9]*)$
6. 非零開頭的最多帶兩位小數(shù)的數(shù)字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
7. 帶1-2位小數(shù)的正數(shù)或負數(shù):^(\-)?\d+(\.\d{1,2})?$
8. 正數(shù)、負數(shù)、和小數(shù):^(\-|\+)?\d+(\.\d+)?$
9. 有兩位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{2})?$
10. 有1~3位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{1,3})?$
11. 非零的正整數(shù):^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12. 非零的負整數(shù):^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13. 非負整數(shù):^\d+$ 或 ^[1-9]\d*|0$
14. 非正整數(shù):^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15. 非負浮點數(shù):^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16. 非正浮點數(shù):^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17. 正浮點數(shù):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18. 負浮點數(shù):^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19. 浮點數(shù):^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
?二、校驗字符的表達式
?1. 漢字:^[\u4e00-\u9fa5]{0,}$
2. 英文和數(shù)字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3. 長度為3-20的所有字符:^.{3,20}$
4. 由26個英文字母組成的字符串:^[A-Za-z]+$
5. 由26個大寫英文字母組成的字符串:^[A-Z]+$
6. 由26個小寫英文字母組成的字符串:^[a-z]+$
7. 由數(shù)字和26個英文字母組成的字符串:^[A-Za-z0-9]+$
8. 由數(shù)字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$
9. 中文、英文、數(shù)字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$
?10. 中文、英文、數(shù)字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
?11. 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+ 12 禁止輸入含有~的字符:[^~\x22]+
?三、特殊需求表達式
1. Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2. 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3. InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4. 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5. 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6. 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7. 身份證號(15位、18位數(shù)字):^\d{15}|\d{18}$
8. 短身份證號碼(數(shù)字、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9. 帳號是否合法(字母開頭,允許5-16字節(jié),允許字母數(shù)字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10. 密碼(以字母開頭,長度在6~18之間,只能包含字母、數(shù)字和下劃線):^[a-zA-Z]\w{5,17}$
11. 強密碼(必須包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12. 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13. 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$
14. 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15. 錢的輸入格式:
16. 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
17. 2.這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式:^(0|[1-9][0-9]*)$
18. 3.一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$
19. 4.這表示一個0或者一個可能為負的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數(shù)部分:^[0-9]+(.[0-9]+)?$
20. 5.必須說明的是,小數(shù)點后面至少應該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$
21. 6.這樣我們規(guī)定小數(shù)點后面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$
22. 7.這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 8.1到3個數(shù)字,后面跟著任意個 逗號+3個數(shù)字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24. 備注:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里
25. xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26. 中文字符的正則表達式:[\u4e00-\u9fa5]
27. 雙字節(jié)字符:[^\x00-\xff] (包括漢字在內,可以用來計算字符串的長度(一個雙字節(jié)字符長度計2,ASCII字符計1))?
28. 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)
?29. HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對于復雜的嵌套標記依舊無能為力)
?30. 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式)
31. 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
32. 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字)
33.?IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用)
34. IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))