動動手來學 Regular Expression 正規表達式
\[a-zA-z]{3,}|^\D$|^[0-9a-z]*$|^[0-9A-Z]*$\
相信大家在寫程式的過程當中,一定都曾看到過像上面這種,有點像亂寫的程式碼,有些可能看起來沒那麼複雜,而有些則是長到讓人難以招架,光是看到就讓人頭痛,更不用說去讀懂它了。
事實上,這種程式碼叫做正規表達式(RegExp,Regular Expression),是處理文字非常重要的利器,當你希望規範文字的格式、或者是限制使用者的文字格式時,正規表達式是不可或缺的存在。
文首的表達式是我超級討厭的銀行密碼格式(還有 PlayStayion Network 的密碼格式),會找出這些格式:
- 超過連續三個英文字母(不分大小寫)
- 沒有任何數字
- 沒有任何大寫字母
- 沒有任何小寫字母
只要你設立的密碼符合以上任何一個格式,程式就會拒絕你使用這組密碼,以這樣的方式來讓使用者建立出一個安全性相對高的密碼——雖然很多時候都是徒勞無功的。
在這篇文章當中,希望可以透過簡單明瞭的方式來講解正規表達式,並且讓大家在未來撰寫或閱讀正規表達式的時候,能夠得心應手,無所畏懼。
在 Ruby 裡面,有幾種方式可以定義正規表達式,比較普遍的方式是用 slash(/) 將正規表達式包起來,像是 /[a-zA-Z]*/
,而另一種方式則是用 Ruby 的 class生成,變成、 Regexp.new('[a-zA-Z]*')
,值得注意的是,使用第二種方式不需要加入 slash,只要將內容以字串方式傳入即可。大部分情況下我們會看到第一種方式,少部分的情況下,特別是需要動態產生正規表達式的時候,第二個方式會比較好用。最後則是將利用 %r{[a-zA-Z]*}
這樣的方式也可以定義正規表達式。
使用 %r 的情況下,不需要將 {} 裡面的表達式包成字串
在正規表達式當中,我們有幾個比較常用的 Match Character 來表示我們的規則:
Match Character | 規則 |
---|---|
. | 所有字元 |
\w | 所有字母,包含大小寫跟數字 |
\d | 所有數字(0-9) |
\D | 除了數字以外的字元 |
[ ] | 指定的範圍,例如[a-f] |
當然,只有 Match Character 還不夠,我們還必須指定字元是否重複,或者重複的次數,否則預設都是一個字元。
重複表示 | 規則 |
---|---|
? | 未出現或出現一次 |
* | 未出現或出現多次 |
+ | 出現一次或多次 |
{a} | 出現 a 次 |
{a,} | 至少出現 a 次以上 |
{,b} | 最多出現 b 次 |
{a,b} | 最少出現 a 次,最多出現 b 次 |
舉個例子來說,台灣的市話號碼有可能是七碼或者八碼,我們就可以利用 {a, b} 這個重複規則來做出正確的格式:/^\d{7, 8}$/
。這個正規表達式的意思,我們希望找出一個有七到八個數字的字串,而前面的 ^
以及後面的 $
分別代表字串的開頭開始和字串的結尾,這在很多場合是非常重要的。假設沒有規定必須從字串的最前面開始或在最後結束,他便會抓取最前面或是最後面符合的字串,如此一來便不符合我們希望的規則。
舉例來說,如果我們的規則是這樣 /^\d{7, 8}/
,沒有最後結束的符號,那麼即使當我輸入手機號碼 0955555555,他還是會回傳最前面的八位數字給你。
# incorrect
pry(main)> '09555555555'.match /^\d{7,8}/
=> #<MatchData "09555555">
# correct
pry(main)> '09555555555'.match /^\d{7,8}$/
=> nil
如此一來我們可以回頭看一開始的表達式
\[a-zA-z]{3,}|^\D$|^[0-9a-z]*$|^[0-9A-Z]*$\
這邊可以注意到,中間我們用 pipe |
來做分隔,其實 pipe 就是 or 的意思,我們可以利用這個方式來加入多個條件,因此我們也可以將表達是分開來解讀。
[a-zA-Z]{3,}
這個部分則表示我們要找出無論大寫或是小寫的字母,三個連續字母連在一起的組合。^\D$
這裡則表示找出整個字串都完全沒有數字的組合。^[0-9a-z]*$
這段則是找出整個字串中只有小寫和字母,意思就是字串中完全沒有大寫的組合。^[0-9A-Z]*$
和上面那段相似,只是找出沒有小寫的組合。
利用這個表達式,我們就可以順利做出一個討人厭的密碼規則囉,是不是很簡單呢?
在文章的最後,提供一個方便的線上工具,你可以在這個網頁上任意嘗試各種 RegExp 的組合,並且確認規則是否正確,非常地方便:http://rubular.com/
希望透過這篇文章,讓大家可以輕鬆地解讀正規表達式,並且也能夠順利地用正規表達式寫出簡潔的程式碼。
photo by Christiaan Colen