密碼密鑰硬編碼檢查
1. 密鑰的重要性
1.1. 看風(fēng)
我們還是先說(shuō)故事。話說(shuō)2006年有一個(gè)柳云龍的電視連續(xù)劇《暗算》分為三部曲《聽(tīng)風(fēng)》、《看風(fēng)》、《捕風(fēng)》。很有意思的是三個(gè)故事里都有個(gè)“風(fēng)”字。你看過(guò)風(fēng)嗎?我沒(méi)看到,只看見(jiàn)樹(shù)葉飄動(dòng),才知道風(fēng)來(lái)過(guò)。風(fēng),來(lái)無(wú)影,去無(wú)蹤,無(wú)孔不入,又無(wú)處不在。三部曲分別對(duì)應(yīng):偵聽(tīng)、破譯和諜報(bào)。故事描述了老一輩情報(bào)人員(一群與風(fēng)打交道的人),與敵斗智斗勇的故事,信仰的力量讓他們無(wú)所畏懼、勇往直前,看得人蕩氣回腸,催人淚下。
由于平時(shí)很少看電視,去年正在為一個(gè)算法發(fā)愁,偶然看到這個(gè)劇,感同身受,便一口氣看完了,里面一些對(duì)加密算法邏輯的一些看法,還是給了當(dāng)時(shí)的我很大的啟發(fā),讓我完成了當(dāng)時(shí)的算法,還特意發(fā)了微博紀(jì)念。 個(gè)人比較喜歡《看風(fēng)》破譯密碼這個(gè)章節(jié),里面有句經(jīng)典的臺(tái)詞:風(fēng)是看不見(jiàn)的,破譯密碼就是看見(jiàn)了風(fēng),密碼是兵器,是兵器中的暗器。
1.2. 保密通信模型
·?保密通信模型
·?

密碼學(xué)有一個(gè)重要的產(chǎn)物——密鑰。密鑰作為信息在傳播時(shí)用來(lái)加密的工具起著非常重要的作用。主流的六種密碼技術(shù),就是圍繞密鑰展開(kāi)的:對(duì)稱(chēng)密碼、非對(duì)稱(chēng)密碼、單向散列函數(shù)、消息認(rèn)證碼、數(shù)字簽名、偽隨機(jī)數(shù)生成器。
1.3. 密鑰的重要性
·?古典密碼學(xué)(1949年之前)
·?數(shù)據(jù)的安全主要是基于算法的保密。
送你一首小詩(shī):
我畫(huà)藍(lán)江水悠悠,
愛(ài)晚亭上楓葉愁。
秋月溶溶照佛寺,
香煙裊裊繞經(jīng)樓。
如果不告訴你這是首藏頭詩(shī),你還真的很難猜到唐伯虎對(duì)秋香的表白:“我愛(ài)秋香”。 藏頭詩(shī)就是加密算法的一種。
由于西方文字是由字母組成,字母又是有序的字符集。所以在對(duì)文字加密時(shí),密碼算法很容易想到采用:替代密碼、置換密碼或替代與置換密碼的組合,來(lái)完成完成信息的加密。公元前1世紀(jì)古羅馬的凱撒密碼,就是對(duì)文字中的字母,采用它在字母表中之后的第k個(gè)字母來(lái)代換,從而變成密文。在解密時(shí),反向移動(dòng)k個(gè)字母進(jìn)行還原。
這個(gè)時(shí)代將密碼發(fā)展到巔峰的,要算二戰(zhàn)時(shí)期德軍用機(jī)械實(shí)現(xiàn)的轉(zhuǎn)輪機(jī)(RotorMachine)ENIGMA密碼,很多的諜戰(zhàn)片都是圍繞這個(gè)機(jī)器展開(kāi)的。
這個(gè)時(shí)期的密碼存在很多的問(wèn)題:
·?不適合大規(guī)模生產(chǎn)
·?不適合較大的或者人員變動(dòng)較大的組織
·?用戶無(wú)法了解算法的安全性
奧古斯特·柯克霍夫在19世紀(jì)提出了密碼學(xué)上的柯克霍夫原則(Kerckhoffs’s principle)由:即使密碼系統(tǒng)的任何細(xì)節(jié)已為人悉知,只要密鑰(key)未泄漏,它也應(yīng)是安全的。?這個(gè)原則指導(dǎo)了以后的密碼學(xué)算法的發(fā)展。
·?近代密碼學(xué)(1949-1975)
·?數(shù)據(jù)的安全基于密鑰,而不是算法的保密。
香農(nóng)在20世紀(jì)40年代末發(fā)表的一系列論文,特別是1949年的《保密系統(tǒng)通信理論》,把密碼學(xué)推向了基于信息論的科學(xué)軌道。
這階段的發(fā)展主要是對(duì)稱(chēng)加密算法。對(duì)稱(chēng)加密是發(fā)送方使用某種公開(kāi)的算法使用密鑰對(duì)明文進(jìn)行加密,接收方使用之前發(fā)送方給予的密鑰對(duì)密文進(jìn)行解密得到明文。近代密碼發(fā)展中一個(gè)重要突破是“數(shù)據(jù)加密標(biāo)準(zhǔn)”(DES)的出現(xiàn)。
·?現(xiàn)代密碼學(xué)(1976-)
公鑰密碼使得發(fā)送端和接收端無(wú)密鑰傳輸?shù)谋C芡ㄐ懦蔀榭赡堋?/p>
1976 年 Diffie 和 Hellman 的公鑰密碼的思想提出,標(biāo)志著現(xiàn)代密碼學(xué)的誕生。這是密碼學(xué)發(fā)展史上具有里程碑意義的大事件,自此提出了許多種公鑰密碼體制 ,如基于分解大整數(shù)的困難性的密碼體制——RSA 密碼體制及其變種、基于離散對(duì)數(shù)問(wèn)題的公鑰密碼體制。
1.4. 密鑰泄露的危害
影響密碼系統(tǒng)安全性的基本因素:密碼算法復(fù)雜度、密鑰機(jī)密性、密鑰長(zhǎng)度。其中密鑰機(jī)密性與主要與密鑰的管理相關(guān)。如何保護(hù)好密鑰的安全就成了信息安全的非常重要的一個(gè)部分。
在現(xiàn)在的應(yīng)用系統(tǒng)中,密碼、密鑰往往被作為一種訪問(wèn)密鑰(access key)或憑證(Credentials),用于系統(tǒng)之間建立鏈接,避免了用戶密碼的明文傳輸。很多時(shí)候訪問(wèn)密鑰等同于密碼。
例如我們熟悉的GitHub的訪問(wèn)密鑰。當(dāng)我們獲得Github某個(gè)庫(kù)的地址訪問(wèn)密鑰,就可以在Windows的憑證管理或本地Git的憑證管理里添加這個(gè)訪問(wèn)密鑰,本地git和遠(yuǎn)端的訪問(wèn)庫(kù)地址就建立了信任鏈接,不再需要每次都輸入密碼。
但密鑰本地化,也會(huì)導(dǎo)致密鑰分散在代碼、配置文件中。一旦缺乏對(duì)密鑰的統(tǒng)一管理, 就容易導(dǎo)致密鑰泄露。員工不慎將密鑰泄漏到開(kāi)源網(wǎng)站導(dǎo)致重要數(shù)據(jù)丟失事件時(shí)有發(fā)生。
2018年某酒店集團(tuán)共140G約5億條個(gè)人信息遭泄露,被發(fā)現(xiàn)泄露的信息在境外黑市中售賣(mài)。究其原因,是該集團(tuán)對(duì)員工的安全意識(shí)缺乏足夠的教育培訓(xùn),導(dǎo)致開(kāi)發(fā)人員在無(wú)意識(shí)的情況下將公司測(cè)試平臺(tái)的賬號(hào)密碼發(fā)到 GitHub上,使得黑客下載了整個(gè)數(shù)據(jù)。
我們從Verizon(美國(guó)最大的有線通信和語(yǔ)音通信提供商),每年發(fā)布的《數(shù)據(jù)泄露調(diào)查報(bào)告(Data Breach Investigations Report(DBIR))》,來(lái)看下密碼密鑰在信息泄露中被黑客利用的情況。
·?

《2020數(shù)據(jù)泄露調(diào)查報(bào)告(DBIR)》
使用偷竊的信用憑證、利用員工誤發(fā)送、員工誤配置是數(shù)據(jù)泄露的主要威脅。內(nèi)部員工操作不規(guī)范、沒(méi)有養(yǎng)成良好的工作行為習(xí)慣以及疏忽大意等, 已成為多起嚴(yán)重網(wǎng)絡(luò)安全事件發(fā)生的根本原因。
?

?
《2021數(shù)據(jù)泄露調(diào)查報(bào)告(DBIR)》
61%的數(shù)據(jù)泄露涉及憑證數(shù)據(jù),憑證的泄露是信息泄露的主要途徑,防止憑證泄露對(duì)信息保護(hù)有著重要的作用。
?

《2022數(shù)據(jù)泄露調(diào)查報(bào)告(DBIR)》
憑證是發(fā)起攻擊的最重要的手段。
?

?
憑證和個(gè)人數(shù)據(jù)是黑客最喜歡獲取的兩類(lèi)數(shù)據(jù)
報(bào)告指出:我們長(zhǎng)期以來(lái)一直認(rèn)為,憑證是犯罪分子最喜歡的數(shù)據(jù)類(lèi)型,因?yàn)樗鼈儗?duì)于偽裝成系統(tǒng)上的合法用戶非常有用。就像諺語(yǔ)中披著羊皮的狼一樣,它們的行為在攻擊之前顯得無(wú)害。
?
o?
2. 密碼密鑰硬編碼的檢查
接下來(lái)我們看下如何防范密碼密鑰在帶碼中由于硬編碼導(dǎo)致的泄露。
先來(lái)看些如何鑒別密碼密鑰。
2.1. 香農(nóng)熵(Shannon entropy)
密鑰的長(zhǎng)度決定了密鑰空間(keyspace),通常以位為單位。密鑰空間越大,密鑰被攻破的難度就越大。
密鑰是由密鑰空間的隨機(jī)值構(gòu)成。對(duì)于任意一個(gè)隨機(jī)變量 X,它的熵定義如下:
H(X) = -?\sum_{x=1}^nP(x_i)log_2[P(x_i)]∑x=1nP(xi)log2[P(xi)]
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
·?P(x_i)P(xi)?: 指的是單個(gè)樣本變量所屬的變量種類(lèi)的個(gè)數(shù)占據(jù)所有變量個(gè)數(shù)的比例。
舉例:數(shù)據(jù)data有六個(gè)值,分為別為:[a,b,c,a,b,a];
樣本總個(gè)數(shù)是6,變量種類(lèi)數(shù)3;分別為[a:3, b:2, c:1]
所以對(duì)應(yīng)的pi分別為[a:1/2, b:1/3, c:1/6]
公式計(jì)算log以2為底數(shù)的pi的對(duì)數(shù)值,然后再乘以pi的負(fù)數(shù),再計(jì)算其加和,得到的便是香農(nóng)熵的值:1.4591479170272448。
/**
?* Base on shannon entropy return bits of entropy represented in string.
?*
?* @param str input string
?* @return entropy
?*/public?static?double?getShannonEntropy(String?str)?{
????int?num =?0;
????Map<Character, Integer>?pi =?new?HashMap<Character, Integer>();
?
????// count char in string
????char?cx;
????for?(int?l =?0;?l <?str.length();?++l)?{
????????cx =?str.charAt(l);
????????if?(pi.containsKey(cx))?{
????????????pi.put(cx,?pi.get(cx)?+?1);
????????}?else?{
????????????pi.put(cx,?1);
????????}
????????num =?num +?1;
????}
?
????double?entropy =?0.0;
????for?(Map.Entry<Character, Integer>?entry :?pi.entrySet())?{
????????cx =?entry.getKey();
????????double?p =?(double)?entry.getValue()?/?num;
????????entropy =?entropy +?p *?(Math.log(p)?/?Math.log(2));
????}
?
????return?-entropy;}
·?同等長(zhǎng)度的字符串,通常密鑰的熵值更高
·?密鑰為避免彩虹攻擊,在取值上更加的離散,會(huì)盡量采用不重復(fù)的字符。就像我們?yōu)榱嗽黾用艽a的復(fù)雜性,要求長(zhǎng)度不小于8,必須包含大小寫(xiě)、特殊字符、以及數(shù)字一樣的道理,所以密鑰的熵值會(huì)比一般的文本要高的多。我們就是利用這點(diǎn)來(lái)識(shí)別字符串是否是密鑰。
2.2. 工具的檢查邏輯
對(duì)于密碼密鑰的硬編碼檢查可以采用靜態(tài)分析工具來(lái)完成。工具的檢查過(guò)程通常包含四個(gè)過(guò)程:輸入文件準(zhǔn)備、檢查、過(guò)濾和報(bào)告輸出。
?

2.2.1. 輸入文件轉(zhuǎn)換
·?輸入文件分類(lèi)
·?我們需要檢查的文本文件進(jìn)行分類(lèi),通常包括以下幾種類(lèi)型:
o?程序語(yǔ)言:C、C++、Java、Python、Go、Js等;
o?有統(tǒng)一格式的文件:屬性文件、yaml、csv、json、xml等;
o?文本文件:沒(méi)有固定格式的文本文件。
分類(lèi)的目的是為了更好的識(shí)別文件中的字符串常量,充分利用字符串常量的上下文關(guān)聯(lián),以便在分析中最大程度的減少誤報(bào)。
·?輸入文件轉(zhuǎn)換
o?程序語(yǔ)言:通過(guò)各語(yǔ)言的語(yǔ)法解析器,解析成抽象語(yǔ)法樹(shù),提取語(yǔ)法樹(shù)中的等于字符串的常量,以及對(duì)應(yīng)的變量名;
o?有統(tǒng)一格式的文件:照格式轉(zhuǎn)換成變量名和字符串常量值;
o?文本文件:采用token的方式分割成一個(gè)個(gè)的token,變成一個(gè)各的字符串常量。
2.2.2. 密碼密鑰檢查
在我們得到大量的變量名和字符串常量后,主要通過(guò)正則表達(dá)式匹配的方式完成目標(biāo)的篩選。
由于檢查密碼密鑰的種類(lèi)和類(lèi)型不同,可以通過(guò)配置文件來(lái)提高檢查能力的可擴(kuò)展性。
·?檢查配置選項(xiàng)主要包括以下內(nèi)容:
信息
描述
選項(xiàng)
檢查類(lèi)型
可分為:變量名、字符串常量、或兩個(gè)都檢查
必選
密碼密鑰的類(lèi)型
用于區(qū)分不同類(lèi)型的密碼密鑰;同時(shí)用于告警時(shí)區(qū)分具體檢測(cè)到的密碼密鑰類(lèi)型
必選
正則表達(dá)式
主要設(shè)定匹配的長(zhǎng)度,每個(gè)字符的可選類(lèi)型
必選
熵值的閾值
用于精確的識(shí)別密碼密鑰的類(lèi)型,降低誤報(bào)
可選
例如:
·?檢查硬編碼的口令:檢查變量名中包含:password、passwd、pwd的變量,且變量等于字符串常量;正則表達(dá)式可以設(shè)置成為:".*(password|passwd|pwd)$"。
·?檢查GitHub的個(gè)人憑證:檢查字符串常量;這個(gè)憑證是以"ghp_"開(kāi)頭的,跟隨長(zhǎng)度為36的字符串,且每個(gè)字符可以為數(shù)字和字母;正則表達(dá)式可以設(shè)置成為:“ghp_[0-9a-zA-Z]{36}”。
2.2.3. 密碼密鑰過(guò)濾
靜態(tài)分析能很大程度上減少了人工審核的工作量,但由于檢查模式的不確定性,也會(huì)帶來(lái)不少的誤報(bào)。誤報(bào)會(huì)給用戶在審核過(guò)程中帶來(lái)很多的負(fù)面情緒,從而不愿繼續(xù)使用工具。為了進(jìn)一步降低誤報(bào),我們可以通過(guò)下面的方式來(lái)降低誤報(bào):
·?
密碼密鑰熵值的計(jì)算
前面討論過(guò)密碼密鑰的特點(diǎn),可以通過(guò)檢測(cè)密碼密鑰的信息熵的方式來(lái)降低誤報(bào)。有些密碼密鑰設(shè)定了最低的閾值,但還是有很多密碼密鑰并未給出具體的閾值,這個(gè)就需要通過(guò)經(jīng)驗(yàn)積累來(lái)設(shè)定,目前業(yè)界也有通過(guò)機(jī)器學(xué)習(xí)來(lái)完善這個(gè)閾值的設(shè)定。
·?
·?
污點(diǎn)分析
在代碼中,對(duì)于口令的變量的取名上,很多并不會(huì)遵守可讀性和可維護(hù)性來(lái)設(shè)定變量名,通過(guò)前面正則表達(dá)式的方式來(lái)查找硬編碼密碼的方式,會(huì)造成很多的漏報(bào)。這里還可以通過(guò)污點(diǎn)分析的方法,來(lái)推導(dǎo)出密碼是否采用了硬編碼。例如檢查jdbc連接的密碼參數(shù),查看該參數(shù)是否為字符串常量。
·?
2.2.4. 報(bào)告輸出
將經(jīng)過(guò)過(guò)濾后的結(jié)果,輸出告警,給出可能泄露的文件名和變量或可能為密碼密鑰的常量字符串位置,便于人工的排查。
·?
?