拜登選票不符合本福特定律?如何識別數(shù)據(jù)造假?

今年美國總統(tǒng)選舉簡直比電視劇還要精彩。先是特朗普團隊說自己已經贏了,緊跟著拜登翻盤,昨天又爆出某選區(qū)6000張投給特朗普的選票錯投給拜登。今天早上,拜登終于拿下超過270張選票,贏得選舉。

可是,貌似特朗普并不承認自己失敗。他發(fā)推特指責選舉公正性,并宣布自己贏得了選舉。推特官方在特朗普的發(fā)言下標注:本條關于選舉欺詐的聲明是有爭議的。

更有趣的是:有網友對一些選取的投票情況進行分析后發(fā)現(xiàn):拜登的選票數(shù)量居然不符合本福特定律。難道選舉真的存在欺詐嗎?本福特定律到底是什么?

去年11.11之前,我做了一期節(jié)目,教大家如何用本福特定律分析數(shù)據(jù)是否造假,當時的標的是天貓銷售額2684億。今天我們不妨借著美國大選的熱點,再來帶著大家復習一下本福特定律。視頻請見天貓“雙11”2684億銷售額造假了嗎?
1? 首位為1的概率有多大?
我們每天都會面對成千上萬的數(shù)據(jù),其中有些數(shù)據(jù)是非人為規(guī)定、雜亂無章的。例如世界上所有國家的人口數(shù)量、GDP、國土面積,一張報紙上的經濟數(shù)據(jù),彩票在各個城市的銷售額……等等。

如果我問:這些數(shù)字首位是1(比如1.25億,16,1356萬這樣的數(shù)字)的概率有多大?你會如何回答呢?
也許許多人會回答:1/9。因為首位可以是1、2、3、4、5、6、7、8、9,這些數(shù)字毫無規(guī)律,自然產生,所以首位是1的可能占1/9?;蛘吣氵€會用一個表格印證自己的想法:在一位數(shù)、兩位數(shù)、三位數(shù)…中,首位是1的數(shù)字都只有1/9。

不過,如果你真的拿出一張報紙進行統(tǒng)計,你會發(fā)現(xiàn)自己錯了,除掉電話號碼、郵政編碼、日期等特定規(guī)律的數(shù)字以外,首位是1的數(shù)字大約占到30%。
2??本福特定律
十九世紀,在還沒有計算機的時代,科學家們經常要查找對數(shù)表進行計算。1881年,天文學家紐康在查找對數(shù)表時發(fā)現(xiàn):對數(shù)表的前幾頁總是被人翻的比較爛,而后面的頁碼幾乎是全新的。他隱約的感覺到:自然界中的數(shù)字好像不是均勻分布的,許多數(shù)字都以1開頭,所以對數(shù)表的前幾頁才經常被人查閱到。

1938年,物理學家本福特也發(fā)現(xiàn)了這個規(guī)律,現(xiàn)在被我們稱為本福特定律:
從自然、生活中產生的數(shù)據(jù),在十進制中以數(shù)字n開頭的概率為:

按照這個公式,不同的首位數(shù)概率如下:

首位是1的數(shù)據(jù)居然比首位是9的數(shù)據(jù)多出六倍?事實真的是這樣嗎?
3??數(shù)據(jù)檢驗
我們需要使用一些數(shù)據(jù)來驗證本福特定律,這些數(shù)據(jù)必須具有一些特點:
第一:數(shù)據(jù)產生于生活或者自然中的,而不能是人為規(guī)定的,例如新生兒數(shù)量、死亡人數(shù)就滿足這個條件,而電話號碼、郵政編碼、彩票開獎號碼,都不滿足這個規(guī)律。
第二:數(shù)據(jù)量要足夠大,并且跨越幾個量級。例如不同國家國家的人口從幾百到幾十億,跨越了7個量級,就符合條件。而成人的身高基本都在1米到2米之間,跨度太小,就不滿足這個條件。
好了,現(xiàn)在我們可以進行驗證了。首先,我選擇我的視頻播放量數(shù)據(jù)來驗證本福特定律。我在某個平臺上上傳了266個科普視頻,有些視頻比較受歡迎,播放量比較大,比如視頻《芯片是怎么回事》有兩百多萬次播放。也有一些播放情況不太好,只有一兩萬次播放。我把所有視頻的播放次數(shù)統(tǒng)計了出來,統(tǒng)計出播放次數(shù)首數(shù)字為1的(無論是播放量1萬多、十幾萬或者一百多萬)、是2、是3…的視頻個數(shù),并且計算了它們各自所占的比例,如下所示:

如果我們把視頻播放量的首位數(shù)比例和本福特定律預言的比例放在一起,就會發(fā)現(xiàn):視頻播放量基本符合本福特定律。

我們再來用國家人口驗證一下。?我查找了2000年世界上235個國家和地區(qū)的人口情況,人口首位數(shù)是1的國家有67個,占比28.5%。具體的首位數(shù)比例如下:

把實際的頻率和本福特定律的預測放在一起,就得到了下圖,是不是也非常接近?

我們還可以用類似的方法統(tǒng)計世界上所有國家的GDP數(shù)據(jù)、領土面積等等,也會獲得類似的結果。


如果我們認為:無論是視頻播放量還是國家人口、領土面積、GDP等,都或多或少是因為人的因素造成的,我們是否能找到與人無關的數(shù)據(jù)呢?我們再舉一例:斐波那契數(shù)列。

斐波那契數(shù)列也叫做兔子數(shù)列,前兩個數(shù)字都是1,后面每個數(shù)字都等于前兩個數(shù)字之和,于是這個數(shù)列就是
1、1、2、3、5、8、13、21、34、55、89…
我統(tǒng)計了前154個斐波那契數(shù),它的大小已經從1增長到1031,其中首位數(shù)是1的數(shù)字有45個,占比29.2%。其余首位數(shù)的比例如下:

是不是非常神奇?除了斐波那契數(shù)列,許多物理、化學常數(shù)(例如放射性元素的半衰期)也符合本福特定律的預言。
4??用本福特定律發(fā)現(xiàn)假賬
如果我們掌握了本福特定律,就可以利用這個定律發(fā)現(xiàn)財務數(shù)據(jù)造假,因為造假者人為篡改了數(shù)據(jù),就會與本福特定律產生偏差。這里最典型的例子是安然公司。

2001年,美國最大的能源交易商、年收入破千億美元的安然公司宣布破產,同時傳出公司財務造假的傳聞。于是,有人用本福特定律對安然公司公布的財務報表進行了檢驗。下圖中左側是所有上市公司的財務數(shù)據(jù)與本福特定律的符合情況——簡直可以用“精準”二字形容;而右圖是安然公司在2000-2001年的財務數(shù)據(jù)與本福特定律的偏離情況,我們會發(fā)現(xiàn)數(shù)字1、8、9頻率相比本福特定律明顯偏大,而數(shù)字2、3、4、5、7又明顯偏小。這說明:安然公司的確有造假嫌疑。

最終,經過深入細致的調查,美國司法部認定安然公司財務造假,安然公司CEO杰弗里·斯基林被判刑24年并罰款4500萬美元;財務欺詐策劃者費斯托被判6年徒刑并罰款2380萬美元。有89年歷史并且位列全球五大會計師事務所的安達信因幫助安然公司造假,被判處妨礙司法公正罪后宣告破產,從此全球五大會計師事務所變成「四大」。
現(xiàn)在,本福特定律已經成為會計師們判斷銷售數(shù)據(jù)、財務報表等數(shù)據(jù)是否造假的依據(jù)之一,甚至還有人使用本福特定律來檢驗選舉中是否存在舞弊現(xiàn)象。例如:本次美國大選中,有網友指出:拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足“本福特定律”,而與此同時,特朗普在多個地區(qū)的曲線卻又正好滿足或基本滿足該定律。



這是否意味著拜登存在選舉舞弊?本著不干涉他國內政的原則,我對此不便于評論(評論也沒啥用),讓子彈飛一會兒,繼續(xù)看戲。
5??如何證明本福特定律?
那么,自然界中為什么會有這條神奇的定律呢?我們如何才能證明它?
因為本福特定律并非是嚴格定律,只在特定條件下成立,所以并不存在一般意義上的證明。或許,我們應該說,我們可以研究:究竟什么樣的數(shù)據(jù)更加符合本福特定律。
在生活中,有許多數(shù)據(jù)滿足這樣的特點:單位時間內的增長量正比于存量。
比如,我有100元,存到銀行里,年利息3%,明年就會變成103元。如果我有100萬,存到銀行里,明年就會變成103萬,這就是典型的增量正比于存量的情況。再比如,在相似的經濟環(huán)境下,人口的自然增長率是比較固定的,所以一個國家的人口越多,每年新增的人口也會越多,這也符合增量正比于存量。
視頻播放量又如何呢?許多視頻網站都采用數(shù)據(jù)流推送的方式,一個視頻有越多的人觀看、點贊、評論、轉發(fā),系統(tǒng)就會把這個視頻推送給更多的人,于是新增的觀看次數(shù)也會越多。

如果用數(shù)學語言來描述,增量ΔN與存量N和時間Δt之間滿足下面的關系:

這表示:在單位時間內,增量與存量之比是一個常數(shù)。如果在最初數(shù)據(jù)為N0,經過時間t,數(shù)據(jù)量就會變?yōu)?br>

這是一個指數(shù)型函數(shù),隨著時間的推移,數(shù)據(jù)會指數(shù)長大。而且,指數(shù)型函數(shù)有一個特點:數(shù)據(jù)從N1增長到N2的時間與兩個數(shù)據(jù)的比有關:

比如數(shù)據(jù)從1增長到10所需要花費的時間,與從10增長到100、從100增長到1000所花費的時間都是相同的。

如果數(shù)據(jù)滿足這個增長率,那么就有很大可能滿足本福特定律。比如,假設數(shù)據(jù)是2位數(shù),從10增長到20的過程首位數(shù)都是1,這段增長所需要花的時間為:

同樣,數(shù)據(jù)從20增長到30的階段首位數(shù)是2,時間為:

……
按照這個規(guī)律,數(shù)據(jù)在首位數(shù)是n的情況下增長時間為:

在兩位數(shù)的情況下,數(shù)據(jù)從10增長到100,首位數(shù)就會遍歷1、2、3、4、5、6、7、8、9,所需要花費的總時間也可以計算,為:

我們已經知道了這個增長數(shù)據(jù)保持兩位數(shù)的時間,還知道在增長過程中,不同首位數(shù)的時間。我們會發(fā)現(xiàn),從首位為1增長為首位為2時間最長,因此在進行統(tǒng)計時,這種數(shù)據(jù)出現(xiàn)的概率最大;而首位數(shù)為9的增長時間最短,這種數(shù)據(jù)出現(xiàn)的概率就小的多。
我們用首位數(shù)為n的增長時間占總增長時間的比例代表了首位數(shù)為n的概率,于是就會得到公式:

這就是本福特定律。
兩位數(shù)是這樣,三位數(shù)、四位數(shù)、五位數(shù)也同樣如此。每一個數(shù)據(jù)首位數(shù)的概率情況如此,那么當大量數(shù)據(jù)堆積到一起,首位數(shù)的頻率情況滿足本福特定律,就不足為奇了。

有關本福特定律的研究一直在進行中,前幾年我有一個學生叫做李聰喬,他現(xiàn)在在北大物理系讀書。前幾個月,他與老師馬伯強、同學叢明舒合寫了一篇論文《從拉普拉斯變換看首位數(shù)定理》,這篇論文對數(shù)據(jù)進行拉普拉斯變換,通過變換后的數(shù)據(jù)特點討論哪些數(shù)據(jù)更滿足本福特定律,有興趣的小伙伴不妨下載來看看哦。
