大偏差與統(tǒng)計(jì)力學(xué)

大偏差理論,從數(shù)學(xué)上來說是:
概率的指數(shù)遞減的估計(jì);
LLN與CLT的推廣;
鞍點(diǎn)近似;
從物理上來說是:
熵與自由能的計(jì)算;
鞍點(diǎn)近似;
統(tǒng)計(jì)力學(xué)的數(shù)學(xué)基礎(chǔ)(相當(dāng)于微分幾何與廣義相對(duì)論的關(guān)系);
解釋了統(tǒng)計(jì)力學(xué)中的各種最大原理的來源;
它在物理中提到的不多,但是實(shí)際上很早就在物理中用到(自由能,作用量等等,本質(zhì)上都來自于此)。本文討論基本的大偏差原理以及它在平衡態(tài)/非平衡態(tài)統(tǒng)計(jì)力學(xué)中的應(yīng)用。

首先,什么叫做大偏差?我們稱一族隨機(jī)變量序列$\{A_n\}_{n=1}^\infty$滿足LDP,若

Remark:
左邊的da形式地表示[a,a+da]這個(gè)區(qū)間;
約等于號(hào)嚴(yán)格定義為兩邊取對(duì)數(shù)之后除以n的極限相等;
P(A_n\in da)這種表達(dá)是為了方便統(tǒng)一離散和連續(xù)的隨機(jī)變量。如果是離散的,P(A_n\in da)就是一個(gè)數(shù);如果是連續(xù)的,P(A_n\in da)=p_{A_n}(a)da表示概率密度函數(shù)。所以形式地這么寫是比較舒服的,不用管測(cè)度、Radon-Nikodym導(dǎo)數(shù)之類的事情。當(dāng)然一般當(dāng)成連續(xù)的也沒什么關(guān)系。
從物理上這樣一個(gè)LDP表達(dá)式的意義。我們看A_n(典型的例子,比如說可以是iid的樣本均值)的漸進(jìn)形態(tài):首先固定n,觀察a的變動(dòng),I(a)(速率函數(shù))相當(dāng)于一個(gè)“energy landscape”(-I(a)可以理解為熵。I(a)總是非負(fù)的凸函數(shù),可以有某些零點(diǎn)。而landscape的觀點(diǎn)在擴(kuò)散過程的平穩(wěn)分布上更加直觀);再把n變動(dòng),n表示體系的“大小”(比如化學(xué)反應(yīng)系統(tǒng)的體積)。隨著指標(biāo)n的上升,從微觀變成宏觀,只有I(a)零點(diǎn)處的概率保留下來(LLN),遠(yuǎn)離零點(diǎn)的概率都指數(shù)下降至0(并且關(guān)于n是一階的),也就是只剩下宏觀統(tǒng)計(jì)性質(zhì)。如果更細(xì)致地考察,把I(a)在零點(diǎn)處展開到二階(一階為0),則是一個(gè)正態(tài)分布,表示CLT。
所以LDP相當(dāng)于LLN與CLT的推廣,特別是在遠(yuǎn)離LLN處的微小概率的刻畫(“大偏差”)。
物理上,速率函數(shù)(的相反數(shù))代表熵,scaled cumulant generating function代表自由能。

大偏差這個(gè)toolbox要解決的就是兩個(gè)問題:
對(duì)于某個(gè)r.v.列,建立起LDP;
計(jì)算出速率函數(shù)。
大偏差中最重要的三個(gè)定理:Gartner-Ellis定理,Varadhan定理,以及收縮原理,用于解決以上的兩個(gè)問題。
首先是Gartner-Ellis定理。對(duì)于一個(gè)r.v.列\(zhòng){A_n\},計(jì)算它的scaled cumulant generating function(一種母函數(shù),物理上來說就是自由能):

如果它在R上存在并可微,那么這個(gè)序列就滿足LDP。此時(shí)這個(gè)scaled cumulant generating function具有比較好的性質(zhì)(0為一個(gè)零點(diǎn),0處的各階導(dǎo)數(shù)有比較明確的意義,凸函數(shù))。進(jìn)一步,對(duì)于第二個(gè)問題,速率函數(shù)就是scaled cumulant generating function的凸共軛。于是兩個(gè)問題都完全解決了。
Varadhan定理。說的是跟Gartner-Ellis定理相反,scaled cumulant generating function是速率函數(shù)的凸共軛。
收縮原理。說的是r.v.的變換。如果A_n的速率函數(shù)為I_A(a),那么B_n=h(A_n)的速率函數(shù)為

這很好理解,只有概率最大(速率函數(shù)最?。┑哪莻€(gè)點(diǎn)被保留下來。大偏差理論中總是只有概率最大的那個(gè)點(diǎn)留下來(最大熵,最小作用量,帶有三個(gè)inf的活化能)。

下面來看一些簡(jiǎn)單的應(yīng)用。
把Gartner-Ellis定理用于iid序列的樣本均值,得到的特例就是Cramer定理,此時(shí)scaled cumulant generating function退化為普通的cumulant generating function,直接經(jīng)過一次Legendre-Fenchel變換就可以得到速率函數(shù)。下面拿指數(shù)分布的獨(dú)立和來看看。考慮均值為1的iid指數(shù)分布列的樣本均值A(chǔ)_n=\frac{X_1+\cdots+X_n}{n}。利用Gartner-Ellis定理容易計(jì)算出

這個(gè)速率函數(shù)的樣子是(從landscape的角度看,可以直觀地看出這個(gè)分布是偏向于右側(cè)的)

它的唯一零點(diǎn)為1,在1處的展開得到

這就是CLT,而且也可以看出隨著n的增大,概率集中到1附近。但是這個(gè)展開在遠(yuǎn)離1的地方不成立,因?yàn)閤比較大的時(shí)候速率函數(shù)是線性的,所以這實(shí)際上是一個(gè)長尾的分布,在大偏差的地方,CLT是無法正確刻畫的(弱收斂當(dāng)然還成立,但是分布函數(shù)的收斂是絕對(duì)的差趨于0,與此并不矛盾)。
接下來做一個(gè)數(shù)值模擬。生成100個(gè)指數(shù)分布的r.v.之樣本均值的分布,觀察其分布。需要比較的是Gartner-Ellis定理計(jì)算的結(jié)果與CLT給出的結(jié)果在對(duì)數(shù)坐標(biāo)下的差別。

紅線是CLT,綠線是速率函數(shù)。由圖可見,速率函數(shù)(landscape)更加精確地刻畫了遠(yuǎn)離均值的“大偏差”的分布,它與簡(jiǎn)單的CLT可能有數(shù)量級(jí)上的差別。這就是大偏差的意義所在。

接下來是LDP在數(shù)學(xué)上的進(jìn)一步應(yīng)用與擴(kuò)展。前面(從大數(shù)定律出來的概率“凝聚”)iid樣本均值的LDP(即Cramer定理)稱為level-1的大偏差。
level-2的大偏差指的是Sanov定理意味上的。我們考慮經(jīng)驗(yàn)測(cè)度(empirial measure)的問題。對(duì)于一個(gè)離散隨機(jī)向量,我們可以定義一個(gè)新的隨機(jī)向量L_n,稱為“統(tǒng)計(jì)分布”或經(jīng)驗(yàn)向量,表示“觀察到的分布”。經(jīng)驗(yàn)向量的分布也有LDP,因?yàn)閺闹庇^上來看,類似LLN,它的概率也應(yīng)該凝聚到原有的分布向量附近。
直接應(yīng)用(多元)的Gartner-Ellis定理,可以得到L_n的速率函數(shù)為(負(fù)的)相對(duì)熵,它僅在L_n的分布完全與原分布吻合時(shí)才為0,否則均為正數(shù),所以經(jīng)驗(yàn)向量的概率會(huì)指數(shù)地凝聚到這個(gè)點(diǎn)上。這稱為Sanov定理,可以推廣到連續(xù)r.v.。

關(guān)于Markov鏈的大偏差。它是iid序列的最簡(jiǎn)單的擴(kuò)展,就像iid的SLLN可以推廣到Markov鏈的遍歷定理一樣,我們可以把iid的LDP推廣到Markov鏈,Cramer定理與Sanov定理都可以擴(kuò)展,具體可以看Touchette的文章。

下面討論速率函數(shù)非凸的情況,這一情況特別是在多穩(wěn)態(tài)的時(shí)候會(huì)出現(xiàn),此時(shí)Gartner-Ellis定理會(huì)失效,所以需要特別討論。(待補(bǔ)足)

下面用大偏差理論建立平衡態(tài)統(tǒng)計(jì)力學(xué)。
大偏差與平衡態(tài)統(tǒng)計(jì)力學(xué)的聯(lián)系在于:
速率函數(shù)~熵;
scaled cumulant generating function~自由能;
收縮原理~變分原理(熱力學(xué)量的最大/最小化)。
下面是基本設(shè)定。
系統(tǒng)有n個(gè)“粒子”(可以是原子,分子,自旋,格點(diǎn)之類的對(duì)象),這個(gè)n就是隨機(jī)變量列的指標(biāo),從小到大表示從微觀到宏觀,概率逐漸凝聚。
每個(gè)粒子的狀態(tài)是一個(gè)隨機(jī)變量\omega_i,總的概率空間的樣本點(diǎn)是\omega=(\omega_1,\cdots,\omega_n),概率空間計(jì)為\Lambda_n。每個(gè)\omega在物理上也稱作一個(gè)microstate,概率空間(加上sigma代數(shù)與概率測(cè)度)則可以稱作一個(gè)系綜。對(duì)一個(gè)系統(tǒng),它處于某個(gè)隨機(jī)的microstate。
這些粒子之間相互作用的Hamiltonian為一個(gè)隨機(jī)變量H_n(\omega)(比如說Ising模型臨近自旋的相互作用),平均能量定義為h_n(\omega)=H_n(\omega)/n,它被假設(shè)滿足LDP(就像sampling mean),會(huì)逐漸凝聚到最大可能的值。
\Lambda_n上的先驗(yàn)的概率測(cè)度一般取為均勻測(cè)度。也有用別的先驗(yàn)概率的情況。具體看是什么系綜。
所謂的macrostate或者說熱力學(xué)量,就是指一個(gè)隨機(jī)變量或者統(tǒng)計(jì)量M_n(\omega),它可以是溫度等等。它應(yīng)該要滿足LDP,也就是說在熱力學(xué)極限n\rightarrow \infty下,它的概率會(huì)凝聚于一個(gè)或若干個(gè)點(diǎn),這就是“平衡態(tài)”統(tǒng)計(jì)物理。
這種設(shè)定從最微觀開始就是隨機(jī)的,并沒有管從確定性動(dòng)力學(xué)到隨機(jī)的這一步,跟化學(xué)主方程的設(shè)定類似。至于最底層的是確定性還是隨機(jī),不管它。
統(tǒng)計(jì)力學(xué)就是找到熱力學(xué)量,建立LDP,并計(jì)算速率函數(shù)。

下面考察平均能量的大偏差。這是統(tǒng)計(jì)物理中最基本的一個(gè)LDP。
假設(shè)平均能量h_n滿足大偏差原理,則可以定義熵為速率函數(shù)的相反數(shù)

所以熵是能量u的函數(shù)。這里Boltzmann常數(shù)全部取為1,所以熵跟自由能都是無量綱量。換句話說,熵刻畫了的是平均能量的分布情況:

所以熵最大也就意味著概率最大,在熱力學(xué)極限下,只有熵最大的那個(gè)點(diǎn)留了下來。
自由能是按照scaled cumulant generating function定義的(稍微有些差別):

它是逆溫度\beta的函數(shù),也是一個(gè)無量綱量。\beta與u是一對(duì)共軛的變量。
需要注意的是這里的\phi跟熱力學(xué)中的自由能可能差了一個(gè)\beta,它應(yīng)該叫Massieu potential,不過方便起見就叫它自由能。
自由能與熵之間當(dāng)然也就是Legendre-Fenchel變換的關(guān)系。
我們還可以定義配分函數(shù)(也是逆溫度的函數(shù))

它其實(shí)就是出現(xiàn)在自由能定義中的矩母函數(shù)。矩母函數(shù)包含了分布的完全信息,所以配分函數(shù)可以計(jì)算出各種物理學(xué)量,這在概率和統(tǒng)計(jì)力學(xué)上都是很對(duì)的。它的對(duì)數(shù)就是cumulant generating function。

微正則系綜,即固定總能量H_n(\oemga)=U或h_n(\oemga)=u(當(dāng)然粒子數(shù)n也是固定的)。概率測(cè)度定義為子流形上的均勻測(cè)度P^u。正則系綜則為固定溫度。二者都可以在前面的框架下考察(待補(bǔ)足)。

非平衡態(tài)統(tǒng)計(jì)力學(xué),其數(shù)學(xué)形式已經(jīng)不是隨機(jī)變量,而是隨機(jī)過程,即需要考慮含有時(shí)間的情況?;镜拇笃畹乃枷肴缦拢嚎疾煲粭l確定性的軌道

如果在這個(gè)軌道上加上恒定的微小的白噪聲的隨機(jī)擾動(dòng):

當(dāng)\epsilon\rightarrow 0時(shí),這樣的軌道應(yīng)該集中于確定性軌道周圍。這樣的一種概率上的“集中”或者說“凝聚”就是前面討論的LDP。類比來想,這里的\frac{1}{\epsilon}就相當(dāng)于前面的大偏差理論中的n,遠(yuǎn)離確定性軌道的概率應(yīng)該是e^{-\frac{1}{\epsilon}c}方式遞減的。這就是軌道大偏差的基本思想。
換句話說,隨機(jī)變量的大偏差考慮的是“大體系極限(熱力學(xué)極限)”下概率的凝聚,隨機(jī)過程的大偏差考慮的是“弱噪聲極限”下概率的凝聚。
對(duì)于軌道,比較麻煩的是難以定義隨機(jī)函數(shù)的概率測(cè)度(當(dāng)然是可以干的,即Kolmogorov擴(kuò)展定理)。我們只考慮[o,\tau]這段有限長時(shí)間上的軌道X。形式地寫一條軌道的“概率密度”P[X],它是一個(gè)泛函。Freidlin-Wentzell的理論指出

其中作用量泛函或者說熵為

L為Lagrangian。這一看就是一個(gè)路徑積分的樣子,作用量泛函只有在吻合確定性軌道的時(shí)候才為0,概率會(huì)凝結(jié)到這條軌道上。更一般地,如果擴(kuò)散過程是一個(gè)一般的形式

那么拉格朗日量可以寫成

其中A是擴(kuò)散矩陣。此即擴(kuò)散過程的Freidlin–Wentzell定理。在布朗運(yùn)動(dòng)的特殊情況,這稱為Schilder定理。這樣一個(gè)LDP的結(jié)果嚴(yán)格意義上應(yīng)該怎么理解呢?
首先,J[x}是一個(gè)泛函,從C_0([0,\tau])映射到\bar{\mathbb{R}}上。如果X在Sobolev空間H^1([0,\tau])上的話,J[X]就按上面的方法定義;若不然(比如不可微),則定義為無窮大。對(duì)于每個(gè)C_0內(nèi)的集合G,

所以無窮大并沒有影響(體現(xiàn)的是收縮原理)。
接下來,考察從(0,x_0)跑到(\tau,x)的所有路徑,它的大偏差為

其中的quasi-potential為

這其實(shí)就是WKB近似(\epsilon\rightarrow 0,其實(shí)就是\hbar\rightarrow 0,隨機(jī)性消失,只剩下確定性)。這里面泛函的極小值問題就是經(jīng)典的Lagrange力學(xué)問題,可以用Euler-Lagrange方程求解。WKB近似是把\hbar近似到1階,軌道大偏差是把\epsilon近似到一階,二者本質(zhì)上是一回事。\hbar趨向于0時(shí),量子力學(xué)也就退化為經(jīng)典力學(xué)。這個(gè)近似其實(shí)也就是PDE(Fokker-Planck方程)的近似求解。
總的來說,軌道大偏差說的就是,有一些隨機(jī)軌道,每條軌道都有不同的概率,各個(gè)軌道之間的概率分配是按照作用量泛函決定的,當(dāng)隨機(jī)性趨向于0時(shí),只有其中概率最大的一條軌道被保留下來,概率都集中到它附近,其他軌道的概率都指數(shù)下降了。
如果聯(lián)系量子力學(xué)的路徑積分表示,還可以看到Feynman-Kac公式與Schrodinger方程的聯(lián)系,Ito擴(kuò)散過程的大偏差與路徑積分的聯(lián)系,這樣概率論的兩個(gè)方面與量子力學(xué)的兩個(gè)方面都聯(lián)系起來了。

Freidlin-Wentzell的軌道大偏差理論在數(shù)學(xué)中的應(yīng)用,在下面會(huì)舉出兩個(gè)例子。

對(duì)于一個(gè)Ito擴(kuò)散過程,我們經(jīng)常討論它在某一時(shí)刻的概率密度。嚴(yán)格的求解用的是Kolmogorov向前方程或者Fokker-Planck方程。但是在小噪聲的極限下,F(xiàn)reidlin-Wentzell的軌道大偏差理論給出了一種近似求解某一時(shí)刻概率密度的方法,即用quasi-potential表示。這時(shí)候跟隨機(jī)變量的大偏差類似,概率會(huì)集中在一個(gè)點(diǎn)附近。
考慮在一個(gè)有唯一穩(wěn)定不動(dòng)點(diǎn)的動(dòng)力系統(tǒng)上加上弱小的噪聲。最簡(jiǎn)單的情況為Ornstein-Uhlenbeck過程:

將其作用量最小化:

直接套用Euler-Langrange方程得到optimal path為

從而quasi-potential為

這正是平穩(wěn)分布時(shí)的potential。


第二個(gè)問題是從吸引子處逃脫的問題。給定一個(gè)確定性動(dòng)力學(xué)和一個(gè)穩(wěn)定不動(dòng)點(diǎn),以及一個(gè)逃脫邊界\partial D。逃脫邊界內(nèi)的確定性軌道全部會(huì)趨于穩(wěn)定不動(dòng)點(diǎn),但加上噪聲之后則有微小的概率在一定時(shí)間逃脫這個(gè)邊界。定義逃脫時(shí)間

定義活化能

也就是把quasi-potential盡可能取到最小。那么Freidlin-Wentzell的理論嚴(yán)格證明了以下兩個(gè)結(jié)果:

以及

這樣一個(gè)活化能的形式被稱為principle of minimum?available energy,其實(shí)也是一種收縮原理,即“從最可能的時(shí)間和地點(diǎn)以最可能的路徑逃出去”。
然后我們回到物理化學(xué)中的Arrhenius方程:

這看起來是一個(gè)Boltzmann分布的形式,以前也是按照這樣理解的。但是,化學(xué)反應(yīng)動(dòng)力學(xué)是一個(gè)非平衡態(tài),并沒有所謂的Boltzmann分布。這里的速率,實(shí)際上可以理解為某種“逃脫時(shí)間”的倒數(shù)。那么根據(jù)前面的Freidlin-Wentzell理論,速率當(dāng)然具有這種形式。所以,F(xiàn)reidlin-Wentzell理論解釋了為什么自然界的動(dòng)力學(xué)會(huì)有很多Arrhenius形式的規(guī)律?!盎罨堋钡母拍钜彩菑倪@里來的。
最后的評(píng)述:這個(gè)結(jié)果實(shí)際上相當(dāng)于Dynkin方程的WKB近似。

下面做一些數(shù)值模擬來驗(yàn)證上面的結(jié)果??紤]在勢(shì)場(chǎng)

中的(弱)隨機(jī)游動(dòng),考察其多久會(huì)逃出這個(gè)勢(shì)阱。我們把它當(dāng)作一個(gè)化學(xué)反應(yīng)動(dòng)力學(xué)的模型。SDE為

逃脫的邊界為\pm 1。這個(gè)例子中的活化能無法解析求解,只能數(shù)值計(jì)算。我們略過這一步,直接用隨機(jī)模擬來看<\tau_\epsilon>與\epsilon的關(guān)系。用Euler-Maruyama算法模擬隨機(jī)軌道。數(shù)值模擬結(jié)果為

可見這是一條非常好的直線。擬合得到活化能為1.9591。順帶一提,從圖中可以看到,隨著活化能(這里指E/\epsilon)增大,時(shí)間是指數(shù)上升的,這是蛋白質(zhì)折疊的Levinthal悖論的一個(gè)解釋。

最后,關(guān)于最小作用量原理、程函、路徑積分的一些評(píng)述。
熵和作用量本質(zhì)上來說是一回事,都是某種分布的rate function。區(qū)別在于,熵是平衡態(tài)統(tǒng)計(jì)力學(xué)體系的某種熱力學(xué)量(作為隨機(jī)變量)的rate function,是一個(gè)名副其實(shí)的函數(shù);而作用量則是某條軌道的泛函,是軌道分布的rate function。在熱力學(xué)極限或者弱擾動(dòng)極限/經(jīng)典極限下,前者留下的只有熵最大的一個(gè)值,后者留下的只有作用量最小的一條軌道。所以說,最小作用量原理和最大熵原理是一回事。
在經(jīng)典力學(xué)中,每條路徑有一個(gè)作用量泛函,Euler-Langrange方程限制了確定性的軌道必然按照作用量泛函最小的那條軌道走。
在量子力學(xué)的路徑積分表述中,軌道并不只有一條,每條軌道的概率與作用量泛函有關(guān)。在\hbar趨于0的經(jīng)典極限下,就退回到Euler-Lagrange方程。把Schrodinger方程近似到\hbar的一階,就是WKB近似,也就是軌道大偏差,此時(shí)大部分概率集中在optimal path附近。
在光學(xué)中,光程函就是作用量泛函即rate function。波動(dòng)光學(xué)在波長趨于0的情況下,就有大偏差原理,近似為最小光程函附近的軌道(Fermat原理),從而就有Snell折射定律等等。