聽說高考數(shù)學全國卷三考了朵云……

按說每年高考的時候,最火的當屬全國各地的語文作文題,不管是躍躍欲試的段子手,還是幸災樂禍的朋友圈作文大賽選手們,都免不了俗要來上幾段。今年關于高考的熱搜倒是有點奇怪,據(jù)說高考數(shù)學全國卷三考了朵云,考了朵云……朵云……云……把很多考生都直接考懵了……

它那么可愛,人畜都無害。它做錯了什么,你們要這么對它……
不過對于曲線擬合,物理學家們實在是見得多了。而且有些擬合,還會讓你懷疑人生……

最天馬行空的擬合

二流的物理學家做合理的假設,一流的物理學家做不合理的假設。
這句話說的不是那些大家們都在瞎猜啊,而是說他們的眼光更具有前瞻性,發(fā)現(xiàn)物理問題的真正矛盾所在。舉一個大家最耳熟能詳?shù)睦?,愛因斯坦提出狹義相對論時候假設光速不變——無論在哪種慣性參考系中觀察,光在真空中的傳播速度相對于該觀測者都是一個常數(shù)。在當時想到麥克斯韋的經(jīng)典的電磁學理論和牛頓力學存在矛盾的人很多,但能把自己的平時的生活常識都給駁倒,讓自己去相信光速是不變的,只有愛因斯坦一個人。

可能你想象中高速運動的時候,你眼中的景色是這樣的,星光快速后退變成一條條的光帶。但實際上,因為狹義相對論預言的光行差效應,你眼中的光絕大部分都會集中到前進方向上,同時伴隨著強烈的多普勒效應。
在曲線擬合的時候,其實也是差不多的道理。在上個世紀初,也就是大概 100 年前的時候,天文學家們已經(jīng)能夠通過望遠鏡測量遙遠的天體距離地球的距離以及它們相對地球運行的速度。研究人員夜以繼夜地測量,終于得到了 40 個數(shù)據(jù)點。不得不說天文觀測確實是一個苦差事,雖然大家一般都會說日以繼夜,但光學望遠鏡在白天看不到啊,只能一個晚上又接著一個晚上熬夜。
最后哈勃利用這 40 個數(shù)據(jù)發(fā)表了哈勃定律,論文原圖大概是這個樣子。

雖然在這幅圖里面,大概能看出來距離和星云速度大概是呈現(xiàn)線性關系的,但敢在這么稀疏分布地這么散的數(shù)據(jù)點里面描出來一條直線,最后這條直線還被別人證實可以向前不斷延伸,只能說大神的世界我們真的不懂了……

四個參數(shù)畫大象

在物理學的研究中,物理學家們經(jīng)常建需要建立各種各樣的模型來幫助人們理解和計算物理量。在這其中免不了假設一些參數(shù)去擬合實驗數(shù)據(jù)得到的曲線。其中最著名的橋段,莫過于馮 · 諾依曼的「四個參數(shù)畫大象」。

故事大概是這樣的,彼時戴森是一個 26 歲的少年,但已經(jīng)成為康奈爾大學的教授,帶領著一個由研究生和博士后組成的小團隊進行介子和質子散射理論的計算。在一次與費米的討論中,戴森因為其理論計算結果和費米的實驗數(shù)據(jù)符合地非常好,喜不自禁,但是卻被費米潑了一盆冷水:「理論物理的研究有兩種方式,其一,這是也我更喜歡的,對你所計算的物理圖像有清晰的認識,其二,使用的是簡潔且自洽的數(shù)學公式。你兩個都不是。」[2]
這句話對從事物理學研究的戴森而言無疑打擊巨大。打個不恰當?shù)谋确?,發(fā)好人卡至少還說你是個好人了對吧。于是被打擊到的戴森決定問清楚為什么,但費米卻反問道,「你們在計算過程中引入了多少個任意參數(shù)?」戴森回答說四個。于是費米講了一句日后很著名的話:「我記得我的朋友馮 · 諾依曼曾經(jīng)說過,用四個參數(shù)我可以擬合出一頭大象,而用五個參數(shù),我可以讓它的鼻子動起來?!?/strong>
當然,關于馮 · 諾依曼到底有沒有說過這句話已經(jīng)是未解之謎了,因為這個故事是被費米流傳出來,借由戴森才廣為世人所知的。[3]

真的擬合出來了!

馮 · 諾依曼的「四個參數(shù)畫大象」已經(jīng)成為了一句名言?;氐轿覀儐栴}的主線上,那我們到底能不能利用參數(shù)擬合出一個大象來呢?在 1975 年,著名化學工程學家韋潛光(James Wei)在《化學工程》(Chemtech)上發(fā)表了題為「最小二乘法擬合大象(Least Square Fitting of an Elephant)」[4]?的論文具體地討論了這個問題,其中用到了傅里葉展開的方法。在選擇 5 個參數(shù)的時候,這種方式只能擬合出來一個蛋。要想較好地擬合出大象的形狀,需要多達 30 個左右的傅里葉展開項。[5]

這么有趣的研究,也有很多后來者在一直不斷地嘗試。目前最近的結果為 2010 年,Mayer?[6]?等人在韋潛光研究的基礎上更近一步,雖然同樣是利用傅里葉分析,但是它們把傅里葉展開中較小的那幾項給扔掉了,最后保留了能夠用四個復變量描述的一只可愛的大象。雖然丟失了一些細節(jié),比如尾巴之類的,但是說實話,是真的挺可愛的……


當然這種方法有很強的泛用性,你甚至可以擬合一只皮卡丘……[8]


機器學習中的過擬合

讓我們把話題重新轉回到擬合上面來。擬合這件事情真的是無處不在,比如現(xiàn)在正火熱的機器學習中。在統(tǒng)計學和機器學習中,他們同樣需要擬合曲線來消除隨機誤差和噪聲帶來的影響。但是在系統(tǒng)中的參數(shù)過多,模型過于復雜的時候,機器學習的就不那么好用了,它會糾結于系統(tǒng)中的誤差項,做出完全錯誤的預測。

最左邊的為欠擬合,系統(tǒng)并沒有很好地學習到數(shù)據(jù)的特征,只是非常粗暴地把整個區(qū)域一分為二,誤差很大,預測性也很差。最右邊則為過擬合,其預測曲線彎彎曲曲地繞過所有邊界,把兩類數(shù)據(jù)完完全全分割開來,如果這是一個分隔的任務的話,你可以認為它完成地十分出色。但是實際上這條曲線把所有的噪聲都考慮進來,而且太過復雜,可預測性也非常差。
而中間的這種擬合恰是理想的狀態(tài),基本完整地描述了數(shù)據(jù)的特征,而且很好地在誤差和噪聲中間得到了平衡。機器學習中對數(shù)據(jù)進行分類的方式則更加多樣,上述各種擬合情況都存在,怎么樣平衡誤差和噪聲,選取合適的模型,是機器學習核心的一個問題。


結? ?語

為了防止大家說標題黨,我們就用一張會動的云來結尾吧。至于怎么擬合,那就當課后習題好了(手動狗頭保命)

參考資料:
[1]?宇宙膨脹背后的故事(之十):哈勃的“新”發(fā)現(xiàn),科學網(wǎng),程鶚:http://wap.sciencenet.cn/blog-3299525-1179310.html
[2]?Dyson, Freeman.?"A meeting with Enrico Fermi."?Nature 427.6972 (2004): 297.? :https://www.nature.com/articles/427297a
[3] 關于這部分故事,可以參考:有哪些數(shù)學系鄙視物理系的經(jīng)典橋段? - qfzklm的回答 - 知乎:https://www.zhihu.com/question/269693413/answer/349760632
[4]?Wei, J.?"Least square fitting of an elephant."?Chemtech 5.2 (1975): 128-129. :http://www.personal.utulsa.edu/~geoffrey-price/Courses/ChE3063/FittingAnElephant.pdf
[5]?費米與大象,科學網(wǎng),邢志忠:http://blog.sciencenet.cn/blog-3779-803730.html
[6]?Mayer, Jürgen, Khaled Khairy, and Jonathon Howard. "Drawing an elephant with four complex parameters." American Journal of Physics 78.6 (2010): 648-649.
[7]?How to fit an elephant,John D. Cook:https://www.johndcook.com/blog/2011/06/21/how-to-fit-an-elephant/
[8]?https://mathematica.stackexchange.com/questions/17704/how-to-create-a-new-person-curve
>>熱門文章推薦<<




