當前位置: 華文頭條 > 文化

統計學神書之後,國內概率論教材的天花板來了!

2024-07-10文化

2009年,圖靈出版了著名數學物理學家,聖路易華盛頓大學和史丹福大學教授,統計力學和概率統計推斷方面權威艾德溫·湯普森·傑恩斯的最重要的代表作【概率論沈思錄】的英文版。

引來眾多數學專業人士的交口稱贊,至今保持著豆瓣9.4的高分。被稱為「一本至今尚無中譯本的神書」。而現在,這本著作的中文版,終於在本科畢業於清華大學物理系,並在北京大學獲得空間物理學碩士學位的廖海仁的努力轉譯下正式出版了!

概率論作為邏輯的延伸,是所有科學推斷的基礎。本書收集了概率統計的各種線索,將概率和統計推斷融合在一起,用新的觀點生動地描述了概率論在物理學、數學、經濟學、化學和生物學等領域中的廣泛套用,尤其是闡述了貝葉斯理論的豐富套用,彌補了傳統概率論和統計學的不足,並揭開了眾多悖論背後的玄機。

【概率論沈思錄】既是一本數學書,也是一本科學哲學書,還可以被看作一本邏輯學書,甚至一本生活智慧書,可以幫助我們更好地認識這個世界並且更好地生活。本書專註於概念的詳盡解釋,提供大量生活例項和常識的解讀,也講述了概率統計的歷史脈絡和廣泛套用。

來源 | 【概率論沈思錄】

本書是我的思想多年演化的產物.我對概率論的興趣最初來自閱讀哈羅德·謝菲斯的著作(Harold Jeffreys,1939).我意識到他的觀點能讓我們以一種與眾不同的視角看待理論物理學的所有問題.隨後,考克斯(R. T. Cox,1946)、山農(Shannon,1948)和波利亞(Pólya,1954)的著作陸續為我開啟了新思想的一扇扇大門.

我對這些探索的興趣持續了大約 40 年之久.在這個更加廣闊、永恒的理性思維世界中,理論物理學的當前問題似乎只是短期內的細枝末節.

本書的寫作其實源於 1956 年在史丹福大學舉辦的一系列講座的筆記.這些講座的目的是講解波利亞關於「數學與合情推理」的令人振奮的新著作.他將我們直觀的「常識」分解為一組基本的定性條件,並且表明:數學家一直在使用它們來引導發現的過程,而且這種引導必然發生在找到嚴格證明之前.

這些結果很像占士·白努利的【猜度術】(James Bernoulli,1713)中古典概率論的內容,在它的基礎上,拉普拉斯在 18 世紀晚期發展出了分析概率論.但是波利亞認為這種相似性只是定性的.

波利亞對這種定性一致性做出了完整而詳盡的展示,說明合情推理與概率論之間一定存在更多聯系.幸運的是,套用考克斯的一致性定理足以證明這一點.將波利亞的定性條件與考克斯的一致性定理結合起來就能證明:如果合情程度由實數表示,那麽只能確定唯一一套用於推斷的定量規則.也就是說,與其矛盾的任何其他規則都必然會違反一條基本的合理性條件或者一致性原則.

但是,最終結果只是丹尼爾·白努利和拉普拉斯已經得出的概率論的標準規則.那又有什麽值得大驚小怪的呢?這裏重要的新特征是:這些規則現在被視為唯一有效的一般性邏輯原則,不涉及「偶然性」或「隨機變量」.

因此,它們的套用範圍遠遠大於 20 世紀早期發展起來的傳統概率論.結果就是,「概率論」與「統計推斷」之間的假想區別消失了,該領域不僅實作了邏輯上的統一性和簡單性,而且在套用中有更強的效力與靈活性.

因此,這些講座把重點放在推演波利亞觀點的定量規則上,以便將該規則用於科學推斷的一般性問題.幾乎所有的推斷問題都產生於不完全的資訊,而非「隨機性」.第 5 章將介紹波利亞的生平及這項工作是如何開始的.

一旦涉及套用,哈羅德·謝菲斯的著作就又成為我關註的焦點.他憑著直覺獲得了許多洞見,並且幾乎預見了我後來遇到的每一個問題.本書的獻詞只是我對他的感激之情的部份體現.對他著作的更多評論及其對我的影響分散在多個章節中.

1957~1970 年,這些講座不斷在其他許多大學和研究實驗室舉辦,內容不斷增加.在這一過程中,人們逐漸明白,傳統的「統計推斷」的突出困難很容易被理解和克服.但是,取而代之的規則在概念上非常微妙,需要深入思考才能明白如何正確運用.

人們過去認為運用拉普拉斯的概率論方法會導致某些不可克服的困難,從而拒絕這些方法.他們最終明白這些困難只是由誤用概率論方法造成的,通常是因為沒有明確地定義問題或者沒有意識到看似微不足道的資訊存在重要的影響.一旦意識到這一點,原先的困難就很容易被克服.我們的「擴充套件邏輯」方法與通常的「隨機變量」方法之間的各種關系以不同的形式出現在幾乎每一章中.

最終,我積累的材料多到無法被囊括在一系列簡短的講座中,本書的用途也演化到了教學之外.在克服原有困難之後,我們發現已經有了處理新問題的強大工具.大約自 1970 年以來,材料一直在以同樣的速度增加,但是主要來自我及同事的研究活動.我們希望本書的最終版本能體現材料來源的多樣性,既可用作教科書,也可用作參考書.事實上,我的好幾批學生已經把早期幾個版本的筆記傳授給了他們的學生.

綜上所述,我們在這裏參照卓思·達爾文在【物種起源】緒論中所寫的話:「我希望讀者原諒我贅述這些個人的細枝末節,我只是想借此說明,我未曾倉促立論而已.」

人們可能會認為 30 年前的著作在今天已經過時了.幸運的是,謝菲斯、波利亞和考克斯的著作是基礎性且永恒的,其中的真理並不隨著時間而改變,其重要性反而會隨著時間的推移而上升.他們對於推斷本質的洞察在 30 年前只是令人好奇,而今在幾個科學領域中愈顯重要,並會在未來 100 年的所有領域中都至關重要.

基礎

憑借多年將概率論套用於數以百計實際問題的經驗,我們對概率論基礎的看法已經變得非常復雜,不能簡單地使用「是此非彼」這樣的詞語來表述.比如,我們的概率系統在風格、哲學和目標上都與柯爾莫哥洛夫系統截然不同.我們認為「透過分析不完全資訊的邏輯來分配概率的原則」在概率論中占至少一半的比重,而這一原則在柯爾莫哥洛夫系統中根本不存在.

我們最終卻驚訝地發現,我們幾乎在所有技術問題上都與柯爾莫哥洛夫一致,與其批評者不一致.正如附錄 A 所述,針對所有實際目標,柯爾莫哥洛夫系統的每個公理都可以從波利亞和考克斯的合理性和一致性條件中匯出.簡而言之,我們認為我們的概率系統與柯爾莫哥洛夫系統並不矛盾,只是在尋求更深厚的邏輯基礎,使其朝著現代套用所需要的方向擴充套件.在這一努力過程中,許多問題已經解決,那些尚未解決的問題將成為開拓新領域的契機.

又比如,似乎每個人乍一看都認為我們的系統與德菲內蒂概率系統非常接近.事實上我也曾這樣認為.但是最終我們同樣驚訝地發現,兩者之間只存在些許松散的哲學一致性.在許多技術問題上,我們與德菲內蒂持截然不同的觀點.在我們看來,他對於無限集合的處理方式開啟了一個潘朵拉魔盒,其中充滿無用、不必要的悖論.非聚集性與有限可加性的範例將在第 15 章中討論.

無限集合的悖論如今已呈病態式擴散,以致威脅到概率論的根基,需要立即透過「手術」剔除.我們的系統在「手術」後會自動避免這種悖論.正確套用我們的基本規則不會產生這種悖論,因為這些規則只適用於有限集合,以及產生於有明確定義和良好表現的有限集合極限的無限集合.這種悖論的產生是由於:(1) 不指定任何極限過程就直接定義無限集合的性質;(2) 對於無限集合提出依賴於如何取極限的問題.

例如,對於「一個整數是偶數的概率是多少」這個問題,答案可以是開區間 (0, 1) 中的任何一個實數.這取決於使用什麽極限過程來定義「所有整數的集合」(正如條件收斂的數列可以根據各項的排列順序收斂到任一數值).

在我們看來,至少在概率論中,無限集合根本不能說真實「存在」或者說擁有任何數學性質——除非我們已經指定了從有限集合生成它的極限過程.換句話說,我們在高斯、克羅內克和龐加萊的旗幟下航行,而不是在康托爾、希爾伯特和布爾巴基的旗幟下.我們希望那些對此感到震驚的讀者能研讀數學家莫裏斯·基利因的著作(Morris Kline,1980),了解他對布爾巴基主義的控訴,然後耐心地閱讀本書,從而看到我們的方法的優勢.這種例子散見於本書的每一章.

比較

許多年來,一直存在著「頻率派」與「貝葉斯」推斷方法之爭,而我一直是貝葉斯一方的公開支持者.截至 1981 年的情況記錄在早期的一本書(Jaynes,1983)中.在這類早期的著作中,雙方都有一種強烈的傾向,就是在哲學或意識形態層面進行爭論.我們現在不再這樣做了,因為我們擁有已證明的定理以及大量範例,已經不再需要訴諸這樣的論證.

貝葉斯方法的優越性現已在上百個領域中得到充分驗證.人們可以與哲學爭論,卻不能與電腦的輸出結果爭論.這種輸出結果對我們說:「無論你們的哲學如何,這是實際執行的結果.」只要兩種方法的最終結果存在顯著差異,我們就會在書中詳細指出.

因此,我們將繼續為貝葉斯方法熱情辯護,但需要提醒讀者註意的是,現在的論證手段是參照事實,而不是宣稱哲學或意識形態方面的優越性.

然而,無論是貝葉斯方法還是頻率派方法,都不是普遍適用的.因此,在這本一般性的著作中,我們采用一種更廣闊的視角.我們的主題很簡單:作為擴充套件邏輯的概率論.這一新的認知相當於意識到概率論的數學規則不僅僅是計算「隨機變量」頻率的規則,它們也是進行任何形式的推斷(即合情推理)的唯一一致性規則,必須得到廣泛的套用.

確實,所有貝葉斯計算方法都自動歸屬於我們規則的特殊情況,所有頻率派計算方法也是如此.然而,我們的基本規則比這兩者中的任何一個都更廣泛.在許多套用中,我們的計算方法不屬於兩種派別中任何一派的範疇.

我們目前看到的情況是:只使用抽樣分布的傳統的頻率派方法只對許多特別簡單、理想化的問題適用.它們代表了概率論中最少見的特殊情形,因為它們預先假設了在實際問題中很難滿足的條件(獨立重復隨機試驗,但沒有相關的先驗資訊).這種方法難以滿足科學的實際需求.

此外,頻率派方法沒有提供消除冗余參數或考慮先驗資訊的技術手段,在沒有充分統計量或從屬統計量時甚至不能使用數據中的所有資訊.由於缺乏必要的理論原則,人們被迫根據直覺而不是概率論選擇一個統計量,然後被迫發明了在概率論規則中並不存在的特定工具(如無偏估計、置信區間、尾區顯著性檢驗等).每個特定工具都可以在它所為之發明的小範圍內使用.但是,正如考克斯定理所確定的那樣,這種隨意的工具在套用於極端情況時總會導致不一致甚至荒謬的結論.我們將看到許多這樣的範例.

頻率派方法的這些錯誤都可以使用貝葉斯方法糾正,貝葉斯方法適於解決「完善」(well-developed)的推斷問題.正如哈羅德·謝菲斯闡明的那樣,它們擁有一流的分析工具,能夠毫不費力地處理令頻率派方法失效的技術難題.它們能自動確定最佳估計量和演算法,同時考慮先驗資訊,並允許合理使用冗余參數,即使在極端的情況下也會繼續產生合情的結果而不會失效.因此,它們使我們能夠解決甚至無法使用頻率派術語討論的復雜問題.我們的主要目標之一是說明所有這些功能如何包含在作為擴充套件邏輯的概率論的簡單規則之中,而不需要——事實上也沒有空間——使用任何特定工具.

在使用貝葉斯方法之前,一個問題必須從「探索階段」演化到具有足夠的結構來確定所有需要的工具(模型、樣本空間、假設空間、先驗概率、抽樣分布).幾乎所有的科學問題都一定會經歷一個有推斷需求的初始探索階段.這時,頻率派的假設是無效的,而貝葉斯工具還不可用.實際上,某些問題永遠不會從探索階段演化到下一步.這個階段的問題需要從不完全的資訊中分配概率的更基礎方法.

為達到這一目標,最大熵原理提供了目前最清晰的理論依據.最大熵方法在計算上高度發展,也帶有一個與貝葉斯方法一樣強大且通用的分析工具.為了使用最大熵原理,我們必須定義樣本空間,但不需要模型或抽樣分布.實際上,熵最大化會從數據中為我們生成一個模型.這個模型在許多不同的標準評估下都是最優的.因此,在存在樣本空間而沒有模型的情況下使用最大熵原理,何樂而不為呢?

貝葉斯和最大熵方法在另一個方面也有不同.兩種方法都能根據已知資訊獲得最優的推斷,但是我們可以為貝葉斯方法選擇一個模型,以表達某些關於所觀察現象的先驗知識或者可行的假設.通常,這種假設超出了數據中可直接觀察的範圍,在這種意義上,我們可以說貝葉斯方法是(或者至少可能是)推測性的.如果額外的假設是正確的,那麽我們期望貝葉斯方法的結果將改進最大熵方法;如果額外假設是錯誤的,貝葉斯推斷則可能會比最大熵方法更糟.

最大熵是一種非推測性過程,因為它在樣本空間和可用數據的證據之外不做任何假設.因此,它只預測可觀測的事實(未來或過去的觀測值的函數)而不是可能只在我們的想象中存在的參數值.正是出於這一原因,當我們對原始數據之外的知識所知甚少時,最大熵是適當的(最安全的)工具.它可以使我們避免得出基於數據本身無法保證的結論.但是,當資訊非常模糊,甚至可能難以定義適當的樣本空間時,人們能否找到比最大熵更基礎的原理呢?這裏還有很多運用創造性思維的空間.

目前,在許多重要且非凡的套用例項中,最大熵是我們需要的唯一工具.本書的第二部份將詳細探討這些內容.通常,它們比第一部份的一般性套用需要更多的領域內專業知識.例如,所有的統計力學套用都是如此,當前非常成功的最大熵譜分析和影像重建演算法也是如此.然而,我們認為,當知道合適的模型和假設空間從而能融入更多先驗資訊時,後兩種套用將演變為適合使用貝葉斯方法的情況.

最後,在能力與通用性方面,學會使用作為擴充套件邏輯的概率論的科學家比僅掌握了一堆無關的特定工具的人具有更大的優勢.隨著問題復雜性的增加,這種相對優勢也會擴大.因此,我們認為,由於實際需要,未來所有定量科學的工作者都會以本書闡明的方式使用概率論.這一趨勢已經在計量經濟學、天文學、磁共振波譜學等領域中得到了證實.要在一個新的領域中取得進展,就需要對傳統和權威持一種健康的懷疑與批判態度,這種傳統和權威在整個 20 世紀都阻礙了我們的進步.

【概率論沈思錄】

作者:艾德溫·湯普森·傑恩斯 譯者:廖海仁

著名數學物理學家,聖路易華盛頓大學和史丹福大學教授,統計力學和概率統計推斷方面權謀艾德溫·湯普森·傑恩斯,40年思想著作;

無數讀者苦等15年的概率論神作,英文版豆瓣評分9.4高分;

02

【貝葉斯的博弈:數學、思維與人工智能】

法國數學類科普書、大學數學參考及教材類圖書暢銷書目,在機器學習、人工智能、邏輯學和哲學等眾多領域中,探索貝葉斯定理蘊藏的智慧與哲理。

貝葉斯定理一旦與演算法相結合,就不再是一套枯燥的數學理論或認識論,而變成了套用廣泛的知識寶庫,催生了眾多現代數學定理,以及令人稱道的實踐成果。

03

【趣學貝葉斯統計:橡皮鴨、樂高和星際大戰中的統計學】

本書用十余個趣味十足、腦洞大開的例子,將貝葉斯統計的原理和用途娓娓道來。你將從直覺出發,自然而然地習得數學思維。讀完本書,你會發現自己開始從概率角度思考每一個問題,並能坦然面對不確定性,做出更好的決策。