最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Essential Math for AI(機(jī)翻)-第二章(3/3)

2023-04-13 17:20 作者:小溪流水20  | 我要投稿

數(shù)據(jù)分布:均勻分布

要直觀地理解均勻分布,我們可以給出一個(gè)非均勻分布的例子,我們?cè)诒菊虑懊嬉呀?jīng)看到過(guò)這個(gè)例子。在我們的真實(shí)身高-體重?cái)?shù)據(jù)集中,我們不能用均勻分布來(lái)模擬身高數(shù)據(jù)。我們也不能用它來(lái)模擬體重?cái)?shù)據(jù)。原因是人類的身高和體重并不是均勻分布的。在一般人群中,遇到一個(gè)身高約7英尺的人和遇到一個(gè)身高約5英尺6英寸的人的可能性并不相等。

均勻分布只能模擬均勻分布的數(shù)據(jù)。如果我們有一個(gè)包含所有數(shù)據(jù)值的區(qū)間(xmin,xmax),這個(gè)區(qū)間包含了xmin和xmax之間的連續(xù)數(shù)據(jù),而我們的數(shù)據(jù)在這個(gè)區(qū)間內(nèi)均勻分布,那么觀察到任何特定值附近的數(shù)據(jù)點(diǎn)的概率對(duì)于這個(gè)區(qū)間內(nèi)的所有值都是相同的。也就是說(shuō),如果我們的區(qū)間是(0,1),那么選擇一個(gè)接近0.2的點(diǎn)和選擇一個(gè)接近0.75的點(diǎn)的可能性是相等的。

因此,均勻分布的概率密度函數(shù)是常數(shù)。對(duì)于一個(gè)區(qū)間(xmin,xmax)上的隨機(jī)變量x,連續(xù)均勻分布的概率密度函數(shù)公式如下:

其他情況下為零。

讓我們繪制在區(qū)間(xmin,xmax)上的均勻分布的概率密度函數(shù)。圖2-8中的圖形是一條直線段,因?yàn)闊o(wú)論是實(shí)際數(shù)據(jù)還是模擬數(shù)據(jù),均勻分布的數(shù)據(jù)在整個(gè)考慮區(qū)間內(nèi)都均勻分布。在這個(gè)區(qū)間內(nèi),沒(méi)有數(shù)據(jù)值比其他數(shù)據(jù)值更容易出現(xiàn)。

圖2-8. 區(qū)間[0,1]上的均勻分布概率密度函數(shù)圖

均勻分布在計(jì)算機(jī)模擬中非常有用,可以用于從任何其他概率分布生成隨機(jī)數(shù)。如果您查看Python使用的隨機(jī)數(shù)生成器,您會(huì)在底層算法中看到均勻分布的應(yīng)用。

數(shù)據(jù)分布:鐘形正態(tài)(高斯)分布

一個(gè)更適合用于建模人類身高數(shù)據(jù)(當(dāng)限制在一個(gè)性別范圍內(nèi))的連續(xù)概率分布是鐘形的正態(tài)分布,也稱為高斯分布。來(lái)自正態(tài)分布的樣本傾向于聚集在分布峰值處的平均值附近,即均值μ,然后在遠(yuǎn)離均值的地方對(duì)稱地減少。分布在遠(yuǎn)離均值時(shí)的擴(kuò)散程度由正態(tài)分布的第二個(gè)參數(shù)來(lái)控制,稱為標(biāo)準(zhǔn)差σ。大約68%的數(shù)據(jù)落在均值的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi),95%的數(shù)據(jù)落在均值的兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi),約99.7%的數(shù)據(jù)落在均值的三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(圖2-9)。

圖2-9. 參數(shù)μ = 0和σ = 1的鐘形正態(tài)分布概率密度函數(shù)圖

當(dāng)我們從正態(tài)分布中抽樣數(shù)據(jù)時(shí),接近均值的數(shù)值更有可能被選中(或發(fā)生,或被觀察到),而非常小的值(→ -∞)或非常大的值(→ ∞)則不太可能被選中。這種在均值附近達(dá)到峰值,在分布的外圍逐漸衰減的特點(diǎn)使得這種分布具有著名的鐘形特征。請(qǐng)注意,還有其他鐘形的連續(xù)分布,但正態(tài)分布是最常見的。它有一個(gè)基于概率論中的一個(gè)重要定理——中心極限定理(CLT)的整潔的數(shù)學(xué)理由來(lái)證明這個(gè)當(dāng)之無(wú)愧的聲譽(yù)。

中心極限定理表明,許多相互獨(dú)立的隨機(jī)變量的平均值(這些隨機(jī)變量具有相同的分布,但不一定是正態(tài)分布)是呈正態(tài)分布的。這解釋了為什么正態(tài)分布在社會(huì)和自然界中無(wú)處不在。它可以用來(lái)模擬嬰兒出生體重、學(xué)生成績(jī)分布、國(guó)家收入分布、血壓測(cè)量分布等。有一些特殊的統(tǒng)計(jì)檢驗(yàn)方法可以幫助我們判斷一個(gè)真實(shí)的數(shù)據(jù)集是否可以用正態(tài)分布進(jìn)行建模。我們將在第11章中進(jìn)一步闡述這些觀點(diǎn)。

如果你碰巧遇到一個(gè)情況,你不確定并且沒(méi)有先驗(yàn)知識(shí)關(guān)于應(yīng)該為你的應(yīng)用使用哪種分布,正態(tài)分布通常是一個(gè)合理的選擇。實(shí)際上,在所有具有相同方差的分布選擇中,正態(tài)分布是具有最大不確定性的選擇,因此它實(shí)際上將最少量的先驗(yàn)知識(shí)編碼到你的模型中。 正態(tài)分布的概率密度函數(shù)公式對(duì)于一個(gè)隨機(jī)變量x(單變量)具有均值μ和標(biāo)準(zhǔn)差σ為:

對(duì)于 μ = 0 和 σ = 1,其圖像如圖2-9所示。

雙變量正態(tài)分布的概率密度函數(shù)公式(兩個(gè)隨機(jī)變量x和y)為:


并且其圖形在圖2-10中繪制。

我們可以使用線性代數(shù)的語(yǔ)言將上述雙變量公式寫成更簡(jiǎn)潔的表示形式:

在圖2-11中,我們從雙變量正態(tài)分布中抽取了6,000個(gè)點(diǎn)??拷行牡狞c(diǎn)更有可能被選中,而遠(yuǎn)離中心的點(diǎn)被選中的可能性較小。這些線大致描繪了正態(tài)分布的輪廓線,如果我們只觀察到樣本點(diǎn)而不知道它們來(lái)自哪個(gè)分布,就會(huì)得出這個(gè)結(jié)果。


圖2-10. 雙變量正態(tài)分布概率密度函數(shù)的鐘形圖形
圖2-11. 從雙變量正態(tài)分布中抽取6,000個(gè)點(diǎn)

讓我們暫停一下,將雙變量正態(tài)分布的概率密度函數(shù)公式與單變量正態(tài)分布的概率密度函數(shù)公式進(jìn)行比較。

相同的雙變量正態(tài)分布的概率密度函數(shù)公式可以推廣到任意維度,即有很多隨機(jī)變量而不僅僅是兩個(gè)隨機(jī)變量。例如,如果我們有100個(gè)隨機(jī)變量,表示數(shù)據(jù)集中的100個(gè)特征,那么公式中的均值向量將包含100個(gè)條目,協(xié)方差矩陣的大小將為100 × 100,對(duì)角線上是每個(gè)隨機(jī)變量的方差,非對(duì)角線上是4950對(duì)隨機(jī)變量之間的協(xié)方差。

數(shù)據(jù)分布:其他重要且常用的分布

幾乎所有你在本章中不理解的內(nèi)容都將在整本書中多次出現(xiàn),而第11章將專門討論概率。這些概念將在各種有趣的背景下不斷出現(xiàn)并得到強(qiáng)化。我們?cè)谶@一章的目標(biāo)是熟悉概率和統(tǒng)計(jì)的詞匯,并為經(jīng)常出現(xiàn)在AI應(yīng)用中的重要概念制定指導(dǎo)地圖。我們還希望在不進(jìn)行深入研究和不必要地拖延進(jìn)度的情況下,為接下來(lái)的章節(jié)培養(yǎng)良好的概率直覺(jué)。

有許多概率分布。每種分布都模擬了不同類型的現(xiàn)實(shí)世界場(chǎng)景。均勻分布和正態(tài)分布非常常見,但我們還有其他在人工智能領(lǐng)域經(jīng)常出現(xiàn)的重要分布?;仡櫼幌?,我們的目標(biāo)是為了做出好的設(shè)計(jì)、預(yù)測(cè)和/或決策而對(duì)周圍的世界進(jìn)行建模。當(dāng)我們的模型涉及隨機(jī)性或者我們對(duì)結(jié)果不確定時(shí),概率分布可以幫助我們進(jìn)行預(yù)測(cè)。

當(dāng)我們研究分布時(shí),一個(gè)令人沮喪的部分是大多數(shù)分布都有奇怪的名字,這些名字對(duì)我們理解某個(gè)分布可能有用的現(xiàn)象毫無(wú)幫助。這使我們不得不花費(fèi)額外的精力去記住這些名字,或者隨身帶著一個(gè)分布小抄。我更喜歡帶著小抄。另一個(gè)令人沮喪的部分是,大多數(shù)教科書示例涉及翻轉(zhuǎn)硬幣、擲骰子或從甕中抽取彩球。這使我們沒(méi)有現(xiàn)實(shí)生活中的例子或動(dòng)力去理解這個(gè)主題,因?yàn)槲覐奈从龅竭^(guò)四處翻轉(zhuǎn)硬幣并計(jì)算正反面的人,除了在《黑暗騎士》(一部2008年非常好的電影)中的雙面人(又名哈維·登特)。在這部電影中,小丑(由希斯·萊杰飾演)說(shuō)了一些關(guān)于隨機(jī)性和機(jī)會(huì)的深刻且令人難忘的話,比如這句:“世界是殘酷的。在一個(gè)殘酷的世界里,唯一的道德就是機(jī)會(huì)。公正無(wú)私,不帶偏見。公平?!?在這本書中,我將盡我所能進(jìn)行修正,盡可能舉出現(xiàn)實(shí)世界中的例子,以符合我的篇幅限制。

以下幾種分布在數(shù)學(xué)上彼此相關(guān),或者自然地從其他分布中推導(dǎo)出來(lái)。我們將在第10章中探討這些關(guān)系?,F(xiàn)在,讓我們列舉一種流行的分布,說(shuō)明它是離散的(預(yù)測(cè)我們關(guān)心的某種事物的數(shù)量)還是連續(xù)的(預(yù)測(cè)一個(gè)連續(xù)存在的量,如某事發(fā)生前需要經(jīng)過(guò)的時(shí)間;小心,這里不是小時(shí)數(shù),因?yàn)樾r(shí)數(shù)是離散的,而是時(shí)間段的長(zhǎng)度),說(shuō)明控制它的參數(shù),并說(shuō)明對(duì)我們的AI應(yīng)用有用的定義屬性:

二項(xiàng)分布

這是離散的。它表示在獨(dú)立地重復(fù)多次實(shí)驗(yàn)時(shí),獲得某個(gè)成功次數(shù)的概率。其控制參數(shù)是n,即我們執(zhí)行的實(shí)驗(yàn)次數(shù),以及p,即預(yù)先定義的成功概率。現(xiàn)實(shí)世界中的例子包括預(yù)測(cè)在臨床試驗(yàn)中,多少患者會(huì)對(duì)疫苗或新藥產(chǎn)生副作用,多少?gòu)V告點(diǎn)擊會(huì)導(dǎo)致購(gòu)買,以及多少客戶會(huì)違約每月的信用卡還款。當(dāng)我們使用概率分布模型來(lái)模擬現(xiàn)實(shí)世界中需要獨(dú)立實(shí)驗(yàn)的例子時(shí),這意味著我們假設(shè)它們是獨(dú)立的,即使現(xiàn)實(shí)世界中的實(shí)驗(yàn)并非真正獨(dú)立。指出我們模型的假設(shè)是一個(gè)良好的習(xí)慣。

泊松分布

這是離散的。它預(yù)測(cè)在給定的時(shí)間段內(nèi)會(huì)發(fā)生多少次罕見事件。這些事件是獨(dú)立的或弱相關(guān)的,意味著事件一旦發(fā)生,不會(huì)影響到它在同一時(shí)期下一次發(fā)生的概率。它們以已知且恒定的平均速率λ發(fā)生。因此,我們知道平均速率,我們想要預(yù)測(cè)在某個(gè)時(shí)間段內(nèi)會(huì)發(fā)生多少次這樣的事件。泊松分布的控制參數(shù)是預(yù)定義的罕見事件率λ?,F(xiàn)實(shí)世界的例子包括預(yù)測(cè)在一個(gè)小時(shí)內(nèi)出生的嬰兒數(shù)量,人口中年過(guò)98歲的人數(shù),放射性系統(tǒng)在一定時(shí)間內(nèi)釋放出的α粒子數(shù)量,國(guó)稅局發(fā)送的重復(fù)帳單數(shù)量,某一天出售的不太受歡迎產(chǎn)品的數(shù)量,這本書的一頁(yè)包含的錯(cuò)字?jǐn)?shù)量,某臺(tái)機(jī)器在某一天生產(chǎn)的次品數(shù)量,某個(gè)小時(shí)進(jìn)入商店的人數(shù),保險(xiǎn)公司在一定時(shí)間內(nèi)需要承保的汽車事故數(shù)量,以及在特定時(shí)間段內(nèi)發(fā)生的地震數(shù)量。

幾何分布

這是離散的。它預(yù)測(cè)在執(zhí)行獨(dú)立試驗(yàn)時(shí),在獲得成功之前需要進(jìn)行多少次嘗試,每次嘗試成功的概率為p。這里的控制參數(shù)顯然是成功的概率p?,F(xiàn)實(shí)世界的例子包括估計(jì)一個(gè)公司在不遇到網(wǎng)絡(luò)故障的情況下可以運(yùn)行多少周,一臺(tái)機(jī)器在生產(chǎn)出次品之前可以運(yùn)行多少小時(shí),或者在遇到反對(duì)我們想要通過(guò)的某項(xiàng)政治法案的人之前,我們需要面試多少人。同樣,對(duì)于這些現(xiàn)實(shí)世界的例子,如果使用幾何分布進(jìn)行建模,我們可能會(huì)假設(shè)試驗(yàn)是獨(dú)立的,而實(shí)際上試驗(yàn)可能并不獨(dú)立。

指數(shù)分布

這是連續(xù)的。如果我們恰好知道某個(gè)事件以恒定速率λ發(fā)生,那么指數(shù)分布就可以預(yù)測(cè)到該事件發(fā)生前的等待時(shí)間。它是無(wú)記憶的,因?yàn)閷儆谶@個(gè)指數(shù)分布的物品的剩余壽命也是指數(shù)的。控制參數(shù)是恒定速率λ?,F(xiàn)實(shí)世界的例子包括我們等待地震發(fā)生的時(shí)間、某人拖欠貸款的時(shí)間、機(jī)器零件失效的時(shí)間或恐怖襲擊發(fā)生的時(shí)間。這對(duì)可靠性領(lǐng)域非常有用,因?yàn)闀?huì)計(jì)算某個(gè)機(jī)器零件的可靠性,從而得出諸如10年保修期等聲明。

韋布爾分布

這是一個(gè)連續(xù)分布。它在工程領(lǐng)域中被廣泛用于預(yù)測(cè)產(chǎn)品壽命(10年保修聲明在這里也適用)。在這里,一個(gè)產(chǎn)品由許多部件組成,如果其中任何一個(gè)部件出現(xiàn)故障,產(chǎn)品就無(wú)法正常工作。例如,如果汽車電池出現(xiàn)故障,或者變速器中的保險(xiǎn)絲燒斷,汽車就無(wú)法工作。在考慮到汽車的許多部件及其最薄弱環(huán)節(jié)(假設(shè)我們沒(méi)有對(duì)汽車進(jìn)行維護(hù)并重置時(shí)鐘)后,Weibull分布可以很好地近似汽車在停止工作前的壽命。它由三個(gè)參數(shù)控制:形狀、比例和位置。指數(shù)分布是這個(gè)分布的一個(gè)特例,因?yàn)橹笖?shù)分布具有恒定的事件發(fā)生率,但Weibull分布可以模擬隨時(shí)間增加或減少的事件發(fā)生率。

對(duì)數(shù)正態(tài)分布

這是連續(xù)的。如果我們?nèi)∵@個(gè)分布中每個(gè)值的對(duì)數(shù),我們就得到正態(tài)分布的數(shù)據(jù)。這意味著在一開始,你的數(shù)據(jù)可能看起來(lái)不是正態(tài)分布的,但如果你嘗試用對(duì)數(shù)函數(shù)轉(zhuǎn)換它,你會(huì)看到正態(tài)分布的數(shù)據(jù)。當(dāng)遇到傾斜的數(shù)據(jù),低均值,大方差,并且只假設(shè)正值時(shí),這是一個(gè)很好的分布。就像當(dāng)你對(duì)許多獨(dú)立樣本的隨機(jī)變量求平均值時(shí)出現(xiàn)正態(tài)分布(使用中心極限定理),當(dāng)你取許多正樣本值的乘積時(shí),對(duì)數(shù)正態(tài)分布就出現(xiàn)了。從數(shù)學(xué)上講,這是對(duì)數(shù)函數(shù)的一個(gè)很棒的性質(zhì):乘積的對(duì)數(shù)是對(duì)數(shù)之和。這個(gè)分布由三個(gè)參數(shù)控制:形狀,尺度和位置。現(xiàn)實(shí)世界的例子包括石油儲(chǔ)備中的天然氣體積,以及一天結(jié)束時(shí)證券價(jià)格與前一天結(jié)束時(shí)價(jià)格的比率。

卡方分布

這是連續(xù)的。它是正態(tài)分布獨(dú)立隨機(jī)變量的平方和的分布。您可能會(huì)想知道為什么我們要關(guān)心正態(tài)分布隨機(jī)變量的平方,然后將它們相加。答案是這是我們通常計(jì)算隨機(jī)變量或數(shù)據(jù)樣本方差的方式,而我們的主要目標(biāo)之一是控制方差以降低我們的不確定性。與這個(gè)分布相關(guān)的有兩種顯著性檢驗(yàn):擬合優(yōu)度檢驗(yàn),用于衡量我們的期望與觀察結(jié)果的偏差程度;以及數(shù)據(jù)特征的獨(dú)立性和同質(zhì)性檢驗(yàn)。

帕累托分布

這是連續(xù)的。它對(duì)許多現(xiàn)實(shí)世界的應(yīng)用非常有用,例如分配給超級(jí)計(jì)算機(jī)(比如機(jī)器學(xué)習(xí)計(jì)算)的任務(wù)完成時(shí)間,特定人口的家庭收入水平,社交網(wǎng)絡(luò)中的朋友數(shù)量以及互聯(lián)網(wǎng)流量的文件大小。這種分布僅由一個(gè)參數(shù)α控制,并且它是尾部較重的(其尾部比指數(shù)分布更重)。

在繼續(xù)之前,讓我們?cè)俳榻B一些其他的分布,而不必?fù)?dān)心其中的任何細(xì)節(jié)。這些分布或多或少都與前面提到的分布有關(guān)。

學(xué)生t分布

連續(xù)分布,類似于正態(tài)分布,但在樣本量較小且總體方差未知的情況下使用。

貝塔分布

連續(xù)分布,生成給定區(qū)間內(nèi)的隨機(jī)值。

柯西分布

連續(xù)的、病態(tài)的分布,因?yàn)樗葲](méi)有定義的均值也沒(méi)有定義的方差,可以通過(guò)使用隨機(jī)選擇的角度的正切值來(lái)獲得。

伽馬分布

連續(xù)的,與等待時(shí)間直到 n 個(gè)獨(dú)立事件發(fā)生有關(guān)。

負(fù)二項(xiàng)分布

離散的,與獲得一定數(shù)量成功所需的獨(dú)立試驗(yàn)次數(shù)有關(guān)。

超幾何分布

離散的,類似于二項(xiàng)分布,但是試驗(yàn)之間不是獨(dú)立的。

負(fù)超幾何分布

離散的,表示在獲得一定數(shù)量的成功之前所需的依賴試驗(yàn)次數(shù)。


“Distribution”一詞的各種用法

您可能已經(jīng)注意到,根據(jù)上下文,“distribution”這個(gè)詞指的是許多不同(但相關(guān))的概念。這種對(duì)同一個(gè)詞的不一致使用可能會(huì)讓一些試圖進(jìn)入這個(gè)領(lǐng)域的人感到困惑,甚至產(chǎn)生排斥。

讓我們列舉單詞"distribution"所指的不同概念,以便我們?cè)谔囟ǖ恼Z(yǔ)境中容易識(shí)別其預(yù)期的含義:

  • 如果您有真實(shí)數(shù)據(jù),例如本章中的身高-體重?cái)?shù)據(jù),并繪制數(shù)據(jù)集的一個(gè)特征的直方圖,例如身高,那么您將得到身高數(shù)據(jù)的經(jīng)驗(yàn)分布。通常您不知道整個(gè)人群的身高的概率密度函數(shù),也稱為分布,因?yàn)槟鷵碛械恼鎸?shí)數(shù)據(jù)只是該人群的一個(gè)樣本。因此,您嘗試使用概率理論給出的概率分布來(lái)估計(jì)它,或?qū)ζ溥M(jìn)行建模。對(duì)于按性別劃分的身高和體重特征,高斯分布是合適的。

  • 如果您有一個(gè)離散隨機(jī)變量,"分布"這個(gè)詞可以指代其概率質(zhì)量函數(shù)或累積分布函數(shù)( 它指定了隨機(jī)變量小于或等于某個(gè)值的概率),f(x) = prob(X ≤ x) ).

  • 如果您有一個(gè)連續(xù)隨機(jī)變量,"分布"這個(gè)詞可以指代其概率密度函數(shù)或累積分布函數(shù),其積分給出了隨機(jī)變量小于或等于某個(gè)值的概率。

  • 如果您有多個(gè)隨機(jī)變量(離散的、連續(xù)的或兩者的混合),那么“分布”一詞指的是它們的聯(lián)合概率分布。

一個(gè)常見的目標(biāo)是在理想化的數(shù)學(xué)函數(shù)(如具有適當(dāng)分布的隨機(jī)變量)與實(shí)際觀測(cè)數(shù)據(jù)或現(xiàn)象(具有觀測(cè)到的經(jīng)驗(yàn)分布)之間建立適當(dāng)?shù)膶?duì)應(yīng)關(guān)系。在處理實(shí)際數(shù)據(jù)時(shí),數(shù)據(jù)集的每個(gè)特征都可以用隨機(jī)變量來(lái)建模。因此,在某種程度上,具有相應(yīng)分布的數(shù)學(xué)隨機(jī)變量是我們測(cè)量或觀察到的特征的理想化版本。

最后,分布在AI應(yīng)用中無(wú)處不在。在接下來(lái)的章節(jié)中,我們將多次遇到它們,例如神經(jīng)網(wǎng)絡(luò)每一層的權(quán)重分布,以及各種機(jī)器學(xué)習(xí)模型所犯錯(cuò)誤和噪聲的分布。

A/B測(cè)試

在本章結(jié)束之前,我們稍作拐彎,深入了解一下A/B測(cè)試的世界,也叫作拆分測(cè)試或隨機(jī)單盲或雙盲試驗(yàn)。我們之所以繞道講解這個(gè)話題,是因?yàn)檫@對(duì)數(shù)據(jù)科學(xué)家來(lái)說(shuō)非常重要:無(wú)數(shù)公司依賴于A/B測(cè)試的數(shù)據(jù)來(lái)提高用戶參與度、收入和客戶滿意度。微軟、亞馬遜、領(lǐng)英、谷歌等每年都會(huì)進(jìn)行數(shù)千次A/B測(cè)試。

A/B測(cè)試的概念很簡(jiǎn)單:將人群分為兩組。向其中一組推出你想要測(cè)試的某個(gè)版本(新的網(wǎng)頁(yè)設(shè)計(jì)、不同的字體大小、新的藥物、新的政治廣告),這是測(cè)試組,而另一組保持為對(duì)照組。比較兩組之間的數(shù)據(jù)。

如果受試者不知道他們屬于哪個(gè)組(有些人甚至根本不知道他們?cè)趨⒓訙y(cè)試),但實(shí)驗(yàn)者知道,那么這個(gè)測(cè)試就是單盲的。如果實(shí)驗(yàn)者和受試者都不知道他們正在與哪個(gè)組互動(dòng),那么這個(gè)測(cè)試就是雙盲的。

總結(jié)與展望

在本章中,我們強(qiáng)調(diào)了數(shù)據(jù)對(duì)于人工智能的重要性。我們還澄清了通常容易引起混淆的概念之間的區(qū)別:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),線性和非線性模型,真實(shí)和模擬數(shù)據(jù),確定性函數(shù)和隨機(jī)變量,離散和連續(xù)分布,以及后驗(yàn)概率和似然函數(shù)。我們還提供了一張關(guān)于人工智能所需的概率和統(tǒng)計(jì)的地圖,但沒(méi)有深入探討其中的任何細(xì)節(jié),并且我們介紹了最受歡迎的概率分布。

如果您在某個(gè)新的概率概念中感到迷茫,您可能需要查閱本章提供的地圖,了解該概念如何適應(yīng)概率論的大背景,以及最重要的是,它與人工智能之間的關(guān)系。如果您不知道某個(gè)特定的數(shù)學(xué)概念與人工智能的關(guān)系,那么您只能知道如何使用某種工具,但您不知道它的用途。

我們尚未提及隨機(jī)矩陣和高維概率。在這些領(lǐng)域中,概率論通過(guò)不斷跟蹤分布、期望和任何相關(guān)隨機(jī)量的方差,與線性代數(shù)相結(jié)合,后者非常關(guān)注特征值和各種矩陣分解。對(duì)于涉及AI應(yīng)用的極高維數(shù)據(jù),這些領(lǐng)域非常重要。我們將在第11章概率中討論它們。

在下一章中,我們將學(xué)習(xí)如何將數(shù)據(jù)擬合到一個(gè)函數(shù)中,然后使用這個(gè)函數(shù)進(jìn)行預(yù)測(cè)和/或決策。在數(shù)學(xué)上,我們找到表征數(shù)據(jù)特征之間各種相互作用強(qiáng)度的權(quán)重(ω)。當(dāng)我們描述所涉及的相互作用類型(擬合函數(shù)的公式,稱為學(xué)習(xí)或訓(xùn)練函數(shù))以及這些相互作用的強(qiáng)度(ω的值)時(shí),我們可以進(jìn)行預(yù)測(cè)。在人工智能中,這個(gè)用合適的權(quán)重值表征擬合函數(shù)的概念可以成功應(yīng)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、預(yù)測(cè)分析(如房?jī)r(jià)、維護(hù)時(shí)間等)以及許多其他應(yīng)用。

Essential Math for AI(機(jī)翻)-第二章(3/3)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
寿阳县| 桐乡市| 竹北市| 福清市| 紫金县| 会同县| 和田县| 正阳县| 阿尔山市| 上杭县| 庐江县| 彩票| 廊坊市| 桂东县| 常山县| 文安县| 陇南市| 周宁县| 田东县| 呼和浩特市| 永安市| 皋兰县| 深圳市| 甘德县| 合阳县| 登封市| 南充市| 英吉沙县| 舞钢市| 广德县| 阳春市| 西贡区| 阳泉市| 无锡市| 宁河县| 舒兰市| 孝昌县| 东辽县| 吴桥县| 屏山县| 仁怀市|