研究與分析中的基本定量方法
????????如果你能測量你所說,并且能用數(shù)字來表述它,那就說明你知道你在說什么;如果你不能測量你所說,并且不能用數(shù)字來表述它,那么你所知道的就存在不足,不夠充分 :它可以是認(rèn)知的開端,但你絕不可能達到科學(xué)高度。
——開爾文勛爵(原名威廉·湯姆森 (William Thomson,1824-1907)。愛爾蘭數(shù)學(xué)物理學(xué)家、工程師,熱力學(xué)溫標(biāo)(絕對溫標(biāo))的發(fā)明人,被稱為熱力學(xué)之父。)
????????在職業(yè)生涯中的某個時間,幾乎每一位研究或分析人員都會與定量數(shù)據(jù)打交道。有時,研究人員需要自已進行定量分析,但更多情況下,研究人員必須使用其他研究人員的定量分析成果。本章探討與情報研究和分析有關(guān)的一些基本數(shù)據(jù)和定量分析方法,有些情況下只講到一種方法,它的具體應(yīng)用會留給讀者思考,另一些情況下,尤其在討論某個具體方法時,會舉例證明它在解決情報問題中的應(yīng)用。
????????對于不熟悉數(shù)學(xué)符號意義的研究人員來說,本章所用到的一些公式也許看起來晦澀可怕,但實際操作通常很簡單。對于任何懂得一些基本代數(shù)知識的人來說,掌握這些公式都不成問題。本章的目的在于使研究人員了解統(tǒng)計學(xué)的基礎(chǔ)知識,而不是訓(xùn)練讀者去開發(fā)或應(yīng)用某一統(tǒng)計方法來解決某個具體問題:這也是核心目標(biāo)。
一、統(tǒng)計分析
????????統(tǒng)計學(xué)是研究大量數(shù)字?jǐn)?shù)據(jù)的搜集、分析和推斷的科學(xué)。統(tǒng)計學(xué)有種基本類型:描述統(tǒng)計、抽樣理論和推斷統(tǒng)計。描述統(tǒng)計表述一組數(shù)據(jù)大小和分布,例如,在對一次可疑的軍事動員的研究中,描述統(tǒng)計可以告訴研究人員,在過去幾個月內(nèi),經(jīng)鐵路從A地到B地運送重型武器的平板車 (atcar)的平均數(shù)。(研究人員還可以估算空車返回的平板車的平均數(shù))
????????抽樣理論使人們只根據(jù)總體的一部分,就可以推斷出很多(或所有)情況、事情、事件或狀況(即“總體”)。例如,關(guān)注A運往B物資動向的研究人員了解到每天有四輛火車在特定路線對開 (總體),但他只需每周兩次計算火車的平板車 (他的樣本)數(shù)量。抽樣理論使他可以自己制定觀測方案并確定樣本大小。
????????推斷統(tǒng)計是根據(jù)一組或幾組數(shù)據(jù)做出推斷,有多種功用。通過推斷統(tǒng)計,研究人員可以根據(jù)總體的樣本,量化描述總體參數(shù)的置信度。例如,研究人員也許發(fā)現(xiàn)西向火車的平板車每周按比例增加,相應(yīng)的,東向火車的空平板車也隨之增加,通過推斷統(tǒng)計,無論他每天或每周觀測一次,都可以判斷是否繼續(xù)同樣的趨勢。
????????推斷統(tǒng)計還可用于分析兩個或多個變量之間的關(guān)系。如果不僅記錄下載貨的西向平板車數(shù)量,還將它們按時間順序制成圖表,時間和平板車數(shù)量就都變成了重要的變量。運用線性回歸分析,可以畫出一條線來顯示平板車數(shù)量隨時間變動的增加趨勢。在本例中,統(tǒng)計推斷還可用于研究其他變量間的關(guān)系,例如火車總長與每輛火車的車廂數(shù)量的關(guān)系。


按時間順序記錄的數(shù)據(jù)繪圖2

二、數(shù)學(xué)分析
????????統(tǒng)計分析在情報研究與分析中尤其有用,因為分析人員經(jīng)常需要通過部分?jǐn)?shù)據(jù)得出結(jié)論,但有時使用簡單的數(shù)學(xué)公式更有效。例如,如果指官確定他正在和兩個獨立營的分隊交戰(zhàn),他只需將交戰(zhàn)部隊的數(shù)目乘以支部隊的兵力,就可以估計出敵人部隊的實力,如果他知道與他交戰(zhàn)的個營隸屬于某個團,只要將該團每支部隊的實力乘以部隊總數(shù),就可以計出即將遭遇的敵人的整體實力。在該例中,簡單的算術(shù)運算就足以讓人們做出準(zhǔn)確評估。

三、描述統(tǒng)計
????????描述統(tǒng)計是對大量數(shù)字信息進行概括總結(jié),并繪制出描述這些數(shù)字信息的圖表。描述統(tǒng)計可以通過繪圖、文字和數(shù)學(xué)計算來表述。本節(jié)將介紹描述統(tǒng)計的方法和手段,主要包括頻數(shù)分布、集中趨勢量數(shù)和分趨勢量數(shù)。
頻數(shù)分布:
????????對特點或特征的測量結(jié)果稱為值。一個具有不同值的特點或特征稱為變量。例如,研究人員想要研究一組人的身高、年齡、財富、教育程度、服役年限等,而群組中每個人的這些特點的值都不一樣,因此,就稱它們?yōu)樽兞俊?/p>
????????對每一類身高、年齡或其他變量的人的數(shù)量可以列出出現(xiàn)次數(shù)。例如,292名士兵的身高可通過測量得知,它們出現(xiàn)的次數(shù)。

????????這些士兵的身高按照每兩英寸間距記錄,這樣,單從該次數(shù)分布表中,無法將身高68英寸的士兵和身高69英寸的士兵區(qū)別開來。研究人員選擇正確的組距(class interval) 十分重要,組距的大小取決于該數(shù)據(jù)的實際用途。在本例中,選擇 1/8 英寸組距并不好,因為人的身高一天內(nèi)的變化通常都會超過1/8英寸;另一方面,選擇20英寸組距無法給研究人員示任何特點。多數(shù)情況下往往采用等距分組(例如,所有士兵采用2英寸組距而不是一些2英寸一些4英寸)。
????????該次數(shù)分布表顯示,多數(shù)士兵身高在 68-70 英寸之間、特別高或特別矮的人并不多,但這群人的身高特點,該次數(shù)分布表無法給讀者一個清晰的印象。通過繪制數(shù)據(jù)圖,將身高數(shù)據(jù)繪制在橫軸上,各數(shù)據(jù)對應(yīng)的人數(shù)繪制在縱軸上,就能呈現(xiàn)數(shù)據(jù)的直觀印象。
????????由長方形組成的圖稱為柱形圖,如果將每個長方形項線的中點連起來,圖像就更加直觀。該柱形圖顯示了每組中的個體人數(shù).每組的相對大小以及各組的分布情況,該柱形圖呈粗略對稱“曲線”,表示個高和個矮的士兵人數(shù)相當(dāng)。

集中趨勢量數(shù)
????????武器制造時通常只有一個尺寸,但武器的設(shè)計必須既能讓最高個子的士兵用,又能讓最矮個子的士兵用。因此,武器設(shè)計通常要適應(yīng)“典型”或“普通”士兵的需求。計算“典型”士兵身高是計算數(shù)據(jù)集中趨勢的一種方法,共有三種集中趨勢量數(shù):平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)表示平均水平,可通過將變量的所有個體值加起來,然后除以這些值的個數(shù)。在上面所舉的士兵身高的實例中,有很多身高相同的士兵,相比于將每個個體的身高相加,用下面的方式計算平均數(shù)效率更高。

????????每組的中間身高,例如 60-62 英寸組的中間身高是61英寸,這一數(shù)字乘以該組士兵人數(shù)得出第(3) 欄數(shù)據(jù),即該組距的“士兵一英寸數(shù)”總和,將第 (2)欄的數(shù)據(jù)加總、第 (3) 欄的數(shù)據(jù)加總,然后用第 (3)欄的總和除以第 (2)欄的總和,就可以得出平均數(shù)。
士兵的英寸數(shù)總和/士兵總?cè)藬?shù)=20421/295=69.2(英寸)
????????中位數(shù)指一組變量的中間值。例如,如果將所有士兵按從低到高的順序排列,排在中間位置的士兵的身高就是中位數(shù)。通過將數(shù)據(jù)重新排列,就可以得出中位數(shù) ,在第(3) 欄中,將每組士兵人數(shù)與之前組士兵人數(shù)相加,如12+28+37.....·由于共有295名,第148 位士兵的高度就是中位高度。根據(jù)第 (3) 欄數(shù)據(jù),第 148 位士兵身高為68-70英寸。眾數(shù)是出現(xiàn)次數(shù)最多的數(shù)據(jù)組,在本例中,眾數(shù)是68一70數(shù)據(jù)組(本組有50名士兵)。

????????如果準(zhǔn)備派送一些武器和裝備,對士兵的高度進行統(tǒng)計對比分析,能夠幫助規(guī)劃者決定需要提供的軍裝尺寸和武器型號。例如,225名士兵的高度柱形圖顯示,他們通常比其他士兵身高低得多,數(shù)據(jù)分布的平均數(shù)是62.4英寸,中位數(shù)和眾數(shù)在62一64英寸之間。因此,為適合一個典型的士兵,為其發(fā)放的軍裝應(yīng)該設(shè)計為比一個典型的其他士兵的軍裝短7英寸。

【在正態(tài)分布數(shù)據(jù)情況下,平均數(shù)、中位數(shù)和眾數(shù)大致相等】
分散趨勢量數(shù)
????????美軍士兵身高數(shù)據(jù)的分布差異達20英寸 (60-80英寸),如果每一個2英寸組士兵需要一套不同尺寸的軍裝,那么所有士兵就需要10套不同尺寸的軍裝。而在盟軍士兵組中,最高和最矮士兵身高差異只有 18英寸,如果使用與上面相同的標(biāo)準(zhǔn),整組人群只需9套軍裝。分布在平均值之外的數(shù)據(jù)稱為“分散數(shù)據(jù)”,高而窄的柱形圖的數(shù)據(jù)分散程度不及低而寬的柱形圖廣。一種較常用的度量分散趨勢的方法稱為標(biāo)準(zhǔn)差(standard? deviation),它可以表示該組中多數(shù)士兵距離平均身高的遠近程度。
【標(biāo)準(zhǔn)差計算:


????????就像計算平均數(shù)一樣,每個組距的中間值代表該組距。
????????士兵的身高標(biāo)準(zhǔn)差為 3.93 英寸。該量數(shù)顯示,多數(shù)兵身高高于58.5 英寸但低于 66.3 英寸。如果身高的分布形成一個正態(tài)曲線,那么,68%的身高將包含在平均數(shù)左右各1個標(biāo)準(zhǔn)差范內(nèi),95%的身高包含在距平均數(shù) 上下1.96 個標(biāo)準(zhǔn)差內(nèi)。本例中,身高的分形成了與正態(tài)鐘形圖非常接近的曲線,據(jù)此可以斷定,約 2/3 的身高數(shù)量分布在距平均數(shù) 1個標(biāo)準(zhǔn)差范圍內(nèi)。
????????A部士兵身高的平均標(biāo)準(zhǔn)差為 4.07 英寸。因此,多數(shù)A部身高于65.1英寸但低于 73.3 英寸。要對比兩個分布的分散程度,可用標(biāo)準(zhǔn)差除以平均數(shù),這樣就可以比較兩個分散趨勢量數(shù)。運用除法的必要性在于,對于身高較低的B部士兵來講,距平均數(shù) 1 英寸的差異的百分比要大于A士兵身高距其平均數(shù) (高于或低于) 1 英寸的差異的百分比。
相對差異量數(shù)稱為變異系數(shù) (coeficient of variation),對于B部士兵,它等于:

對于A部士兵,它等于:

????????該量數(shù)顯示,B數(shù)據(jù)的分布比A數(shù)據(jù)更分散。需要注意的是,盡管A士兵身高數(shù)據(jù)的全距(range) 和標(biāo)準(zhǔn)差更大,但B身高的變異系數(shù)更大。全距和變異系數(shù)用于度量數(shù)據(jù)分散程度的兩個不同方面。
????????美國和蘇聯(lián)持續(xù)關(guān)注各自的相對國防能力,由于兩國對艦船的分類大相徑庭,因而很難對他們的海軍艦隊實力做出比較。在分析兩國艦隊實力前,首先可以比較他們海軍護衛(wèi)艦的數(shù)量和大小(排水量)。艦船數(shù)據(jù)的柱形圖顯示,兩國對護衛(wèi)艦的定義差別很大,蘇聯(lián)護衛(wèi)艦比美國的小得多但數(shù)量占優(yōu)勢。
利用下列數(shù)字就可以描述兩國各自的“典型”護衛(wèi)艦

????????美軍護衛(wèi)艦尺寸的平均數(shù)為6379噸,中位數(shù)為5670噸,眾數(shù)為4700噸,其分布不符合鐘形曲線,其平均數(shù)、中位數(shù)和眾數(shù)的值差異較大。聯(lián)艦船尺寸平均數(shù)為1070噸,其中位數(shù)和眾數(shù)均為950噸,美軍艦船的變異系數(shù)是0.2723,蘇聯(lián)為 0.1463,因此,美軍稱為護衛(wèi)艦的艦船分類蓋的尺寸范圍比蘇聯(lián)更廣
????????相比護衛(wèi)艦,美軍遠洋護衛(wèi)艦的艦船與蘇聯(lián)的護衛(wèi)艦更相似。如果繪制一個遠洋護衛(wèi)艦柱形圖,將會顯示一些遠洋護衛(wèi)艦的尺寸與蘇聯(lián)的護I艦接近,盡管美軍遠洋護衛(wèi)艦分類范圍更大一些。美軍遠洋護衛(wèi)艦的平數(shù)、中位數(shù)和眾數(shù)分別為 3494、4100和 4100 噸,同樣的方法可以用于析兩國海軍所有艦船的類型和特點,對基于排水量和級別的艦隊力量的圖解結(jié)果進行判讀,是比較兩國艦隊的便捷方法。

四、抽樣理論
????????很多時候,分析人員或研究人員想繪制一個“對手”活動的分布圖,這對于發(fā)現(xiàn)一些反常情況十分重要,沒有分布圖 (或其他原始資料數(shù)據(jù)),就不可能判斷出某個事件或狀況是否典型。例如,情報分析人員想要繪制某國通訊社發(fā)送的信息種類的分布圖,他希望該分布圖可以代表
“典型”的一天,因此,他要回顧該通訊社一段時間內(nèi)發(fā)送的信息。如分析人員無法閱讀該通訊社發(fā)布的每一篇報道,他就只能選一部分來仔閱讀。
????????研究人員感興趣的所有內(nèi)容項目也許涵蓋了該通訊社某月發(fā)布的所有文章。這個數(shù)據(jù)的全體稱為總體或全域,從總體中選出來用于分析的部分稱為樣本。如果樣本選擇仔細,就可以根據(jù)樣本特征推斷總體特征。選擇樣本的方法有好幾種,具體選擇哪種方法取決于抽樣的目的。
隨機抽樣
????????隨機抽樣給予總體中的每個個體平等的被選擇機會。選擇隨機抽樣時經(jīng)常會采用隨機數(shù)表,其他的隨機抽樣方法包括從帽子中抽取帶有編號的紙條法或投硬幣法。在本例中,可以采用隨機數(shù)表來幫助我們選擇哪些時段的通訊報道需要仔細回顧,還可以預(yù)先決定在某一天選擇 10篇發(fā)布的報道。這10篇報道可以根據(jù)隨機數(shù)表選擇,記下10個5位數(shù)的后兩位沿著第一排數(shù)字查找。這 10個兩位數(shù)應(yīng)該是 56、57、42、22、06、45、55、05、30和80,那么當(dāng)天需要閱讀的報道將是第5、第 6······直到2400小時后發(fā)布的第 80篇報道。
【所以,為什么推薦讀報紙比手機更有效(擺手)】
????????該例還有更簡單的抽樣方法,那就是使用每篇文章標(biāo)題數(shù)據(jù)里的時間日期抽樣,例如可以選擇每個整點第 37 分鐘左右發(fā)出的報道。這種抽樣方法盡管可以接受,但有時容易產(chǎn)生偏見。例如,如果想監(jiān)視廣播報道,分析人員選擇每小時第 55 分鐘的節(jié)目作為研究對象,它發(fā)現(xiàn)這個時段經(jīng)常是體育或天氣報道。基于該偏見性廣播報道樣本的分布圖就會讓人覺得,該電臺所有時間報道的都是體育和天氣情況。
【看軍事頻道學(xué)習(xí)種地(doge)】
????????隨機抽樣的一個主要好處是,分析人員可以根據(jù)抽樣來評估集中或分散趨勢量數(shù)的準(zhǔn)確性。因此,分析人員就能回答這樣的問題 :“我對所計算的抽樣平均數(shù)在總體平均數(shù)范圍內(nèi)有多大的置信度?”
從盟軍士兵身高的例子可以看出建立置信水平 (confdence level)的用處,參與身高測量的 225 名B部士兵也許是從一個幾百萬的總體中抽取的隨機樣本,他們的平均身高為62.42 英寸,該平均身高也許和總體身高相同,另一方面,也許有人會質(zhì)疑說B部士兵的平均身高是64英寸。分析人員可以用下面的方式為其計算的平均身高建立一個置信水平,他知道樣本的大小、樣本平均數(shù)和樣本標(biāo)準(zhǔn)差。
n=225
x=62.42“”
co = 3.93“”
????????從隨機抽樣的數(shù)學(xué)理論來講,他也知道他的樣本平均數(shù)可能高于或低于總體真實平均數(shù)。如果從總體中選取幾個樣本,大部分樣本的平均數(shù)會稍大或稍小,一些樣本的平均數(shù)會過大或過小。
????????如果xpop 代表總體真實平均數(shù),很多樣本平均數(shù)將接近真實平均數(shù)(有 33 個樣本的平均數(shù)為x2,略大于真實平均數(shù)),只有個別樣本平均數(shù)偏差較大 (8 個樣本的平均數(shù)為x,小于真實平均數(shù)較多)。分布于真實平均數(shù)兩邊的各樣本平均差會形成正態(tài)鐘形曲線。
????????樣本平均值的標(biāo)準(zhǔn)誤差(standard error) 必須經(jīng)過計算,以確定62.42英寸的估計平均身高在實際平均身高的估計區(qū)間內(nèi)的可能性。標(biāo)準(zhǔn)誤差的計算公式如下:
co/x=o/n
如果把樣本的co作為總體標(biāo)準(zhǔn)差的估計值,該公式變化如下:

????????要為估計平均身高 62.42 英寸建立置信水平,必須查找正態(tài)分布表該正態(tài)分布表可告訴分析人員,估計平均數(shù)在真實平均數(shù)區(qū)間內(nèi)的可能性。例如,如果分析人員算出身高范圍為從?62.42"-1co/x或62.42"-0.262"= 62.158"到62.42"+1co/x或62.42+0.262"= 62.682“
????????正態(tài)分布表告訴他,真實平均數(shù)位于該實際數(shù)據(jù)范圍的概率為 68%。另一方面,分析人員可以首先明確身高范圍,從而使真實平均數(shù)位于該實際數(shù)據(jù)范圍的概率達到95%。分析人員通過查對分布表發(fā)現(xiàn),95%的置信水平為樣本平均數(shù)上下1.96 個標(biāo)準(zhǔn)差,這樣就可以確定出樣本的范圍62.42"-1.96co/x或62.42"-0.514"= 61.906”
62.42"+1.96co/x或 62.42"+0.514"= 62.934"
????????隨著量信水平的增加 (本例中從 68% 增加到 95%),范圍大小也會增加,隨機抽樣也可以使研究人員確定數(shù)據(jù)的點數(shù)(n值),從而對分析結(jié)果的置信水平有一定的把握。
分層隨機抽樣
????????分層隨機抽樣(stratified sampling)的目的是選取能夠代表整個調(diào)查對象特點的樣本。分層隨機抽樣通過兩步來實現(xiàn)。首先,將總體分為若干子集,這些子集具有相似的特征變量值,它們正是需要研究的內(nèi)容,你需要記下每個子集的大小;然后,根據(jù)每個子集在總體中所占的比例,簡單隨機抽取一定大小的樣本。
????????例如,要制訂一項軍用民事行動計劃一一如建一座橋,需要對村民進行民意調(diào)查。如果不可能(或者不可取) 和每一位村民面談,就可以根據(jù)村民的年齡、性別和職業(yè) (特指該例中) 建立訪談對象的人數(shù)和類型,確定每組對象的人數(shù),計算每組對象人數(shù)在總體中的比例。然后,從每組每5%的人中,選擇一個作為訪談對象。這樣,孩子占村民人數(shù)的 30%,因此,就可以隨機選取 6 個孩子代表村里的所有孩子。本例中,通過每5%選一個對象,最終將產(chǎn)生一個約20 人的樣本。
(控制樣本大小有助于分析人員估計總的訪談時間)。
????????如果每組至少有一人進行面談,“其他”組至少應(yīng)選擇一人。由于其他”組的人數(shù)只占總體人數(shù)的 3%,因此在樣本中的比例略高。
????????如果總體分成子集(分類)的分法恰當(dāng),相比于大多數(shù)的隨機抽樣,分層抽樣會產(chǎn)生更具有代表性的樣本。但是,無法對分層抽樣的值進行置信水平評估。而且,要定義子集,就必須了解更多關(guān)于總體的情況,在缺乏人口統(tǒng)計數(shù)據(jù)的情況下,也許很難進行分層抽樣。


五、概率概述
????????概率論是推斷統(tǒng)計的數(shù)學(xué)基礎(chǔ)。概率論能夠產(chǎn)生隨機事件發(fā)生頻率的“理想”分布,正態(tài)分布就是一個“理想”分布的例子。在“理想”情況下,具體x值的相對頻率可以精確繪制出來,這樣所選的6個x值都位于正態(tài)曲線內(nèi)?,F(xiàn)實數(shù)據(jù)很少能夠完全符合該理想數(shù)據(jù)模式,事件發(fā)生的頻率要么太過頻繁,要么不夠頻繁,如曲線B和曲線C,它們各自的6個值分別分布在曲線上或下。然而,曲線B和C代表的兩組數(shù)據(jù)非常接近正態(tài)分布曲線因而可以將正態(tài)分布曲線作為分析這些數(shù)據(jù)的基礎(chǔ)。

????????概率范圍為從不可能(概率為0)到絕對可能(概率為 1)。按照概率個事件可以發(fā)生或不發(fā)生,假如 p 是事件 E 發(fā)生的概率,其不發(fā)生的概率q 可以表示為方程:q=1-p。
????????例如,民主黨(D)、共和黨 (R)、自由黨 (L) 和保守黨(C)每個黨派都指派一位候選人競選美國參議院議員。假如前兩位獲勝的機會比后兩位大一倍,同時,假如一定要進行選舉,那么每位候選人獲勝的概率可以表示為方程:
Pr【D】+Pr【R】Pr【L】Pr【C】=1,或2/6+2/6+1/6+1/6=1
自由黨候選人不能獲勝的概率見方程:
Pr【NOT? L】= 2/6+2/6+1/6=5/6
????????概率法律(additive law of probability) 指出幾個互斥事件中某一事件不發(fā)生的概率等于各個獨立事件發(fā)生的概率之和。
????????另一概率定律一一乘法律(muliplicative law) 指出,幾個接連發(fā)生獨立事件的概率等于各個事件的概率的乘積。在選舉的例子中,乘法律用于計算兩個自由黨竟選人在兩個州競選參議院議員的概率。
????????假如自由黨在每個州獲勝的概率為 1/6,其總概率可以用方程表示:
Pr【L in both】= 1/6 * 1/6 = 1/36
概率分布
????????可以計數(shù)的數(shù)據(jù),如城市人口,稱為離散數(shù)據(jù) (discrete data);可能發(fā)生在某個范圍內(nèi)任一點的數(shù)據(jù),如車速,稱為連續(xù)數(shù)據(jù)(continuousdata)。情報研究人員有時必須同時測量離散和連續(xù)現(xiàn)象,兩種數(shù)據(jù)都有幾種重要的概率分布。這里只詳細探討其中的三種:正態(tài)分布、二項式分布和指數(shù)分布。
????????所有的概率分布都可以通過繪圖來表示,即將事件發(fā)生的次數(shù)繪制在一個軸上,將事件發(fā)生的概率繪制在另一個軸上。一個表示數(shù)值頻率的柱形圖與用同樣數(shù)值繪制的概率分布圖之間的關(guān)系,可通過下面這個智商(IQ) 測試結(jié)果的例子得到解釋。
????????智商測試結(jié)果柱形圖表示的是某一樣本人群的智商分布。該圖顯示該人群中大部分人的智商處于平均水平,該柱形圖形狀接近對稱,表示高智商人數(shù)與低智商人數(shù)差不多。

正態(tài)分布
????????一個有經(jīng)驗的研究人員從該柱形圖的外觀就可以看出,該分布圖接近正態(tài)分布。當(dāng)正態(tài)分布作為數(shù)據(jù)分析的模型時,就可以根據(jù)正態(tài)分布,而不是數(shù)據(jù)的原始柱形圖,做進一步分析。要使現(xiàn)實數(shù)據(jù)匹配理想的概率分布.往往要從足夠大的總體中抽取樣本。例如用于描述智商測試結(jié)果的正態(tài)分布圖由230個樣本組成,它取自一個10000人的總體。研究人員假定該總體的智商分布為正態(tài)。智商分布圖稍顯不規(guī)則的原因在于,該樣本不太具有總體代表性。正態(tài)分布是一個連續(xù)分布,它可用于描述各類數(shù)據(jù),包括能力、人群身高,以及機器生產(chǎn)的產(chǎn)品大小的細微差別等。
二項式分布
????????二項式分布(binomial distribution)描述的是離散數(shù)據(jù)。它用于描述發(fā)生概率(p)固定的事件或檢驗數(shù)量n)有限的情況下數(shù)據(jù)的分布。例如,計劃者考慮向一個敵占區(qū)的反對派空投補給物資,他們可能知道反對派只占總?cè)丝诘?1/3 (p=1)。他們希望,如果投送 10 包物資,至少可以送到5群反對派中。?n=10、p=1/3 情況下的二項式分布。
????????為了得出 10 包物資投送到至少 5 群目標(biāo)人群的概率,必須將法律應(yīng)用于二項式分布。
1. Pr[at least 5]= Pr[5]+ Pr[6] + Pr[7]+ Pr[8]+ Pr[9]+ Pr[10)
2. Pr[at least 5]-0.136+0.057+0.016+0.003+0.0003+0.00002=0.21232

????????投送到至少5群目標(biāo)人群的概率只有 0.21,即 1/5 的概率,這樣的簡單分析既沒有考慮總體人口數(shù)量,也沒有考慮目標(biāo)人口數(shù)量。如果假設(shè)的任務(wù)目標(biāo)是使物資送到至少 50% 的目標(biāo)人群,總體人口數(shù)量就是一個重要的考慮因素。
指數(shù)分布
????????指數(shù)曲線可以準(zhǔn)確描述一個無限數(shù)量事件發(fā)生的可能性。例如,飛機到達航母的時間間隔可以稱為一個事件,如果兩架飛機同時到達,它們到達的時間間隔就是零(0),因此:
事件1(到達時間間隔)=0
如果另一架飛機兩分鐘后到達,那么:
事件2(到達時間間隔) =2
????????有些情況下,例如實施空中打擊后,通常多架飛機會同時飛抵航母上,因此,最常見的事件值(到達時間間隔) 是零 (0)。那么在描述飛機到達概率的分布圖中,最常見概率值為 (0),到達時間間隔為1分鐘的情況不大可能,5 分鐘更不可能。信息傳輸持續(xù)時間也可以稱為一個事件。信息傳輸?shù)某掷m(xù)時間通常很短,不大可能持續(xù)3 分鐘,更不可能持續(xù)6分鐘:指數(shù)分布可以很好地描述信息傳輸?shù)某掷m(xù)時間。
????????指數(shù)分布還可用于描述武器的使用壽命。一個批次的所有無線電發(fā)報機在出廠前經(jīng)過檢驗均使用正常,1 年后大部分仍可以使用,但是4年以后可以使用的就為數(shù)不多了 (如果不加以修理的話)。

????????選擇哪一種分布取決于所要描述現(xiàn)象的特征。例如,持續(xù)時間通常用指數(shù)分布來描述,而能力劃分則用正態(tài)曲線來描述。概率分布是強大的預(yù)測工具,因為它們告訴研究人員某一事件的哪些值最可能發(fā)生。這些簡要描述的意圖不是教大家如何創(chuàng)建或發(fā)展這些分布,而是描述可能與某個問題密切相關(guān)的分布類型。

六、小結(jié)
統(tǒng)計學(xué)是研究大量數(shù)字?jǐn)?shù)據(jù)的搜集、分析和推斷的科學(xué)。
定量數(shù)據(jù)不一定需要進行統(tǒng)計分析。有時,簡單的數(shù)學(xué)公式就足以進行定量分析。
描述統(tǒng)計可以使分析人員建立一個數(shù)據(jù)分布圖。描述統(tǒng)計包括 :
頻數(shù)分布(或數(shù)值曲線圖);
柱形圖 (以條形圖顯示的頻數(shù)分布);
數(shù)據(jù)的集中趨勢量數(shù):平均數(shù)、中位數(shù)和眾數(shù);
數(shù)據(jù)的分散或分布量數(shù) :標(biāo)準(zhǔn)差、變異系數(shù)及其他;
抽樣理論使我們可以基于對總體很少一部分的分析而形成對總體特征的把握。
“兩種常見的抽樣方法是隨機抽樣和分層隨機抽樣;
“隨機抽樣的優(yōu)點是,它可以使我們推斷樣本具有與總體類似特征的可能性。
概率論為推斷統(tǒng)計提供數(shù)學(xué)基礎(chǔ):
“概率論使我們可以形成“理想”的數(shù)據(jù)分布,從而可以把它與實際數(shù)據(jù)分布進行比較,
舉例說明三種常見的數(shù)據(jù)分布:正態(tài)曲線、二項式曲線和指數(shù)曲線。