T分布在醫(yī)藥領(lǐng)域應(yīng)用-python建模

學(xué)生t-分布可簡(jiǎn)稱為t分布。其推導(dǎo)由威廉·戈塞于1908年首先發(fā)表,當(dāng)時(shí)他還在都柏林的健力士釀酒廠工作。因?yàn)椴荒芤运救说拿x發(fā)表,所以論文使用了學(xué)生(Student)這一筆名。之后t檢驗(yàn)以及相關(guān)理論經(jīng)由羅納德·費(fèi)雪的工作發(fā)揚(yáng)光大,而正是他將此分布稱為學(xué)生分布。
要理解此文章,需要理解正太分布的基礎(chǔ)知識(shí),否則不能看懂。根據(jù)大數(shù)定理,樣本越多,樣本估算參數(shù)就越接近總體參數(shù)。但實(shí)際生活中,因?yàn)闀r(shí)間和費(fèi)用,我們一般用小樣本數(shù)據(jù)代替整體數(shù)據(jù)。
T分布的特征|:
T分布屬性1:曲線下面總面積為1
T分布屬性2:曲線以0為對(duì)稱中心,比正態(tài)分布更加扁平
T分布屬性3:曲線向左右方向無限延伸,但沒有碰到x軸
T分布屬性4:自由度增加時(shí)(樣本增加),T分布接近正態(tài)分布,T分布擁有更大標(biāo)準(zhǔn)差。如果樣本數(shù)量大于30,數(shù)據(jù)分布近似正態(tài)分布;如果樣本量小于30,數(shù)據(jù)分布呈T分布


自由度是一個(gè)非常復(fù)雜的概念,很多專業(yè)人士避而不談自由度。簡(jiǎn)單理解,T分布的自由度=樣本量-1

Z分?jǐn)?shù)公式到t分?jǐn)?shù)公式 ,如果樣本數(shù)量大于30,用正態(tài)分布公式;如果樣本量小于30,用T分布公式

經(jīng)過大量圖文講解,我們知道了T分布的基礎(chǔ)知識(shí)。接下來我們了解T分布在醫(yī)藥領(lǐng)域用途。

T分布在醫(yī)藥領(lǐng)域有廣泛用途,因?yàn)榕R床實(shí)驗(yàn)有0-4期,跨越時(shí)間長(zhǎng)達(dá)數(shù)年,花費(fèi)高(上億)。臨床實(shí)驗(yàn)每一期需要大量資金投入,病人樣本量越多,藥企花費(fèi)越高。如果樣本量小于30時(shí),我們可以采用T分布分析。所以T分布在醫(yī)藥領(lǐng)域很受歡迎,因?yàn)榭梢怨?jié)約大量開支。
⑴Ⅰ期臨床試驗(yàn):是在人體進(jìn)行新藥研究的起始期,主要目的是研究人對(duì)新藥的耐受程度,了解新藥在人體內(nèi)的藥代動(dòng)力學(xué)過程,提出新藥安全有效的給藥方案。對(duì)象:健康人。
⑵II期臨床試驗(yàn):為隨機(jī)盲法對(duì)照臨床試驗(yàn),由藥物臨床試驗(yàn)機(jī)構(gòu)進(jìn)行臨床試驗(yàn)。其目的是確定藥物的療效適應(yīng)證,了解藥物的毒副反應(yīng),對(duì)該藥的有效性、安全性作出初步評(píng)價(jià)。對(duì)象:靶疾病的患者。
⑶Ⅲ期臨床試驗(yàn):是Ⅱ期臨床試驗(yàn)的延續(xù),目的是在較大范圍內(nèi)進(jìn)行新藥療效和安全性評(píng)價(jià)。要求在Ⅱ期臨床試驗(yàn)的基 礎(chǔ)上除增加臨床試驗(yàn)的病例數(shù)之外,還應(yīng)擴(kuò)大臨床試驗(yàn)單位。多中心臨床試驗(yàn)單位應(yīng)在臨床藥理基地中選擇,一般不少于3個(gè),每個(gè)中心病例數(shù)不少于20例。各項(xiàng) 要求與II期相似,但一般不要求雙盲醫(yī)學(xué)|教育網(wǎng)搜集整理。
⑷Ⅳ期臨床試驗(yàn):也稱上市后監(jiān)察。其目的在于進(jìn)一步考查新藥的安全有效性,即在新藥上市后,臨床廣泛使用的最初 階段,對(duì)新藥的療效、適應(yīng)證、不良反應(yīng)、治療方案可進(jìn)一步擴(kuò)大臨床試驗(yàn),以期對(duì)新藥的臨床應(yīng)用價(jià)值做出進(jìn)一步評(píng)價(jià),進(jìn)一步了解的療效、適應(yīng)證與不良反應(yīng)情 況,指導(dǎo)臨床合理用藥。包括擴(kuò)大試試驗(yàn)、特殊對(duì)象臨床試驗(yàn)、補(bǔ)充臨床試驗(yàn)。
舉一個(gè)例子,有七個(gè)病人,服用增加血壓的新藥3個(gè)月。他們血壓分別升高了1.5, ?2.9, ?0.9, 3.9, ?3.2, ?2.1, ?1.9,預(yù)測(cè)95%置信度的總體患者血壓值的置信區(qū)間。
計(jì)算T分布需要用T-分?jǐn)?shù)表

看T分布表有點(diǎn)麻煩,為了簡(jiǎn)單和避免出錯(cuò),我已經(jīng)用python代碼封裝好。

只需要輸入?yún)?shù)(樣本和置信度)樣本:[1.5,2.9,0.9,3.9,3.2,2.1,1.9],置信度:0.95
程序自動(dòng)得到結(jié)果[1.3789786293305519, 3.3067356563837338]
程序回答了上述問題,在95%置信度的條件下,總體患者血壓值的置信區(qū)間為1.3789786293305519和3.3067356563837338之間

環(huán)境:Anaconda(python2.7)
下面代碼經(jīng)過測(cè)試,可以運(yùn)行。
代碼屬于手動(dòng)建模,scipy.stats.t.interval也可以準(zhǔn)確計(jì)算T分布的置信區(qū)間,代碼量更少,但少了一份自己建模的樂趣。
歡迎各位學(xué)習(xí)更多相關(guān)知識(shí)《python機(jī)器學(xué)習(xí)生物信息學(xué)》博主錄制,2k超清
