【手游統(tǒng)計(jì)學(xué)】從計(jì)算CF活動(dòng)金銀箱子爆率提升教你meta分析

????????本專欄是一篇介紹統(tǒng)計(jì)學(xué)方法的文章,結(jié)論無關(guān)緊要。需要讀者有一定的統(tǒng)計(jì)學(xué)知識(shí)儲(chǔ)備(樣本與總體,置信區(qū)間,假設(shè)檢驗(yàn),隨機(jī)誤差,P值)。借用游戲中實(shí)際問題和鮮活例子,介紹meta分析是什么,它用來解決什么樣的問題,以及如何操作和分析結(jié)果。

????????本專欄所使用的數(shù)據(jù)為2017-2019年期間,不一定和7.1版本一致,手頭也沒有3人活動(dòng)的數(shù)據(jù)。雖然我不認(rèn)為這個(gè)常數(shù)會(huì)被更改,以防萬一證明還是申明一下。

一.CF活動(dòng)金銀箱子爆率問題
????????CF活動(dòng)中,玩家需要連續(xù)打5首歌,一首比一首難,獎(jiǎng)勵(lì)也一首比一首豐厚;5首一個(gè)循環(huán),打完5首后,重新從1開始。也可選擇不打完5首,在當(dāng)前輪提前結(jié)束,接下來重新從1開始。每打完一首都會(huì)以一定爆率出金銀銅箱子,如下圖所示。

????????每一次打歌后,必定會(huì)出現(xiàn)三個(gè)箱子,分別代表clear、combo、score的獎(jiǎng)勵(lì)。每個(gè)箱子必定是金銀銅之一,大概率是銅,小概率會(huì)是金銀。一個(gè)循環(huán)5首曲子,越往后,曲子越難,金銀率相應(yīng)也會(huì)越高。但即使是第五首,體感銀率大概2-30%,并不高,金率更低的令人發(fā)指。
????????在玩家每一次開始打歌前,有個(gè)界面可以購(gòu)買buff

????????其中有一個(gè)buff是“提升本次的金銀箱子出現(xiàn)率”。但第1-5次每一次金銀率分別是多少,clear、combo、score三個(gè)箱子的爆率是否一致;這個(gè)buff能提升多少,是按等比例提升還是等數(shù)值提升的,每一輪提升的量是否一致,都是未知數(shù)。本專欄目的就是,得出這個(gè)buff到底是如何提升爆率的。

二.?dāng)?shù)據(jù)收集
????????本研究納入分析的數(shù)據(jù)為2017.4.10-2019.1.19,共計(jì)16350條。數(shù)據(jù)由 蟲蟲12345@百度貼吧 提供,來源于自愿知情參與數(shù)據(jù)收集計(jì)劃的玩家,通過代理的方式使用程序自動(dòng)收集,符合倫理規(guī)范,原始數(shù)據(jù)如下所示。

????????累計(jì)日期相同代表該數(shù)據(jù)收集于同一次活動(dòng),數(shù)字越大,活動(dòng)越接近現(xiàn)在;round就是每一輪第1-5首歌;購(gòu)買up為1或0分別代表買了和沒買的;clear、combo、score代表三個(gè)獎(jiǎng)勵(lì),1是銅,2是銀色,3是金。我截圖了20條,總共有1w6條這樣記錄的數(shù)據(jù)。
????????Combo等級(jí)沒有記錄,因此可以認(rèn)為是一個(gè)各種cb都有,玩家平均水平的數(shù)據(jù)(真實(shí)世界研究)

????????如果使用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,我們把5首歌,3個(gè)獎(jiǎng)勵(lì)作為15個(gè)分層因素,每個(gè)層下面有兩個(gè)率,分別是購(gòu)買和不購(gòu)買buff的爆率,然后觀察是否有相應(yīng)規(guī)律,再進(jìn)行驗(yàn)證。把數(shù)據(jù)初步整理一下,按照是否購(gòu)買buff,5首歌,三個(gè)獎(jiǎng)勵(lì)分層,各自樣本量及爆率如下:


????????從實(shí)驗(yàn)設(shè)計(jì)來看,本研究屬于回顧性隊(duì)列研究,為非干預(yù)性研究。由于玩家會(huì)在體感金銀率更高的后面幾輪開buff,前幾輪不開buff(不管第幾輪,開buff的價(jià)格是一致的),導(dǎo)致部分輪數(shù)數(shù)據(jù)中,不開或開buff的樣本量特別少。雖然上萬的樣本量不算小,但被分成15組后,再加上金銀箱子本身感人的爆率,如上圖所示,個(gè)別組里面干脆成個(gè)位數(shù)了,甚至有的組沒買buff的爆率反而要高于買了buff的。由于樣本量和總體率都小,會(huì)對(duì)我們估計(jì)的總體率造成巨大誤差,因此每一組的規(guī)律都似乎大相庭徑,根本無法直接比較觀察得出規(guī)律。因此,我們需要一種新的統(tǒng)計(jì)學(xué)方法,來對(duì)15組數(shù)據(jù)進(jìn)行統(tǒng)合,一起觀察這個(gè)buff的規(guī)律,而不是分開對(duì)15組數(shù)據(jù)分別計(jì)算。

三.Meta分析介紹與應(yīng)用范圍
????????Meta分析中文譯為“薈萃分析”,定義是“The statistical analysis of large collection of analysis results from individual studies for the purpose of integrating the findings.”中文譯為:對(duì)具備特定條件的、同課題的諸多研究結(jié)果進(jìn)行綜合的一類統(tǒng)計(jì)方法。咳咳,教科書上的定義我們就不贅述了,這個(gè)玩意兒最初是為醫(yī)學(xué)研究設(shè)計(jì)的,舉個(gè)例子,為了研究某種新藥和疾病死亡率的關(guān)系,在多個(gè)國(guó)家,多個(gè)城市進(jìn)行了研究。我們把病人分為兩組,一組人用新藥,一組人用老藥,比較兩組人死亡率是否有差異,有的話是多少。由于想要招募到那么多參與實(shí)驗(yàn)的病人并不容易,單憑一個(gè)城市的樣本量會(huì)得出錯(cuò)誤或不準(zhǔn)確的結(jié)論,但多個(gè)城市的樣本量可以互補(bǔ),得出更準(zhǔn)確的結(jié)論。但是,我們還要考慮到,不同城市之間由于招募標(biāo)準(zhǔn),研究設(shè)計(jì)細(xì)節(jié)的出入,可能導(dǎo)致這個(gè)率的變化;不同國(guó)家之間,可能由于人種差異,導(dǎo)致原本有效的藥物,到另一個(gè)國(guó)家中變?yōu)闊o效。Meta分析就是這么一種方法,可以匯總相關(guān)的所有樣本和研究,分析各樣本(每一個(gè)城市算作一個(gè)樣本)之間的差異是來源于隨機(jī)性,還是的確存在差異,是否存在亞組(不同國(guó)家看作不同亞組,相互之間存在顯著差異),并匯總所有的數(shù)據(jù),得出誤差更小的準(zhǔn)確結(jié)論。
????????同樣的方法,也可應(yīng)用于疫苗保護(hù)率或連續(xù)變量(例如某項(xiàng)指標(biāo)的高低)上。meta分析是一種被目前學(xué)界(特別是中國(guó)人)已經(jīng)被玩爛的灌水方法。使用meta的條件是:針對(duì)某一個(gè)問題存在多個(gè)研究,這些研究的細(xì)節(jié)不盡相同且每一個(gè)的樣本量都不是非常充分,需要將他們合并。

????????Meta分析的結(jié)局變量,大部分情況下為下者之一:MD(Mean Difference)、RD(Risk Difference)、OR(Odds Ratio)、RR(Risk Ratio)。少見情況下有各種率的對(duì)數(shù),比值,方差,etc,大家自己去調(diào)戲軟件吧
MD:針對(duì)連續(xù)變量而言,指干預(yù)組平均值與對(duì)照組平均值的差值。
RD、OR、RR針對(duì)二分類變量而言,二分類變量即率,上述的疾病死亡率,或是金銀箱子的爆率,都屬于二分類變量。我們假設(shè)干預(yù)組中某預(yù)期事件發(fā)生率為a,對(duì)照組中某預(yù)期事件發(fā)生率為b,則有:

????????為什么把率叫risk呢?因?yàn)檫@個(gè)研究方法最初來源于醫(yī)學(xué)研究,大部分預(yù)期事件都是不良事件,例如抽煙對(duì)肺癌發(fā)病率增加了多少,某藥對(duì)死亡率減少了多少,所以后來即使是保護(hù)性事件也一概稱risk了。RD和RR很好理解,為什么要發(fā)明OR這么繞口的概念呢?因?yàn)楹芏鄷r(shí)候,取決于我們的研究設(shè)計(jì),我們無法準(zhǔn)確獲得RD和RR,只能獲得OR。比如肺癌病人會(huì)往醫(yī)院跑,醫(yī)院只要記錄來看病的肺癌病人以前是否抽煙,兩者相除就很容易獲得OR,但要獲得RR就需要找到一群健康人并記錄他們是否抽煙,隨訪10年以上觀察肺癌發(fā)病情況才能得到,耗費(fèi)人力物力大得多。如果想在OR和RR之間換算,額外需要對(duì)照組的總體率,即b的值,否則兩者無法換算。存在:

????????就本例而言,如果我們不使用meta分析,使用另一種十分常見的統(tǒng)計(jì)方法,邏輯回歸,對(duì)十五組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的話,會(huì)得到,就clear的箱子而言,是否購(gòu)買buff的Exp(β)=1.37,這里的1.37就是OR值,是針對(duì)所有樣本整體平均而言的。邏輯回歸得到的β系數(shù)只能是OR值,它并不能很直接的闡明規(guī)律,也不能回答五首歌之間,以及clear、combo、score三者之間,buff提升效果是否一致,是否存在亞組這些問題。
????????放到本例來看,我們需要研究金銀箱子概率提升這個(gè)buff,對(duì)實(shí)際爆率產(chǎn)生的影響。數(shù)據(jù)同樣分為兩組,一組是買了buff的(干預(yù)組),一組是沒有買buff的(對(duì)照組)。總共有15個(gè)研究(5首歌*3個(gè)箱子),每個(gè)研究的樣本量都不是很大,不夠充分。我們需要觀察不同研究之間,兩組率的比值或差值是否恒定,是否存在亞組或其他規(guī)律,非常貼合Meta分析的使用條件。

四.Meta分析實(shí)際操作
????????Meta分析可以使用多款軟件,基本款是Review Manager,簡(jiǎn)稱RevMan,就是下圖左下角的圖標(biāo),我們就用這個(gè)來展示實(shí)際操作。更高級(jí)的軟件有SAS、STATA等,SPSS做不了,大家可以自己摸索。

????????這個(gè)軟件比較傻x,必須以創(chuàng)建綜述的形式來新建一個(gè)計(jì)算,你的計(jì)算結(jié)果是綜述中的一副圖片。所以進(jìn)入軟件后選擇創(chuàng)建綜述,然后如下點(diǎn)擊“建立比較”

????????然后按照下圖點(diǎn)擊,解釋我也標(biāo)了

????????再然后,我們需要新增研究,本例共有15個(gè)研究。

????????點(diǎn)擊“add study”,然后如下點(diǎn)擊

????????重復(fù)15次??梢暂斎朊趾笾苯觙inish。然后:

????????全選所有,finish。得到下表

????????然后我們需要調(diào)整順序,右邊圖表上面有個(gè)齒輪,graph-按用戶自定義排序-左邊欄點(diǎn)開即可自由調(diào)整;左邊欄的屬性可以調(diào)整表格的抬頭。最后在表格中填入數(shù)據(jù)。Events指該研究購(gòu)買或未購(gòu)買buff時(shí),分別獲得銀箱子的總數(shù),total指該情況下獲得箱子的總數(shù),兩者相除就是爆率。填入所有數(shù)據(jù)得到下表:

????????只需填event和total即可,剩下軟件會(huì)自動(dòng)計(jì)算。

五.結(jié)果解讀
????????這時(shí),我們得到右邊的圖。右上的齒輪點(diǎn)進(jìn)去后,可以設(shè)置圖片橫軸大小,最終調(diào)整后如下所示:

????????我們把這樣的圖稱為森林圖。每一條線代表該行研究對(duì)應(yīng)的RR值和95%置信區(qū)間。藍(lán)色方塊大小代表該研究的權(quán)重。權(quán)重不止取決于總的樣本量,也取決于兩組之間的樣本量以及陽性數(shù)的懸殊程度。具體計(jì)算方式很復(fù)雜我也不懂,交給軟件就行了。原則上來說,方塊越大,線就越短,方塊的位置和總體率越接近。菱形方塊代表將15組研究匯總之后得到的,估計(jì)的總的RR值,其95%區(qū)間見表。本例為1.19[1.15,1.23],代表購(gòu)買buff與未購(gòu)買相比,銀箱子爆率高了1.19倍,其95%CI為1.15-1.23。
????????為什么選了RR而不是RD?我們后面異質(zhì)性檢驗(yàn)與分析中會(huì)講到,這里先跳過。
????????最下面的”Test for overall effect”, 指的是對(duì)“合成的總RR值是否為1”的零假設(shè)進(jìn)行檢驗(yàn),P有統(tǒng)計(jì)顯著性,代表購(gòu)買buff的確可以提升爆率。

六、異質(zhì)性檢驗(yàn)與分析
????????異質(zhì)性廣義定義為:描述參與者、干預(yù)措施和一系列研究間測(cè)量結(jié)果的差異和多樣性,或那些研究間的內(nèi)在真實(shí)性的變異。狹義定義為:專指統(tǒng)計(jì)學(xué)異質(zhì)性,用來描述一系列研究中效應(yīng)量的變異程度,也表明除可預(yù)見的偶然機(jī)會(huì)外研究間存在的差異性。
????????說人話:各研究之間的差異是由于隨機(jī)性導(dǎo)致的,還是的確有差異,即為異質(zhì)性。異質(zhì)性大,說明各研究之間的效應(yīng)值(本例的效應(yīng)值即為RR或RD)相互之間的確是不同的;異質(zhì)性小,說明可能看起來各研究差距很大,但實(shí)際上是由于各研究樣本量小導(dǎo)致的隨機(jī)誤差,每個(gè)研究的效應(yīng)值其實(shí)是相同的。
????????Meta分析用于衡量異質(zhì)性的的有Q檢驗(yàn)、I2檢驗(yàn)、H檢驗(yàn)。RevMan只能給出I2檢驗(yàn),即紅框部分。

????????解讀異質(zhì)性需要同時(shí)觀察I2和P值。I2位于0-40,代表異質(zhì)性小,可接受;30-60代表中等程度的異質(zhì)性;50-90代表較大異質(zhì)性;75-100代表極大異質(zhì)性。注意,各個(gè)分檔之間就是有重疊的。當(dāng)位于重疊區(qū)域時(shí),我們?cè)倏碢值,下文摘抄一段丁香園上面的網(wǎng)頁(yè)解讀:
我在handbook5.0中找到以下這段話,我的理解是:
如果I^2的結(jié)果比較小又不算特別小,比如30%的時(shí)候,那么就要看P,P如果大于0.1,可信度就應(yīng)該足夠了;P如果小于0.05,那還有值得懷疑的余地。
如果I^2的結(jié)果比較大,讓我傾向于判斷異質(zhì)性,那么P如果大于0.1,可信度稍小了;P如果小于0.05,基本就可以確定異質(zhì)
判斷同質(zhì)要看看P,P越大越好,一般得大于0.1比較保險(xiǎn);判斷異質(zhì)不太需要看,不過小一些更保險(xiǎn)些。也就是判斷異質(zhì)性主要看I^2, 然后再結(jié)合p值
?https://www.dxy.cn/bbs/newweb/pc/post/20194102
????????總結(jié)一下,就是先看I2,如果I2沒有位于多個(gè)分檔的重疊區(qū)域,則直接按I2解讀異質(zhì)性;如果位于重疊區(qū)域,再看P;如果I2位于30-40,P>0.1,說明異質(zhì)性小,如果P<0.05,說明異質(zhì)性要跨到中等程度那一檔。P越大說明異質(zhì)性越小,P越小說明異質(zhì)性越大。
????????我們?cè)賮砜醋畛醯膯栴},這個(gè)buff加爆率到底是等比例加的還是等數(shù)值加的?還是有其他規(guī)律?圖的上方有這么一個(gè)工具欄。點(diǎn)擊RR可以在OR、RR、RD之間實(shí)時(shí)切換。

????????如果是等比例加的,則選擇RR值時(shí),不存在異質(zhì)性,選RD時(shí)存在極大異質(zhì)性;如果是等數(shù)值加的,則反之。如果不管怎么選都存在很大異質(zhì)性,我們?cè)倏紤]分層分析,可能不同輪數(shù),或不同獎(jiǎng)勵(lì)的加成比例不一致。選擇RR時(shí),I2=24,P=0.19,認(rèn)為不存在異質(zhì)性;選擇RD時(shí),I2=76,P<0.001,認(rèn)為存在極大異質(zhì)性。因此,我們認(rèn)為這個(gè)buff是按等比例在原爆率上加成,第1-5首歌,或是三個(gè)獎(jiǎng)勵(lì),它們?cè)镜谋什煌?,但不影響這個(gè)buff加的比例值。
????????這也可以解釋為什么個(gè)別研究(即輪數(shù)-獎(jiǎng)勵(lì))中,購(gòu)買buff的爆率反而不如未購(gòu)買的。因?yàn)檎w不存在異質(zhì)性,因此認(rèn)為是這些研究的樣本量或某一組的陽性數(shù)太小導(dǎo)致的隨機(jī)誤差。
????????當(dāng)我們研究其他問題時(shí),如果存在異質(zhì)性怎么辦?不要怕,找出異質(zhì)性存在的原因。如果研究數(shù)不是那么多的話,可以直接嘗試亞組分析;或敏感性分析(即剔除一個(gè)研究后,觀察異質(zhì)性是否有大幅改善);或Meta回歸(即把異質(zhì)性當(dāng)做y,把研究的各種屬性作為x,通過多重線性回歸來篩選哪些x是真正的影響因素。Meta回歸可在Stata進(jìn)行,RevMan做不了)。同時(shí),異質(zhì)性大小決定了我們?cè)诤喜⒏黜?xiàng)研究時(shí)使用固定效應(yīng)模型還是隨機(jī)效應(yīng)模型。


七、固定效應(yīng)與隨機(jī)效應(yīng)

????????在上面的工具欄中,點(diǎn)擊FE可切換固定效應(yīng)(FE)或隨機(jī)效應(yīng)(RE)。如果整體異質(zhì)性小,可采用固定效應(yīng),否則應(yīng)使用隨機(jī)效應(yīng)。固定效應(yīng)具有更高的統(tǒng)計(jì)效率,能更敏感的得出相應(yīng)的值。如果存在異質(zhì)性且無法通過分組消除,則應(yīng)采用隨機(jī)效應(yīng)模型。

八、發(fā)表偏性檢驗(yàn)
????????發(fā)表偏倚指,在同類研究中,陽性結(jié)果的論文(結(jié)果具有統(tǒng)計(jì)學(xué)意義的研究)比陰性結(jié)果的論文(結(jié)果無統(tǒng)計(jì)學(xué)意義的研究)更容易接受和發(fā)表的現(xiàn)象。說人話,就像抽卡極非的人會(huì)來貼吧曬非(我抽了xx發(fā)一個(gè)UR都沒),極歐的人也會(huì)來曬但由于會(huì)被刪帖,所以我們看不到,一般水平的人想想懶得曬了,導(dǎo)致我們貼吧看到的都是非到極致的結(jié)果。如果用看到的這些結(jié)果來預(yù)估平均水平將會(huì)嚴(yán)重偏低,這就是發(fā)表偏性。
????????Meta分析同時(shí)可以對(duì)各研究進(jìn)行發(fā)表偏性檢驗(yàn)。發(fā)表偏性檢驗(yàn)的原理是,某個(gè)研究的權(quán)重越大,就應(yīng)該越接近總體率(或值),誤差也應(yīng)該相應(yīng)更小。如果不符合這個(gè)趨勢(shì),就認(rèn)為存在發(fā)表偏性。RevMan通過漏斗圖的方法,即工具欄中RR開始算起的第四個(gè)圖標(biāo),進(jìn)行檢驗(yàn)。

????????如果所有點(diǎn)都落在倒三角形的漏斗里,且兩邊分布均勻,代表不存在發(fā)表偏性。否則認(rèn)為存在發(fā)表偏性。漏斗圖只能肉眼觀察,無法量化。量化方法有秩相關(guān)、回歸、剪補(bǔ)等方法,可在其他軟件中實(shí)現(xiàn)。
????????嚴(yán)格來說,本例其實(shí)無需考慮發(fā)表偏性,因?yàn)檫@15個(gè)研究都是平行的,由一個(gè)人收集的。如果多個(gè)研究是不同人做的,且不同的人并沒有收到統(tǒng)一的指使(例如,我安排五個(gè)人一起幫我收集數(shù)據(jù),則不論他們得到的結(jié)果好壞都會(huì)向我匯報(bào),則不會(huì)存在偏性),需要考慮發(fā)表偏性。發(fā)表偏性檢驗(yàn)只針對(duì)“報(bào)喜不報(bào)憂”或“報(bào)憂不報(bào)喜”的情況,如果兩邊都報(bào),則可能無法檢驗(yàn)出來。

??? ????Meta分析的知識(shí)就介紹到這里,我們使用同樣的步驟,對(duì)金箱子爆率進(jìn)行研究:

????????金箱子由于陽性數(shù)少,誤差更大,但不妨礙我們認(rèn)為,該buff提升金銀箱子爆率都是20%,各組之間不存在差異。
????????最后,我們和解包的數(shù)據(jù)對(duì)照一下:

????????可見與統(tǒng)計(jì)數(shù)據(jù)吻合,答案正確。

思考題:
這期思考題的第一題是基礎(chǔ)題,2-4是開放式的,有的本文沒有提及,需要各位的統(tǒng)計(jì)學(xué)知識(shí)儲(chǔ)備。
1.???? 您真的學(xué)廢了嗎?下圖是一副研究非ST段抬高的急性心梗干預(yù)措施實(shí)施早晚與患者死亡風(fēng)險(xiǎn)關(guān)系的森林圖。實(shí)驗(yàn)組是早期治療,對(duì)照組是晚期治療。HR與RR意思一致。

請(qǐng)問:
1) 該meta共納入了幾個(gè)研究?
2) 這些研究之間是否存在異質(zhì)性?
3) 將各個(gè)研究合并后,總效應(yīng)量是多少??jī)A向于選擇早期治療還是晚期治療?
4) 設(shè)α=0.05,第三小問的這個(gè)傾向是否有統(tǒng)計(jì)學(xué)意義?
2.???? 為什么即使對(duì)前瞻性隊(duì)列研究行邏輯回歸,其β系數(shù)也只能推出OR值,無法得到RR值?
3.???? 如果想要探究不同期活動(dòng)的該buff效果是否一致,應(yīng)該選取什么樣的方法?請(qǐng)簡(jiǎn)述你的思路(本例如果拆成幾十個(gè)活動(dòng)那樣本數(shù)太少了。這題我們假設(shè)每一期活動(dòng)都有上萬的數(shù)據(jù)量可供使用)
4.???? 為了研究簽名卡池中,獲得簽名卡占獲得總U的比例,以“簽名U”為關(guān)鍵詞,搜索貼吧并收集相關(guān)研究后得到下表:

????????可以使用meta分析來對(duì)這9組研究進(jìn)行合并或行發(fā)表偏性檢驗(yàn)嗎?為什么?如果想得知最準(zhǔn)確的簽名U率,如何處理這些數(shù)據(jù)?
(這題有點(diǎn)超綱,需要自己調(diào)試一下軟件,以及涉及到循證學(xué)的證據(jù)等級(jí)……)

?
?? ????全文完。歡迎指正、建議、評(píng)論。如果開一個(gè)結(jié)合手游和抽卡的概率統(tǒng)計(jì)科普專欄,會(huì)有人感興趣嗎?以前抽卡玄學(xué)盛行時(shí)候?qū)戇^一個(gè)假設(shè)檢驗(yàn)的科普貼,然而秒沉根本沒人回……
