神策數(shù)據(jù)推出A/B測試方法,更符合實際場景
A/B測試 本質(zhì)上,是以數(shù)據(jù)驅(qū)動為核心,控制單一變量進(jìn)行科學(xué)決策的試驗。大多數(shù)典型的 A/B 測試工具按照這一原則設(shè)計和包裝測試類型。
在為多個客戶服務(wù)的實踐中,神策數(shù)據(jù)發(fā)現(xiàn),在某些場景中,需要評估小流量策略的效果,特別是在復(fù)雜的策略和垂直場景中,業(yè)務(wù)面臨更大的挑戰(zhàn)。因此,神策數(shù)據(jù)推出了一種更符合實際場景的科學(xué)測試方法,涵蓋了更多的業(yè)務(wù)場景-時間片旋轉(zhuǎn)測試和多人群測試,幫助企業(yè)更高效、更方便、更節(jié)省測試成本。
一、時間片輪轉(zhuǎn)試驗
時間片旋轉(zhuǎn)試驗可以在不同的時間段接觸到指定的用戶,并使用不同的操作策略,以確保時間和空間中測試策略的一致性。操作學(xué)生可以在測試中設(shè)置不同粒度的時間切片,最小限度 1 小時,最大 24 小時,將 A、B 兩組測試策略生效的時間戳映射到時間切片上,用戶將在不同的時間段內(nèi)獲得不同的策略體驗。
在設(shè)置測試時,操作學(xué)生需要每天翻轉(zhuǎn)測試的第一個時間片,以確保測試策略在不同時間片上的均勻分布。以及 A、B 對每個時間片上的指標(biāo)數(shù)據(jù)進(jìn)行抽樣統(tǒng)計,以評估試驗的整體顯著效果。
以下場景通常采用時間片輪轉(zhuǎn)試驗:
1、產(chǎn)品涉及多端用戶,每個主體之間可能會產(chǎn)生相互影響的場景
多端用戶場景是指同時涉及多個角色的場景,如內(nèi)容推薦場景涉及作者和用戶;外賣場景涉及訂購用戶、騎手和企業(yè);出租車業(yè)務(wù)涉及司機(jī)和乘客;直播業(yè)務(wù)涉及主播和觀眾;基金證券場景涉及基金經(jīng)理、用戶等。
在上述多端用戶場景中,如果單一和獨立的對象被隨機(jī)轉(zhuǎn)移,測試策略可能會因一對多的關(guān)系而相互影響。具體來說,在出租車場景中,如果試驗只針對乘客分流,同一個司機(jī)可能會收到試驗組 A 乘客的訂單也收到了測試小組 B 乘客的訂單導(dǎo)致平臺無法有效評估某些訂單的響應(yīng)率等指標(biāo)。在內(nèi)容推薦場景中,如果只分流普通用戶,則可以同時推薦相同的推薦內(nèi)容 A 組和 B 運營商將無法評估內(nèi)容制作人的相關(guān)指標(biāo),如發(fā)布量、投稿率等。
若采用多端同時分流,例如將司機(jī)和乘客分成 A、B 兩組。A 組司機(jī)只能匹配 A 組訂單,B 組司機(jī)只匹配 B 組訂單,雖然這種方法可以隔離分流對象,但會減少匹配對象,無法準(zhǔn)確評估所有用戶的收入。因為 A 訂單最初可以發(fā)送給所有司機(jī)搶劫,但現(xiàn)在只有一半的司機(jī)有資格搶劫,測試密度與所有用戶不一致,無法評估所有推廣的效果。
可以看出,上述兩種解決方案都不是最好的測試解決方案。多端用戶場景廣泛存在于社交網(wǎng)絡(luò)、內(nèi)容創(chuàng)作、電子商務(wù)等領(lǐng)域。使用時間片旋轉(zhuǎn)測試可以很好地解決上述問題。同時,在切片中保持相同的策略,并在下一次切片中轉(zhuǎn)向另一個策略,盡可能多地收集測試結(jié)果數(shù)據(jù),并盡快得出測試結(jié)論。
2、定價策略等體驗場景需要保證同時空用戶的一致性
例如,在金融和電子商務(wù)行業(yè),在商品定價策略的實驗中,企業(yè)需要確保所有用戶在同一地區(qū)/同一時間看到的商品價格或優(yōu)惠策略是一致的。如果只對用戶進(jìn)行單一分組,可能會導(dǎo)致同一地區(qū)用戶看到的商品價格不一致、政策違規(guī)或客戶投訴。
3、產(chǎn)品流量相對較小,不適合用戶隨機(jī)轉(zhuǎn)移場景
A/B 測試通?;谝欢ǖ慕y(tǒng)計樣本,在產(chǎn)品啟動初期或產(chǎn)品非主要功能界面進(jìn)行測試,但沒有足夠的流量快速驗證。為了積累樣本量,通常需要延長試驗周期以獲得足夠的流量,但延長試驗周期可能會導(dǎo)致幸存者偏差。此外,在流量有限的情況下,用戶分流的概率也會導(dǎo)致分流不均勻??焖衮炞C可以在多個時間片中積累更多的流量。
需要注意的是,時間片旋轉(zhuǎn)實驗不適合長延遲場景,如長途汽車調(diào)度,時間片尺寸不易劃分;不適合網(wǎng)絡(luò)及時性強(qiáng)的場景,如紅包共享、優(yōu)惠券分發(fā)等,因為用戶在不同時間打開共享鏈接的內(nèi)容應(yīng)相同;不適合前端感知功能測試,因為操作人員需要確保用戶在不同時間的產(chǎn)品體驗,頁面樣式不能頻繁更改。
在傳統(tǒng) A/B 在測試過程中,操作人員通常只能轉(zhuǎn)移單個流量因子(測試對象)。時間片旋轉(zhuǎn)試驗是在時間維度上均勻分割,不同的時間片段反映了不同的測試策略,使所有參與測試的用戶在同一時間、同一空間下保持一致的策略,可以有效解決多端用戶測試場景中的組間干擾和小流量容易導(dǎo)致分流不均勻的問題。
二、多人群試驗
多人群測試可以幫助企業(yè)發(fā)布不同的測試策略,測試不同的人群,有效地觀察結(jié)果,驗證人群差異,滿足各種個性化的操作場景,找到最佳的增長計劃組合。操作人員可以設(shè)置多個人群,每個人群都可以設(shè)置 1 到 10 一個測試組,人群之間的相互排斥關(guān)系,確保一個用戶同時只進(jìn)入一個人群;您還可以比較多個人群的多個策略結(jié)果,節(jié)省多個測試的等待時間和多個測試的配置成本。
多人群測試通常適用于并行測試多個受眾群體的場景和差異化操作場景。
1、并行測試多個受眾群體的場景
在這種情況下,當(dāng)配置同一個多人群測試時,多個人群可以并行測試新舊策略,共同觀察結(jié)果,大大節(jié)省了時間成本和多個測試的配置成本。
比如,某 App 優(yōu)化主頁推薦內(nèi)容算法,重點關(guān)注未注冊人群和注冊老用戶,建立 2 個人組,分別設(shè)置新舊算法,確保重點人群分流均勻穩(wěn)定,同時在報告中比較人群數(shù)據(jù)結(jié)果。
2、實現(xiàn)差異化操作的便利場景
對于運營場景,多人群測試可以在線長期運行,不同的人群策略可以區(qū)分,如會員系統(tǒng)的建設(shè)和運營策略、新老客戶運營等,幫助業(yè)務(wù)人員找到最佳的營銷策略,改善用戶體驗。
例如,對于不同的城市用戶,結(jié)合其城市消費特點,運營商可以向不同類別的商品發(fā)放不同數(shù)量的優(yōu)惠券,以找到不同特征用戶的最佳營銷策略;為不同行業(yè)、性別和年齡段的客戶設(shè)計差異化的網(wǎng)頁設(shè)計方案,通過數(shù)據(jù)比較驗證不同特征群體之間的認(rèn)知差異和行為差異 。
多人群試驗的主要目的是更好地經(jīng)營人群,對不同人群有更深入的了解,提供更貼心、更準(zhǔn)確的產(chǎn)品和服務(wù)。
神策 A/B 測試一直致力于為客戶提供能夠覆蓋更多業(yè)務(wù)場景和工作流的測試工具,幫助客戶降低測試門檻和成本,快速迭代測試,以數(shù)據(jù)推動業(yè)務(wù)增長。未來,將繼續(xù)提供越來越方便的測試類型,請期待它。