從BGG到新物集,我們究竟需要怎樣的桌游評價系統(tǒng)?(中篇)
輸出端和黑盒環(huán)節(jié)一起講。
BGG最廣為人知的仍然是其排行榜,但決定其順序的并非算術平均分(Avg Rating),而是一種被稱為Geek Rating的分數(shù)。Geek Rating究竟是怎么計算的,BGG官方至今沒有完整地披露。但至少有一點可以明確,那就是在計算時,會人為地加入若干5.5分的虛擬評分,以防止評分人數(shù)較低但均分較高的新游戲一下子沖太快。基于BGG上一篇名叫“Reverse engineering the BoardGameGeek ranking”帖子的說法,虛擬評分的數(shù)量大概在1500-1600之間,但不同游戲的差異還是比較大。

至于差異的原因,存在幾種解釋(彼此之間其實并不矛盾,可能都是正確的):一是虛擬評分數(shù)量本身就是個浮動值,會隨評價總數(shù)而變動;二是玩家的評分在計算時并不會被平等對待,可能會存在加權或者篩選,比如離均分太遠的評分可能被視為異常值而被降低權重。另外還存在一些空穴來風的猜想,比如出版年份越近加權越高、評分人數(shù)越多加權越高,但目前已經有大量反例。
Geek Rating乍一看會比Avg Rating更科學,因為其規(guī)避了極端值的情況,也在一定程度上幫玩家對評價的質量進行了篩選。然而,由于其非透明性,偶爾也會出現(xiàn)一些匪夷所思的情況,讓用戶對其公信力產生懷疑。比如目前BGG(2023年8月5日)排行榜的第二位《瘟疫危機承傳第一季》無論是平均分還是評價人數(shù)均低于第三位《幽港迷城》,但Geek Rating就是更高。
好在BGG的篩選功能比較齊全,允許用戶基于自己喜愛的方式重新塑造排名。我目前比較喜歡的排名方式是,先排除評價總數(shù)低于2000的游戲,然后直接按照Avg Rating從高排到低,個人認為會相對更靠譜一些。
除此之外,BGG在輸出端的其他表現(xiàn)都很不錯。桌游列表處會詳細展示Geek Rating(保留三位小數(shù))、Avg Rating(保留兩位小數(shù))、Num Voters的值。單款桌游標簽會展示Avg Rating(保留一位小數(shù))、全庫排名和子類排名。單款游戲點進Ratings & Comments還可以看到整數(shù)評分的分布和評分的標準差。算是把能公開的數(shù)據(jù)都進行了公開,屬實是數(shù)據(jù)狗狂喜了。

來到國產平臺。
集石的特點是刪繁就簡,一切為移動端易于展示和方便操作而讓步。首先,集石排行只顯示一個一位小數(shù)總分(疑似為簡單的算術平均分)。其次,在單款桌游的標簽處,也僅有一個一位小數(shù)總分和全庫排名,評測部分也沒有樣本描述相關的文字或圖表展示。最后,篩選選項確實不多。集石的界面的確清晰明了,但工具性價值也幾乎被完全抹去了,且集石排行本身也并未形成至少“中國版BGG排行版”的影響力。

新物集評價系統(tǒng)目前剛上線,絕大多數(shù)游戲尚未達到50個樣本的推薦率展示門檻,但從少數(shù)超過閾值的游戲來看,單款桌游的評分展示所采用的是一種融合了Steam推薦率和豆瓣評分分布的模式。推薦率的設計來源于Steam,但又不完全一致,算是各有優(yōu)劣。優(yōu)點在于,新物集的純數(shù)字百分比更加直觀,也為后續(xù)排行榜的引入提供了直接依據(jù);而缺陷在于,沒有Steam那種“差評如潮”“多半好評”的文字評價,光一個“新物集推薦率”仍然少了些記憶點和形成亞文化的潛力。?

新物集推薦率也存在著黑盒問題。根據(jù)官方自己的披露,推薦率的計算也有加權處理,會根據(jù)用戶專業(yè)度、評價質量、評價時間、評價數(shù)量等多種要素決定權重,人為操縱的空間還是極大(盡管現(xiàn)在還未體現(xiàn))。
另外,新物集的三元制評分還容易出現(xiàn)一些神奇的情況。比如兩款游戲A和B,都有100人評價,A游戲70推薦30一般,B游戲71推薦29不推薦,假設一般和不推薦兩種狀態(tài)對于推薦率沒有差異性影響,那么B游戲的推薦率就會嚴格高于A,使得結論容易出現(xiàn)片面性和誤導性(雖然有評分分布進行彌補)。
最后,和集石一樣,新物集目前針對桌游數(shù)據(jù)的標簽檢索功能非常弱,這就使得這兩個評價系統(tǒng)尚無法有效為玩家選品和設計師研究趨勢提供實質性的幫助。
當然,無論是集石還是新物集,都存在著一些BGG所不具備的積極共同點:一是會有官方定義的“優(yōu)質測評”;二是允許用戶對評論進行點贊和再評論。前者替用戶進行了評價的初步質量篩選(一定程度上提高了評價的參考價值),后者則增強了社區(qū)互動性,算是我認為國內桌游評價系統(tǒng)相比BGG的真實改良之處。?

總結而言,評價系統(tǒng)在黑盒環(huán)節(jié)和輸出端會有四個要點:
一是需要形成一個極具辨識度的主要指標。對于BGG而言是Geek Rating,對于集石而言是集石評分,對于新物集而言是新物集推薦率,對于Steam而言是好評率。這個主要指標應當與平臺深度捆綁,成為平臺的代表,因此有必要將其與其他指標顯著區(qū)分開來。而在有了這個主要指標后,仍然需要通過一系列長期運營和營銷推廣使其深入人心。在這點上,BGG的Geek Rating由于其決定了排行榜順序而廣為人知,而Steam為其好評率賦予的從 “差評如潮”到“好評如潮”的文字描述也牢牢占據(jù)了用戶的心智。相比之下,集石和新物集仍有很長的路要走。
二是優(yōu)化與評價相關的產品頁面設計。未必需要細致入微、一覽無余,但應把握用戶最需要什么,并有重點地呈現(xiàn)。比如BGG會列出游戲的總排名和分屬類型排名,從而給予用戶一個直觀的比較性判斷。而像之前所說的新物集三元制評分可能出現(xiàn)的奇怪現(xiàn)象,額外提供一個分布圖也能很大程度地解決這個問題。
三是需要把握黑盒環(huán)節(jié)的簡繁分寸。黑盒環(huán)節(jié)本質是為主要指標服務的。假如黑盒環(huán)節(jié)過于簡略,可能會影響主要指標的科學性和參考價值;但假如黑盒環(huán)節(jié)過于復雜,或者過程中摻雜了較多可被人為操控的部分,也會加大用戶對指標公信力的質疑。適當?shù)嘏逗诤协h(huán)節(jié)的計算過程或原理,增強透明度的同時也能激起用戶的討論,也是一種比較好的運營方式。
四是盡可能提供基于評價系統(tǒng)的工具性應用。這就要回到評價系統(tǒng)最本源的問題:用戶為什么需要評價系統(tǒng)?玩家需要其幫助自己遴選出最合適的游戲,設計師和產品經理則需要通過觀察游戲標簽和評價來更好地把握用戶偏好。因此,能為游戲打上越詳細的標簽、提供越多的評價指標,就越能解決用戶的工具性需求。當然,這可能是一項極度耗費人力的工程,效仿BGG的UGC模式或許是一個出路。