【科普】什么是ABX測試?
ABX測試是一種比較兩種感官刺激的方法,以確定它們之間是否有可檢測到的差異。先分別播放兩段樣品A和B,緊隨其后的是一個未知的樣本X,X是從A或者B之間隨機選的,參與測試者需要對X是A還是B給出明確判斷,如果X不能可靠地通過低假設(shè)值(p-value)判斷,則不能證明A和B之間存在可以察覺的區(qū)別。
ABX測試可以很容易地以雙盲聽試驗的形式進行,消除了研究人員或測試舉辦者的任何潛在影響。由于樣本A和樣本B是在樣本X之前提供的,因此不需要根據(jù)長期記憶或過去經(jīng)驗的假設(shè)來區(qū)分它們之間的差異。因此,ABX測試回答了在理想情況下是否存在感知差異。
ABX測試通常用于數(shù)字音頻數(shù)據(jù)壓縮方法的評估;樣本A通常是未壓縮的樣本,樣本B是A的壓縮版本。說明壓縮算法存在缺陷的音頻壓縮偽影可以通過后續(xù)測試識別出來。ABX測試還可以用來比較在給定比特率下兩種不同音頻格式的保真度損失程度。
ABX測試可用于音頻輸入、處理、輸出組件以及布線: 幾乎任何音頻產(chǎn)品或原型設(shè)計。
如果只進行一次ABX試驗,隨機猜測有50%的機會選擇正確答案,與拋硬幣一樣。為了使陳述具有一定程度的可信度,必須進行多次試驗。通過增加試驗次數(shù),在給定的置信水平下,從統(tǒng)計學(xué)上確定一個人區(qū)分a和B的能力的可能性會增加。95%的置信水平通常被認為具有統(tǒng)計學(xué)意義。QSC公司建議,每一輪測試中至少進行10次聽力測試。

95%置信水平所需的結(jié)果,即如果進行10次測試,那么應(yīng)該至少答對9次,以此類推。
通常認為進行16次測試的結(jié)果更有說服力。不過,也有人認為可以進行更多次,通過分組進行在對測試結(jié)果進行分析,并允許參與測試的人在期間進行充分的休息。
附一個常見的音樂播放軟件Foobar官方的ABX測試插件,大家可以試一下320k MP3和WAV之間的差別,我相信會讓很多人懷疑人生的~
http://www.foobar2000.org/components/view/foo_abx

ABX是一種強制選擇測試。一個實驗對象的選擇可以是有價值的,即實驗對象確實誠實地試圖確定X看起來是更接近A還是B。如果多人測試中一個人沒有發(fā)現(xiàn)區(qū)別,這可能會沖淡其他專心參加測試的受試者的結(jié)果,使結(jié)果符合辛普森悖論,從而導(dǎo)致錯誤的總結(jié)結(jié)果。簡單地查看測試結(jié)果的總數(shù)(n個答案中的m個是正確的)并不一定能揭示這個問題的發(fā)生。(即需要對單獨個體的結(jié)果也逐一分析)
嚴格意義上來說,ABX測試屬于雙盲聽測試的一種。但在現(xiàn)實中,ABX測試用于判斷能否聽出區(qū)別,雙盲聽測試(例如MUSHRA)用于可以聽出不同區(qū)別時,主觀評價哪一個更好,以及各個產(chǎn)品之間的實際差異有多大,并排除聲音以外的其他偏見因素干擾。
如果差異很小,參與測試的人可能會感到沮喪,并簡單地通過隨機投票來完成測試。所以當(dāng)差異很小時,如果不采取適當(dāng)?shù)拇胧?,像ABX這樣的強制選擇測試可能會傾向于負面結(jié)果。
不過,我個人認為,對于一些人聲稱的“一耳朵區(qū)別”和“天差地別”來說,他們應(yīng)該不會存在這種沮喪心理。
人的感官并沒有想象中那么可靠,也沒有想象中那么敏銳。我們可以分辨出紅色和綠色,我們可以分辨出酸甜苦辣。但對于一部分音頻發(fā)燒友和品酒師所宣稱的能力未免有點過于極端,如果他們真的天賦異稟,那么應(yīng)該接受測驗并證明給大家。
——Quora論壇的一位網(wǎng)友
PS:酒我不懂,但我確實自己試過盲測卡布奇諾和拿鐵,還是能夠分辨出來的~
最后感慨一下,星戰(zhàn)9天行者崛起確實算是撲街了,不過最近在重溫星戰(zhàn)前六部,確實太經(jīng)典了,很好看。再加上第七部原力覺醒也還可以。而寫完ABX測試這篇文章,突然讓我想起了尤達大師的一句名言:
Do or do not, there is no try~

如果你真的點開了上面Foobar ABX對比插件的鏈接并進行了測試,愿原力與你同在~
(順便,明天更新索尼A105播放器測評)