打開GPT的黑箱:用開源模型探索閉源模型的置信度
1?總結
由于GPT-4等模型不提供直接的概率分布訪問,作者提出使用代理模型來估計這些閉源模型的置信度。研究重點在于模型的準確性和信心評估,涵蓋了多個領域,包括數(shù)學推理、科學知識、計算機科學、社會科學和常識推理。通過結合語言置信度和代理模型概率,這種方法在12個數(shù)據(jù)集上提供了最佳的置信度估計,平均AUC達到84.6%。此外,研究還發(fā)現(xiàn),即使是較弱的模型也能作為有效的代理模型,提供準確的置信度估計。
論文:https://arxiv.org/pdf/2311.08877.pdf
Readpaper:https://readpaper.com/paper/4822732593132732417
2?詳細介紹

研究首先考察了從LLMs中獲取語言置信度(直接用prompt提示引導LLMs)的概念,以評估它們對答案的信心。這種方法對于最先進的模型顯示出合理的有效性,明顯優(yōu)于隨機猜測的基線。然而,在一些準確度不高的模型,但是可以獲取真實概率的情況下,比如llama2模型,還是有很多提升空間的。
2.1?替代模型方法
所以他們提出了一種新穎的使用替代模型進行信心評估的方法。

這涉及從一個模型(如GPT-4或Claude-v1.3)獲取答案,并從另一個提供softmax概率的模型(如Llama?2)獲取信心分數(shù)。這種替代信心建模顯著提高了GPT-4的平均選擇性分類AUC至82.1%。
2.2?分析
信心分數(shù)的可轉移性:一個有趣的發(fā)現(xiàn)是,即使生成信心分數(shù)的模型不同或準確度較低,信心分數(shù)也可以在模型之間轉移。這表明了替代模型方法的更廣泛適用性。
結合語言和替代模型概率:研究發(fā)現(xiàn),語言信心分數(shù)和替代模型概率是互補的。結合這些分數(shù)(稱為“混合方法”)進一步提高了性能。對于GPT-4,這種方法將選擇性分類AUC提高到了83.4%。這種混合方法還優(yōu)于同時期的自洽性工作。


局限性和改進的分析:由于其粗粒度的性質,語言信心分數(shù)受到限制。例如,GPT-4經(jīng)常對許多示例輸出相同的信心分數(shù)(0.9),限制了其區(qū)分正確和錯誤答案的能力。即使應用于不同模型,替代模型概率也表現(xiàn)良好。將少量替代模型概率與語言信心混合,允許之前具有相同語言信心的答案通過不同的復合信心分數(shù)進行區(qū)分,從而以最小的干預提高了整體性能。
3?觀點
學術上,這項研究對于理解和提高大型語言模型的信心評估能力具有重要意義。它為未來的研究提供了一個新的視角,即通過代理模型來增強模型的自我評估能力,這可能會開啟新的研究方向。
商業(yè)上,對模型的信心評估至關重要,尤其是在決策敏感的領域,如醫(yī)療診斷或金融分析。這項研究提供的方法可以幫助企業(yè)更準確地評估模型的可靠性。
特邀作者:日本早稻田大學計算機系博士生? 王軍杰