散文網(wǎng) » 科技 »學(xué)習(xí) » LangSmith 功能上新 — 測試運(yùn)行結(jié)果比較

LangSmith 功能上新 — 測試運(yùn)行結(jié)果比較

2023-10-18 12:01 作者:滄海九粟 0人讀過 | 我要投稿

在構(gòu)建 LLM（大語言模型）應(yīng)用時，如何評估不同的提示、鏈路或代理變化對系統(tǒng)產(chǎn)生的影響，仍然是一個非常具有挑戰(zhàn)性的問題。理想情況下，我們希望能夠采用完全可靠的自動評估方法，但目前自動評估方法仍然面臨諸多限制，不夠成熟和可靠。因此，研究人員和工程師通常傾向于手動檢查大量數(shù)據(jù)，以獲得對系統(tǒng)的更直觀的理解。

LangSmith 作為 LLM 應(yīng)用開發(fā)的伴生工具，其目標(biāo)就是讓開發(fā)者能夠更高效地評估系統(tǒng)的改進(jìn)進(jìn)展。在最初發(fā)布時，LangSmith 就已經(jīng)支持了對測試運(yùn)行進(jìn)行評分，包括基于 LLM 輔助的自動評分方法。但是每個測試運(yùn)行之間還是相對孤立的。為了能夠更好地手動檢查數(shù)據(jù)，用戶通常不僅需要對單次運(yùn)行進(jìn)行檢查，更需要對不同運(yùn)行之間的對比。

為此，LangSmith 推出了測試運(yùn)行比較功能。該功能可以讓用戶選擇兩個或多個測試運(yùn)行，進(jìn)入比較視圖。在該視圖中，用戶可以清晰地看到不同運(yùn)行在同一組輸入下的輸出結(jié)果。輸出旁邊還有評分結(jié)果、耗時等重要運(yùn)行指標(biāo)。

測試運(yùn)行比較視圖還提供了查看運(yùn)行輸出詳情的側(cè)邊欄。用戶可以點(diǎn)擊任意一個數(shù)據(jù)點(diǎn)，在側(cè)邊欄中查看該數(shù)據(jù)點(diǎn)不同運(yùn)行結(jié)果的完整信息，并可以通過上下翻頁快速在各個運(yùn)行結(jié)果之間切換。這種設(shè)計(jì)使得用戶可以非常方便地檢視某個特定輸入在不同運(yùn)行下的所有輸出。

在測試運(yùn)行比較視圖中查看單一數(shù)據(jù)點(diǎn)的運(yùn)行結(jié)果

此外，測試運(yùn)行比較視圖支持按各列進(jìn)行過濾 —— 用戶可以基于任意條件篩選出自己關(guān)注的行。結(jié)合錯誤輸出過濾和正確輸出過濾，用戶可以快速定位出不同運(yùn)行結(jié)果存在明顯差異的輸入，從而幫助定位改進(jìn)的方向。

總體來說，LangSmith 新推出的測試運(yùn)行比較功能讓開發(fā)者可以更直觀地對比不同運(yùn)行情況下的系統(tǒng)產(chǎn)出，手動檢視兩次運(yùn)行之間的差異，獲得對系統(tǒng)改進(jìn)更深入的理解。相比單獨(dú)的自動評分結(jié)果，這樣的手動比較可以提供更豐富和可靠的評估分析。這對于迭代開發(fā) LLM 應(yīng)用，定位需要優(yōu)化的方向非常關(guān)鍵。

當(dāng)前，LangSmith 還在內(nèi)測階段，但已經(jīng)展示了強(qiáng)大的潛力。測試運(yùn)行比較只是其中一個例子，它極大地降低了手動評估不同運(yùn)行的門檻。隨著其不斷豐富的工具集和功能，以及良好的用戶體驗(yàn)設(shè)計(jì)，LangSmith 正在成為 LLM 應(yīng)用開發(fā)過程中不可或缺的工具。它為開發(fā)者提供了寶貴的洞察力，可以更高效地構(gòu)建和迭代優(yōu)化復(fù)雜的LLM系統(tǒng)。