LangSmith 功能上新 — 測試運(yùn)行結(jié)果比較
在構(gòu)建 LLM(大語言模型)應(yīng)用時,如何評估不同的提示、鏈路或代理變化對系統(tǒng)產(chǎn)生的影響,仍然是一個非常具有挑戰(zhàn)性的問題。理想情況下,我們希望能夠采用完全可靠的自動評估方法,但目前自動評估方法仍然面臨諸多限制,不夠成熟和可靠。因此,研究人員和工程師通常傾向于手動檢查大量數(shù)據(jù),以獲得對系統(tǒng)的更直觀的理解。
LangSmith 作為 LLM 應(yīng)用開發(fā)的伴生工具,其目標(biāo)就是讓開發(fā)者能夠更高效地評估系統(tǒng)的改進(jìn)進(jìn)展。在最初發(fā)布時,LangSmith 就已經(jīng)支持了對測試運(yùn)行進(jìn)行評分,包括基于 LLM 輔助的自動評分方法。但是每個測試運(yùn)行之間還是相對孤立的。為了能夠更好地手動檢查數(shù)據(jù),用戶通常不僅需要對單次運(yùn)行進(jìn)行檢查,更需要對不同運(yùn)行之間的對比。
為此,LangSmith 推出了測試運(yùn)行比較功能。該功能可以讓用戶選擇兩個或多個測試運(yùn)行,進(jìn)入比較視圖。在該視圖中,用戶可以清晰地看到不同運(yùn)行在同一組輸入下的輸出結(jié)果。輸出旁邊還有評分結(jié)果、耗時等重要運(yùn)行指標(biāo)。


測試運(yùn)行比較視圖還提供了查看運(yùn)行輸出詳情的側(cè)邊欄。用戶可以點(diǎn)擊任意一個數(shù)據(jù)點(diǎn),在側(cè)邊欄中查看該數(shù)據(jù)點(diǎn)不同運(yùn)行結(jié)果的完整信息,并可以通過上下翻頁快速在各個運(yùn)行結(jié)果之間切換。這種設(shè)計(jì)使得用戶可以非常方便地檢視某個特定輸入在不同運(yùn)行下的所有輸出。

此外,測試運(yùn)行比較視圖支持按各列進(jìn)行過濾 —— 用戶可以基于任意條件篩選出自己關(guān)注的行。結(jié)合錯誤輸出過濾和正確輸出過濾,用戶可以快速定位出不同運(yùn)行結(jié)果存在明顯差異的輸入,從而幫助定位改進(jìn)的方向。

總體來說,LangSmith 新推出的測試運(yùn)行比較功能讓開發(fā)者可以更直觀地對比不同運(yùn)行情況下的系統(tǒng)產(chǎn)出,手動檢視兩次運(yùn)行之間的差異,獲得對系統(tǒng)改進(jìn)更深入的理解。相比單獨(dú)的自動評分結(jié)果,這樣的手動比較可以提供更豐富和可靠的評估分析。這對于迭代開發(fā) LLM 應(yīng)用,定位需要優(yōu)化的方向非常關(guān)鍵。
當(dāng)前,LangSmith 還在內(nèi)測階段,但已經(jīng)展示了強(qiáng)大的潛力。測試運(yùn)行比較只是其中一個例子,它極大地降低了手動評估不同運(yùn)行的門檻。隨著其不斷豐富的工具集和功能,以及良好的用戶體驗(yàn)設(shè)計(jì),LangSmith 正在成為 LLM 應(yīng)用開發(fā)過程中不可或缺的工具。它為開發(fā)者提供了寶貴的洞察力,可以更高效地構(gòu)建和迭代優(yōu)化復(fù)雜的LLM系統(tǒng)。


