LangSmith 功能上新 — 數(shù)據(jù)標(biāo)注隊列
LangSmith 最近推出了數(shù)據(jù)標(biāo)注隊列(Data Annotation Queue)功能,以更好地支持開發(fā)者進行數(shù)據(jù)標(biāo)注,今天我們就來介紹一下這個新功能以及它如何輔助開發(fā)者進行數(shù)據(jù)標(biāo)注。
在開發(fā) LLM 應(yīng)用時,獲得高質(zhì)量的標(biāo)注數(shù)據(jù)對于提升模型性能至關(guān)重要。數(shù)據(jù)標(biāo)注流程通常包括以下步驟:
數(shù)據(jù)采集:從不同渠道收集與目標(biāo)任務(wù)相關(guān)的原始文本數(shù)據(jù);
數(shù)據(jù)清洗:進行格式規(guī)范化,處理異常數(shù)據(jù),刪除無效樣本;
人工標(biāo)注:對采集到的樣本進行標(biāo)簽、分類等人工標(biāo)注工作;這一環(huán)節(jié)往往最耗時耗力;
數(shù)據(jù)質(zhì)檢:針對人工標(biāo)注結(jié)果進行評估和錯誤修正,確保標(biāo)注質(zhì)量;
數(shù)據(jù)加載:將標(biāo)注后的數(shù)據(jù)集導(dǎo)入到模型訓(xùn)練和評估流水線中。
LangSmith 的數(shù)據(jù)標(biāo)注隊列功能正是為了更好地支持上面的第 3 步人工標(biāo)注環(huán)節(jié)。開發(fā)者可以直接在 LangSmith 中,根據(jù)不同過濾條件從運行日志頁面中提取相關(guān)數(shù)據(jù)點,加入標(biāo)注隊列待處理。

在標(biāo)注隊列視圖中,開發(fā)者可以清晰地看到每一個數(shù)據(jù)點的完整內(nèi)容。針對每個數(shù)據(jù)點,開發(fā)者可以進行兩類關(guān)鍵操作:1)添加標(biāo)簽或注釋,比如將其標(biāo)記為好樣本或壞樣本;2)將數(shù)據(jù)點(Datapoint)添加到數(shù)據(jù)集(Dataset)中,在添加前可以進行編輯,比如修正答案。

LangSmith 的數(shù)據(jù)標(biāo)注隊列為開發(fā)者提供了一個集成化的平臺,可以在一個界面完成標(biāo)注數(shù)據(jù)的提取、處理和標(biāo)注,從而提升標(biāo)注效率。開發(fā)者可以快速構(gòu)建起適合目標(biāo)任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù)。
總之,LangSmith 通過數(shù)據(jù)標(biāo)注隊列功能,將標(biāo)注的工作流程嵌入到了 LLM 應(yīng)用開發(fā)流程中,極大地降低了標(biāo)注的門檻,讓開發(fā)者更容易獲得用于提升模型性能的定制化標(biāo)注數(shù)據(jù)。這對基于數(shù)據(jù)不斷優(yōu)化 LLM 應(yīng)用的能力提升來說是至關(guān)重要的。

