最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

用數(shù)學(xué)方法評估LLM中的幻覺,比如GPT4

2023-03-29 10:31 作者:魚仔說CV  | 我要投稿

在大型語言模型(LLM)中對幻覺進行數(shù)學(xué)評估是具有挑戰(zhàn)性的,如GPT4(用于新的ChatGPT plus ),因為它需要量化生成的輸出偏離地面真相或包含無支持信息的程度。

需要注意的是,即使沒有內(nèi)在或外在的說謊動機,當(dāng)提示出現(xiàn)時,即使人類也會虛構(gòu)、產(chǎn)生幻覺或編造東西。這幾乎就像是所有智能(或復(fù)雜動態(tài))系統(tǒng)的一個固有特征(或缺陷)。

GPT4的局限性~幻覺

GPT4研究網(wǎng)站陳述以下限制:

盡管它的能力,GPT-4和早期的GPT型號有相似的限制。最重要的是,它仍然不是完全可靠的(它“幻覺”事實并犯推理錯誤)。當(dāng)使用語言模型輸出時,特別是在高風(fēng)險的上下文中,應(yīng)該非常小心,使用與特定用例的需求相匹配的精確協(xié)議(例如人工審查、附加上下文的基礎(chǔ),或者完全避免高風(fēng)險的使用)。

“雖然仍然是一個現(xiàn)實問題,但GPT-4相對于以前的模型(這些模型本身在每次迭代中都有所改進)顯著減少了幻覺。在我們的內(nèi)部對抗性事實評估中,GPT-4的得分比我們最新的GPT-3.5高40%:”

????

什么是幻覺?

當(dāng)LLM產(chǎn)生的反應(yīng)不能準(zhǔn)確反映給定的環(huán)境,沒有證據(jù)支持,或者偏離了基于其訓(xùn)練數(shù)據(jù)的預(yù)期行為時,就會出現(xiàn)幻覺。

以下是LLM生成的輸出中出現(xiàn)幻覺的一些例子:

  1. 事實不準(zhǔn)確:LLM產(chǎn)生了一個事實上不正確的陳述。

  2. 無證據(jù)支持的索賠:LLM生成的響應(yīng)在輸入或上下文中沒有依據(jù)。

  3. 無意義的陳述:LLM產(chǎn)生一個沒有意義或者與上下文無關(guān)的響應(yīng)。

  4. 不可能的場景:LLM生成描述不可信或極不可能事件的響應(yīng)。

在了解數(shù)學(xué)模型之前,讓我們先了解一下LLM的基本評估指標(biāo)。

技術(shù)評估指標(biāo)

大型語言模型(LLM)通常在廣泛的任務(wù)范圍內(nèi)進行評估,反映了它們跨不同應(yīng)用程序理解和生成自然語言的能力。雖然具體的評估指標(biāo)和測試可能會因任務(wù)而異,但以下是LLM經(jīng)常評估的一些常用指標(biāo)和測試:

語言建模:

  • 困惑:衡量模型對給定測試數(shù)據(jù)的概率分布的預(yù)測程度。較低的復(fù)雜度表示較好的語言模型。

  • 交叉熵?fù)p失:在給定模型的預(yù)測概率分布的情況下,測量真實概率分布的平均負(fù)對數(shù)似然。

文本分類和情感分析:

  • 準(zhǔn)確性:正確分類的實例占總實例的比例。

  • 精確度、召回率和F1值:這些指標(biāo)分別衡量假陽性和假陰性之間的權(quán)衡,以及它們的調(diào)和平均值。

  • AUC-ROC(受試者工作特征曲線下的面積):衡量在各種分類閾值下真陽性率和假陽性率之間的權(quán)衡。

機器翻譯:

  • BLEU(雙語評估候補):通過計算n-gram精度來度量模型生成的翻譯和參考翻譯之間的相似性。

  • METEOR(使用顯式排序評估翻譯的度量):考慮翻譯和參考之間的n元語法匹配和對齊,包括同義詞和詞干。

  • TER(翻譯編輯率):測量將模型生成的翻譯轉(zhuǎn)換為參考翻譯所需的編輯次數(shù)(插入、刪除、替換)。

文本摘要:

  • ROUGE(用于Gisting評估的面向回憶的替角):一組度量(ROUGE-N,ROUGE-L,ROUGE-S),測量生成的摘要和參考摘要之間的N元語法、最長公共子序列和跳過二元語法的重疊。

命名實體識別:

  • 精確度、召回率和F1分?jǐn)?shù):這些度量用于評估命名實體識別任務(wù),考慮實體邊界和實體類型的精確匹配。

問題回答:

  • f1-得分:精確度和召回率的調(diào)和平均值,考慮模型生成的答案和參考答案之間的精確標(biāo)記匹配。

  • EM(精確匹配):衡量模型生成的答案是否與參考答案完全匹配的二元度量。

語言學(xué)、邏輯學(xué)和常識推理

大型語言模型(LLM)通常在各種語言和邏輯任務(wù)上進行評估,以評估它們理解和推理自然語言的能力。一些常見的語言和邏輯評估包括:

  1. 代詞歧義消除:代詞消歧是一項自然語言處理任務(wù),涉及確定句子或文本中給定代詞的正確先行詞(代詞所指的名詞或名詞短語)。代詞,如"他"、"她"、"它"、"他們"、"他的"、"她的"和"他們的",用于避免重復(fù)和保持語言的連貫性。然而,代詞可能會有歧義,理解它們所指的名詞或名詞短語對于正確解釋文本是至關(guān)重要的。

  2. Winograd模式挑戰(zhàn)(WSC):Winograd Schema類似于代詞歧義消除,但它是一種特定類型的語言測試,旨在評估人工智能系統(tǒng)的常識推理和自然語言理解能力。它通常涉及代詞歧義消除,但測試的主要重點是用需要更深入理解上下文和常識知識的場景來挑戰(zhàn)人工智能系統(tǒng)。例如:“市議員拒絕向示威者發(fā)放許可證,因為他們害怕暴力?!边@句話的挑戰(zhàn)在于確定“他們”是指市議員還是示威者。

  3. 文本蘊涵:確定一個給定的假設(shè)是否可以從一個給定的前提中推斷出來的任務(wù)?;谠撃P蛯⒕渥訉χg的關(guān)系分類為蘊涵、矛盾或中性的能力來評估該模型。

  4. 語義角色標(biāo)簽:這種評估包括識別句子中單詞或短語的語義角色(例如,施動者、患者、工具)。它需要理解謂詞-論元結(jié)構(gòu)和實體之間的關(guān)系。

  5. 關(guān)閉任務(wù):這些任務(wù)測試模型填補句子或段落中缺失信息的能力。它們通常包括預(yù)測一個缺失的單詞或短語來完成文本的意思。

  6. 溯因推理:該評估測試模型為給定的一組觀察值生成最合理解釋的能力。它要求模型推理可能的原因和影響,以及背景知識。

  7. 邏輯推理:涉及評估模型推理邏輯關(guān)系的能力的任務(wù),如三段論(例如,“所有A都是B。所有B都是c。因此,所有A都是c。”)或數(shù)學(xué)應(yīng)用題。

  8. 常識推理:這些評估評估模型對日常情況進行推理的能力,并根據(jù)一般知識或常識做出推斷。示例包括CommonsenseQA數(shù)據(jù)集和CODAH數(shù)據(jù)集。

  9. 類比推理:這項任務(wù)要求模型識別成對單詞或概念之間的關(guān)系,并將這些關(guān)系應(yīng)用于新的一對單詞或概念。例如,給定類比“男人:國王::女人:x”,模型應(yīng)該預(yù)測“x =王后?!?/p>

  10. 歧義解決方案:根據(jù)單詞出現(xiàn)的上下文評估模型消除多義詞歧義的能力。比如理解“銀行”可以指金融機構(gòu),也可以指河邊,要看上下文。

  11. 時間推理:評估模型推理事件及其時間順序的能力。這可能包括理解故事中的事件順序或預(yù)測歷史事件的時間順序。

  12. 空間推理:評估模型推理空間關(guān)系和理解物理布局描述的能力,如方向或場景中對象的排列。

幻覺評估

對LLM進行評估以確保它們不會產(chǎn)生幻覺,即產(chǎn)生似是而非但不正確或不支持的信息,通常涉及將產(chǎn)生的輸出與真實數(shù)據(jù)進行比較或使用人類判斷。以下是一些減少幻覺的評估方法:

  1. 事實核查評估:將生成的輸出與知識庫或一組可信來源進行比較,以確保模型生成的事實是準(zhǔn)確的,并且有證據(jù)支持。

  2. 基礎(chǔ)評估:評估模型生成由給定上下文、輸入數(shù)據(jù)或已知知識庫充分支持的輸出的能力。這可能涉及創(chuàng)建評估數(shù)據(jù)集,專門測試模型堅持事實的能力,并避免產(chǎn)生不基于輸入或上下文的信息。

  3. 基于參考的評估:對于機器翻譯或文本摘要之類的任務(wù),將模型生成的輸出與人類或其他可信來源創(chuàng)建的一個或多個參考輸出進行比較。BLEU、ROUGE和METEOR等指標(biāo)有助于這些評估。

  4. 人體評估:雇用人工評估人員來評估生成的輸出的質(zhì)量、相關(guān)性和正確性??梢砸笕藗兏鶕?jù)各種標(biāo)準(zhǔn)對生成的輸出進行評級,例如真實性、連貫性和相關(guān)性。

  5. 對抗性評估:創(chuàng)建評估數(shù)據(jù)集,使用對抗性示例來挑戰(zhàn)模型避免幻覺的能力。這些數(shù)據(jù)集可能包含具有細微變化、不正確信息或矛盾的示例,這些示例可能會導(dǎo)致模型生成不正確的輸出。

  6. 對比評估:向模型呈現(xiàn)一組可選的完成或響應(yīng),其中一些選項可能包含幻覺信息。評估模型在備選方案中選擇正確或最合理輸出的能力。

  7. 反事實評估:通過以各種方式修改原始輸入(例如,否定一個事實、改變一個實體或重新表述一個陳述)生成替代輸入,并評估模型在這些替代輸入中保持基礎(chǔ)和安全的能力。

  8. 負(fù)面培訓(xùn)示例:在培訓(xùn)過程中,在培訓(xùn)數(shù)據(jù)中包括帶有標(biāo)記為不正確的幻覺信息的示例。這種方法有助于模型學(xué)會避免在推理過程中產(chǎn)生類似的幻覺。

  9. 懲罰幻覺的評估標(biāo)準(zhǔn):開發(fā)或使用評估標(biāo)準(zhǔn),專門懲罰產(chǎn)生幻覺信息的模型。例如,考慮生成的輸出和地面實況數(shù)據(jù)之間的重疊的度量可能對幻覺更敏感。

  10. 精細評估:將對生成輸出的評估分解成更小、更具體的部分,以識別幻覺可能出現(xiàn)的位置。例如,在問答任務(wù)中,評估模型提取特定事實、對其進行推理以及在不引入不支持信息的情況下提供準(zhǔn)確答案的能力。

  11. 安全評估:雖然這不是幻覺評估的一部分,但添加安全檢查以確保模型不會造成傷害是很重要的。在這里,我們評估模型處理不安全或有害內(nèi)容的能力,如攻擊性語言、錯誤信息或有偏見的輸出。這可能涉及在安全基準(zhǔn)數(shù)據(jù)集上評估模型,如RealToxicityPrompts數(shù)據(jù)集或AI事件數(shù)據(jù)庫,其中包含可能觸發(fā)不安全輸出的示例。

理解幻覺的數(shù)學(xué)框架

雖然LLMs中的幻覺是一個活躍的研究領(lǐng)域,并且復(fù)雜的數(shù)學(xué)理論仍在開發(fā)中,以解釋和控制這一現(xiàn)象,但一些理論框架可以提供對潛在原因和潛在緩解的見解。以下是其中的幾個例子:

  1. 過度適應(yīng)和記憶:當(dāng)模型學(xué)習(xí)過于緊密地擬合訓(xùn)練數(shù)據(jù),從而捕獲噪音而不是基本模式時,就會發(fā)生過度擬合。當(dāng)LLM生成的輸出在輸入或環(huán)境中沒有良好的基礎(chǔ)時,這可能會導(dǎo)致LLM中的幻覺。諸如放棄、體重衰減和早期停止等技術(shù)可以幫助減輕過度擬合,并可能減少幻覺。

  2. 分配轉(zhuǎn)移LLM中的幻覺可以部分歸因于訓(xùn)練數(shù)據(jù)分布和測試數(shù)據(jù)分布之間的差異。當(dāng)模型遇到與訓(xùn)練數(shù)據(jù)明顯不同的輸入時,它可能會產(chǎn)生幻覺來生成輸出。領(lǐng)域適應(yīng)、遷移學(xué)習(xí)和元學(xué)習(xí)是可以幫助解決分布轉(zhuǎn)移和減輕幻覺的技術(shù)。

  3. 最大似然估計偏差:通常使用最大似然估計來訓(xùn)練LLM,這鼓勵模型將高概率分配給觀察數(shù)據(jù)。然而,這可能導(dǎo)致偏向于生成在訓(xùn)練分布下是高概率的輸出,即使它們不基于輸入或上下文。像最小風(fēng)險訓(xùn)練(MRT)或人類反饋強化學(xué)習(xí)(RLHF)這樣的技術(shù)可以幫助解決MLE偏差,并可能減少幻覺。

  4. 模型不確定性和校準(zhǔn):LLM有時可以產(chǎn)生非??尚诺幕糜X輸出,即使它們是不正確的或沒有證據(jù)支持的。開發(fā)評估和校準(zhǔn)模型不確定性的方法可以幫助識別模型可能產(chǎn)生幻覺的情況,并提供更可靠的輸出。貝葉斯建模和溫度標(biāo)度是可以幫助估計和校準(zhǔn)模型不確定性的方法的例子。

發(fā)展數(shù)學(xué)理論以更好地理解和模擬大型語言模型(LLM)中的幻覺是一個正在進行的研究領(lǐng)域。在這方面可能有所幫助的一些數(shù)學(xué)和理論框架包括:

  1. 貝葉斯建模:貝葉斯模型提供了一個對不確定性進行推理的概率框架,這對于建模和控制幻覺很有用。通過整合有關(guān)數(shù)據(jù)生成過程的先驗知識,并基于觀察到的數(shù)據(jù)更新信念,貝葉斯方法可以潛在地降低生成幻覺內(nèi)容的可能性。

  2. 信息論信息理論概念,如互信息和條件熵,可用于衡量生成的輸出和輸入數(shù)據(jù)之間的依賴程度。通過鼓勵模型最大化輸入和輸出之間的交互信息,有可能減少幻覺。

  3. 因果推理:因果推理為理解變量之間的關(guān)系提供了一個框架,這有助于確定何時生成的輸出不是基于輸入的因果關(guān)系。通過將因果模型整合到LLM中,有可能更好地理解和控制幻覺。

  4. 博弈論對抗訓(xùn)練:對抗訓(xùn)練是一種技術(shù),涉及在對抗實例存在的情況下訓(xùn)練模型。這種方法可用于鼓勵LLM生成對輸入數(shù)據(jù)中的擾動更魯棒且不太可能產(chǎn)生幻覺的輸出。博弈論的概念可以用來開發(fā)專門針對幻覺的對抗性訓(xùn)練方法。

  5. 正則化技術(shù)正則化方法向模型的目標(biāo)函數(shù)添加約束或懲罰,以鼓勵學(xué)習(xí)模型中的期望屬性。例如,引入懲罰來阻止與輸入數(shù)據(jù)的偏離或鼓勵輸出在訓(xùn)練數(shù)據(jù)中有良好的基礎(chǔ)可能有助于減少幻覺。

  6. 可解釋的人工智能(XAI):可解釋的人工智能技術(shù)旨在使模型預(yù)測更容易理解和解釋。通過開發(fā)能夠解釋LLM生成的輸出的方法,有可能識別和減輕幻覺的情況。

  7. 圖論:基于圖形的語言表示有助于以更結(jié)構(gòu)化的方式捕捉實體和概念之間的復(fù)雜關(guān)系。通過將基于圖的推理結(jié)合到LLM中,可能會更好地對基礎(chǔ)化建模并減少幻覺的可能性。

借用其他概率領(lǐng)域

我參與的一些對話涉及到借用Copula理論和極值理論。雖然這些不能直接應(yīng)用于抑制LLM中的幻覺,但它們可以激發(fā)一些開發(fā)新方法的想法。

Copula理論處理隨機變量之間的依賴性建模,而極值理論專注于對分布和罕見事件的尾部建模。以下是這些想法可能適用于LLM的一些方法:

建模依賴關(guān)系:Copula理論可以啟發(fā)LLM中顯式建模輸入和輸出令牌之間依賴關(guān)系的方法的開發(fā)。通過更好地捕捉輸入和輸出令牌之間的關(guān)系,可能會鼓勵模型生成更符合輸入的輸出,從而減少幻覺。

例如,可以開發(fā)一個修改的訓(xùn)練目標(biāo),該目標(biāo)包含一個測量輸入和生成的標(biāo)記之間的依賴性的項,如互信息或由Copula理論啟發(fā)的一些其他度量。通過優(yōu)化這個新目標(biāo),模型可以學(xué)習(xí)生成與輸入更緊密相關(guān)的輸出,并且不太可能產(chǎn)生幻覺。

模擬尾部行為:極值理論關(guān)注分布的尾部,那里很少發(fā)生事件。LLM中的幻覺可以被視為一種罕見的事件,其中模型生成的輸出明顯偏離預(yù)期行為。

受極值理論啟發(fā)的一個可能的方法是創(chuàng)建一個訓(xùn)練目標(biāo),懲罰產(chǎn)生極端或不可能輸出的模型。通過為LLM生成的輸出開發(fā)一種極端性的度量,有可能通過懲罰這些極端情況來鼓勵模型避免生成幻覺。

另一種可能性是創(chuàng)建一個對抗性的訓(xùn)練數(shù)據(jù)集,其中輸入-輸出對被設(shè)計成挑戰(zhàn)模型避免幻覺的能力。然后,該模型可以在這個對立的數(shù)據(jù)集上進行微調(diào),目的是提高其對幻覺的魯棒性。

雖然這些想法是受Copula理論和極值理論的啟發(fā),但重要的是要注意,它們不是這些理論的直接應(yīng)用。將這些概念應(yīng)用于LLM需要進一步的研究和開發(fā),以及嚴(yán)格的評估,以確定它們在抑制幻覺方面的有效性。

結(jié)論

值得注意的是,這些方法僅提供幻覺的間接或替代測量,因為在LLMs中量化幻覺是一個復(fù)雜和開放的研究問題。結(jié)合多種評估方法、數(shù)學(xué)建模和人類判斷,可以幫助獲得對ChatGPT等LLM中幻覺的更全面評估。


用數(shù)學(xué)方法評估LLM中的幻覺,比如GPT4的評論 (共 條)

分享到微博請遵守國家法律
玉田县| 孟州市| 玛沁县| 金阳县| 綦江县| 龙州县| 郴州市| 石首市| 遂川县| 武强县| 南安市| 满洲里市| 张家界市| 英山县| 朝阳市| 荥阳市| 宾川县| 黔西县| 长武县| 杭锦旗| 县级市| 酒泉市| 台东市| 建湖县| 神木县| 正镶白旗| 武邑县| 香港 | 鱼台县| 樟树市| 本溪市| 嵩明县| 库车县| 乡宁县| 湄潭县| 邵阳市| 台山市| 红安县| 宜阳县| 西乡县| 田东县|