GPT-4觀察到的安全挑戰(zhàn)
GPT-4在推理、知識保留和與GPT-2和GPT-3等早期模型相比,這些改進(jìn)中的許多也帶來了新的安全挑戰(zhàn)。

我們對GPT-4進(jìn)行了一系列定性和定量評估。這些評估幫助我們了解GPT-4的能力、局限性和風(fēng)險;優(yōu)先考慮我們的遷移難度;并反復(fù)測試和構(gòu)建更安全的模型版本。一些具體的我們探討的風(fēng)險有:
?幻覺
?有害成分
?代表性、分配和服務(wù)質(zhì)量的危害
?消毒和影響操作?常規(guī)和非常規(guī)武器的擴(kuò)散
?隱私?網(wǎng)絡(luò)安全
?風(fēng)險突發(fā)行為的可能性
?經(jīng)濟(jì)影響
?加速度
?過度依賴

我們發(fā)現(xiàn)GPT-4早期和GPT-4發(fā)射表現(xiàn)出許多與早期相同的局限性語言模型,例如產(chǎn)生有偏見和不可靠的內(nèi)容。在我們采取緩解措施之前我們還發(fā)現(xiàn),GPT-4早期在發(fā)現(xiàn)銷售非法商品或服務(wù)的網(wǎng)站,以及策劃攻擊。
標(biāo)簽: