人工智能的另一個(gè)戰(zhàn)場:Books3數(shù)據(jù)集下線引發(fā)的版權(quán)之爭

Books3數(shù)據(jù)集,包含近20萬本書的文本,被用于訓(xùn)練人工智能模型,近期被丹麥反盜版組織Rights Alliance要求下線。這一數(shù)據(jù)集由The Eye網(wǎng)站托管,是更大項(xiàng)目The Pile的一部分,旨在為語言模型提供開源數(shù)據(jù)。Rights Alliance代表丹麥的出版商和作者,發(fā)現(xiàn)Books3包括其成員的約150個(gè)標(biāo)題,并采取了法律行動(dòng)。此外,Books3數(shù)據(jù)集還被Meta等公司用于訓(xùn)練其AI模型。雖然原始下載鏈接已下線,但數(shù)據(jù)集在網(wǎng)絡(luò)上仍有備份(需要在推特上自行搜索一下)。
Books3數(shù)據(jù)集的下線不僅是一場針對特定數(shù)據(jù)集的戰(zhàn)斗,更是一場涉及版權(quán)、開源和商業(yè)利益的復(fù)雜戰(zhàn)爭。從學(xué)術(shù)角度來看,這一事件可能會(huì)限制開源AI項(xiàng)目的發(fā)展,使得只有大公司能夠訪問和使用這些資源。從商業(yè)角度來看,這可能會(huì)引發(fā)一場關(guān)于AI訓(xùn)練數(shù)據(jù)的透明度和合規(guī)性的討論,可能導(dǎo)致更嚴(yán)格的監(jiān)管。
學(xué)術(shù)影響::Books3數(shù)據(jù)集的下線可能會(huì)限制小型和開源AI項(xiàng)目的發(fā)展。這一數(shù)據(jù)集的目的是為了打破大公司對AI訓(xùn)練數(shù)據(jù)的壟斷,使更多人能夠參與AI的創(chuàng)新。沒有這樣的開源資源,小型研究團(tuán)隊(duì)和個(gè)人開發(fā)者可能難以與大公司競爭。而且,這也引發(fā)一個(gè)思考,我們是不是可以做一些這樣的學(xué)術(shù)研究:如何合理規(guī)范地使用數(shù)據(jù)進(jìn)行AI的訓(xùn)練。
商業(yè)影響:此事件可能會(huì)引發(fā)關(guān)于AI訓(xùn)練數(shù)據(jù)的版權(quán)問題的更廣泛討論。如果大公司如Meta被發(fā)現(xiàn)使用盜版書籍進(jìn)行AI訓(xùn)練,可能會(huì)引發(fā)法律訴訟和公眾輿論的質(zhì)疑。這可能會(huì)推動(dòng)更嚴(yán)格的監(jiān)管和透明度要求,迫使公司公開他們的訓(xùn)練數(shù)據(jù)來源。
特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士王軍杰?