【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(15)——Science文章如何看待生成式AI的版權(quán)問題
昨天看到這么一篇新聞:

畢竟關(guān)于生成式AI,公眾最關(guān)注的問題可能就是版權(quán)問題了,不過我個人不是很懂版權(quán)法,所以一般不參與這方面的討論

不過前不久Science上一篇文章談?wù)摿?,我們就來看看這篇文章的作者是如何看到生成式AI的版權(quán)問題的,論文主要討論的是美國當(dāng)前政策下的生成式AI,主要以Stable AI及其旗下的Stable Diffusion模型為例來討論,我也不知道中美的版權(quán)法具體差別在哪里(問了下Bard和ChatGPT,應(yīng)該是有些差別的,但畢竟大模型輸出是存在幻覺的,不一定對),單純闡述作者的觀點。感興趣的可以去看原文。

1.從歷史的角度來看
實際上,新技術(shù)出現(xiàn)引發(fā)的類似的爭議和訴訟一直沒有停止過,例如有線電視、MP3都曾經(jīng)被告過侵權(quán),雖然每次都是敗訴但最后都擴(kuò)大了版權(quán)的保護(hù)范圍,作者認(rèn)為會出現(xiàn)這種現(xiàn)象的原因是因為技術(shù)的發(fā)展與法律相對滯后之間的矛盾所導(dǎo)致的。
當(dāng)然,作者這樣舉例并不能直接類比說生成式AI一定是沒問題的,最終還是要具體問題具體分析。

2.版權(quán)法的保護(hù)范圍
這是作者的核心觀點,即大眾誤解了版權(quán)法的保護(hù)范圍是導(dǎo)致爭議的一個主要原因。
(美國的)版權(quán)法保護(hù)的僅僅是作者所貢獻(xiàn)的原創(chuàng)表達(dá)方式,而不擴(kuò)展到作品中包含的任何思想、事實、方法,或者作品中普遍存在的元素以及只能以極少方式表達(dá)的元素
簡單來說,一個攝像師拍攝了一只貓,他只能擁有這張照片的版權(quán),但是無法獲得貓的特征的版權(quán),其他人照樣可以用各種方式描述貓的特征。他們可以對同一只貓進(jìn)行繪畫、詩歌創(chuàng)作甚至嘗試復(fù)刻這個攝像師拍攝的照片的環(huán)境和貓的姿勢。

3.公平使用原則
這是美國對于版權(quán)保護(hù)的一個重要原則(Bard說中國的對于版權(quán)保護(hù)的主要原則是“實質(zhì)性相似”,也不知道對不對),其中一條就是“變革性的使用”,這也是美國目前對Stable Diffusion亮綠燈的主要依據(jù)。作者還據(jù)此反駁了一些反對意見,這里就不放出來了。

4.來談?wù)凷table Diffusion
這是我唯一擅長一點的東西了(所以基本只有這一塊我做了點拓展),可是神經(jīng)網(wǎng)絡(luò)本身是個黑盒,實際上要講清楚還是很麻煩的。關(guān)于Diffusion的一些知識可以見下面的鏈接,雖然和本文討論的東西關(guān)系不大。
【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(8)——Diffusion
關(guān)于Stable Diffusion大眾最多的說法當(dāng)然是“Stable Diffusion是一個拼貼工具”,這種說法對大部分人來說可能確實是個能解釋的通的說法,畢竟對于神經(jīng)網(wǎng)絡(luò)能獲得的最基礎(chǔ)的知識就是“神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練”。
不過這個說法的問題很大,某種程度上是把AI擬人化了,甚至是對AI的高估。因為實際上,Stable Diffusion它是不知道“手”是什么東西的,也不知道手是接在胳膊上的,它的做法也不是去識別人體的各部位然后拆解合并,這對現(xiàn)在的AI來說簡直是一種奢求。
模型訓(xùn)練的本質(zhì)還是通過大量的例子獲取統(tǒng)計相關(guān)性。相關(guān)性不一定是因果性,例如我們發(fā)現(xiàn)冰淇淋銷量隨著空調(diào)銷量的增加而增加,這兩者就是有相關(guān)關(guān)系,而“空調(diào)銷量增加”不是“冰淇淋銷量增加”的原因,而是因為兩者有一個共同的原因——天氣變熱了。
關(guān)于這部分仍然是一個爭議話題,去學(xué)術(shù)引擎中搜索“隨機(jī)鸚鵡”就能找到很多這方面的討論,目前普遍是認(rèn)為,雖然現(xiàn)有的模型確實能學(xué)到很多抽象的東西,但是還達(dá)不到因果性層面。
簡單來說,用AI生成圖像和預(yù)測一個彗星每多少年會造訪地球本質(zhì)上是一樣的東西。

5.訓(xùn)練數(shù)據(jù)的問題
關(guān)于Stable Diffusion另一個問題就是訓(xùn)練數(shù)據(jù)了(這里只談Stable Diffusion,其他一些生成模型用版權(quán)數(shù)據(jù)訓(xùn)練那就是它們的事情了),作者說明Stable Diffusion所使用的數(shù)據(jù)在合法性上沒有任何問題。用戶可以自己上傳數(shù)據(jù)微調(diào)自己的模型,但那也是用戶自己的事情了,使用公眾預(yù)訓(xùn)練版本一般來說是沒有問題的。
另一方面,如果一個形象在訓(xùn)練數(shù)據(jù)中占比很高,那么生成的圖像是很有可能與訓(xùn)練數(shù)據(jù)高度相似的,但諷刺的是,隨著訓(xùn)練數(shù)據(jù)量和訓(xùn)練數(shù)據(jù)多樣性的提高,這種情況只會越來越少

6.總結(jié)
總的來說,作者認(rèn)為在現(xiàn)有情況下,對于Stable Diffusion侵犯版權(quán)的訴訟幾乎不可能成功,并用比較科普性質(zhì)的說法闡明了自己的理由。當(dāng)然這不意味著生成式AI就能一路暢通無阻了,還是有很多社會問題需要研究的。

7.個人評論
最后說些我自己的體會吧。從Stable Diffusion引發(fā)爭議開始,我看到了濫用生成式AI的人(例如毫無節(jié)制地用ChatGPT在論壇中生成低質(zhì)量回答的情況)、極端反對生成式AI的人、因為對這件事發(fā)表看法而被炎上的人、我身邊一些研究生成式AI的朋友收到這次事件的(負(fù)面)影響的人等等。
我個人是靠生成式AI(主要是ChatGPT的延伸方向)的研究吃飯的,我能做的就是把“現(xiàn)在AI的研究到底在做什么”告訴大家,然后大家可以據(jù)此來發(fā)表看法,我個人是不希望人們在對某一事情(幾乎)完全不了解的情況下盲目跟風(fēng)的,這也是做這兩個(本系列和神經(jīng)網(wǎng)絡(luò)前沿系列)系列的初衷之一