我們失去的是一艘諾亞方舟
始發(fā)于微博頭條文章:https://card.weibo.com/article/m/show/id/2309404481857990295614
在這里我就直接進入主題吧:
這篇文章包括以下內(nèi)容:
1、我為什么要扒這個數(shù)據(jù)?
2、數(shù)據(jù)中可能存在的不足
3、中文同人在AO3上的數(shù)量及分級分布變化趨勢
4、我的個人想法
1、我為什么要扒這個數(shù)據(jù)?
????? “227”事件其實只是個契機。我早在去年開啟“AO3tag翻譯計劃”(目前該計劃因為個人及其他原因已停擺)的時候就用AO3進行過爬蟲練習。如果大家還有印象的話,去年6月至9月微薄上曾對中文用戶涌入AO3進行了一定范圍內(nèi)的討論。OTW官方新聞傳送門:https://archiveofourown.org/admin_posts/12907。為此AO3還特地成立了中文的標簽管理員(Tag Wrangler)。
?????? 所以這次爬數(shù)據(jù),我除了分析偉大長城對AO3中文同人的影響外,還分析了AO3中文同人三年來的趨勢。這次數(shù)據(jù)并不針對孤立事件,反而是為了分析多年來的幾次事件(雖然我也不一定說得清具體是什么事件)的疊加影響。
2、我獲取了什么數(shù)據(jù),數(shù)據(jù)中可能存在哪些不足?
??????? 先說說數(shù)據(jù)可能存在的問題。首先,分級這個是作者自己決定的,可能存在偏頗(如果你對某篇同人的分級存在異議,歡迎通過Abuse Report進行匯報,Report支持中文)。其次,AO3早期在發(fā)布文章的時候如果作者沒有修改語言選項的話會默認顯示為英文,但這個bug已經(jīng)在2019年11月被修復(官方公告:https://archiveofourown.org/admin_posts/14605),所以2019年11月中旬之前的語言數(shù)據(jù)可能會有誤差,但之后的數(shù)據(jù)我認為可以認定為完全準確的。最后,2020年3月31日的估算數(shù)據(jù)可能偏高。我是直接按3月1日至3月10日的數(shù)據(jù)乘以三來計算的,但隨著鏡像網(wǎng)站和一些代理網(wǎng)站陸續(xù)被ban,我估計實際數(shù)據(jù)會比預估要低。
???????? 那么我爬了什么數(shù)據(jù)呢?我以2020年3月1日為節(jié)點,往前每30天取樣一次,按分級爬了AO3上的同人文總篇數(shù),中文同人總篇數(shù),英文同人總篇數(shù)。然后以此為基礎,我推算了AO3上非英文同人的總篇數(shù),全部同人文/中文同人/非英文同人的增量,還有全部同人/中文同人/非英文同人總篇數(shù)和增量的分級分布。非英文同人總篇數(shù)這個數(shù)據(jù)是我今天(3月12日)早上扒的,因為昨天晚上睡前我發(fā)現(xiàn)中文同人在AO3所有同人的占比中不高,但在非英文同人占比中相當高,今天爬出來的數(shù)據(jù)也很有趣,下面會詳細分析。
3、結果
??????? 當然,為了證明我吃了兩碗面,我得先剖開肚子:(1)我的代碼在github上是開源的:https://github.com/batcat229/AO3Counting ,之后修正的數(shù)據(jù)也會再放上去。原始數(shù)據(jù)的文件是沒有放的,因為程序運行之后就會生成。但是這個程序還有瑕疵,這里不展開講,如果有人對代碼感興趣的話,可以過來私我交流。(2)關于分級,大家已經(jīng)進行了很多討論了,AO3官方的分級定義及建議在這里:https://archiveofourown.org/faq/tutorial-posting-a-work-on-ao3?language_id=zh-CN#pwtrating 下拉還有關于大警告的定義。
(1)總量趨勢

?????????? 那么先上一張AO3所有作品的總量趨勢,說一下這類圖表要怎么看。這個圖是累進圖,也就是說所有分級的文的會直接疊起來,最上面的邊界就是總篇數(shù)。圖例有些被水印擋住了,但知道從上到下分別是”Explicit(成人級)“,”Mature(***)“,”Teen And Up Audiences(青少年以上)“,”General Audiences(普遍級)“和“No Rated(無分級)"(與圖標順序剛好相反)就行,后面的圖標顏色也會保持一致。如果之后的圖標出現(xiàn)了總數(shù)(”Total“)的話,Total數(shù)據(jù)會以橙色標出。最后一個數(shù)據(jù)是我的推測數(shù)據(jù),就是單純把從3月1日到3月11日增加的數(shù)量乘以三來模擬3月31日的數(shù)據(jù),以滿足30天取樣一次的時間區(qū)間。
?????????? 那么從圖上我們可以看出,AO3的同人總量一直在平穩(wěn)增長,但在3月1號之后突然開始爆發(fā)。那么是不是AO3被ban之后中文同人反而報復性增長呢?請看下圖:

??????? 如圖所示,中文總數(shù)量在2018年11月7號之后突然開始爆發(fā)式增長,在2020年3月1號之后增長速度稍微放緩。這個放緩在增量圖里會更加明顯??紤]到AO3已經(jīng)強制要求用戶在發(fā)文的時候選擇語言,所以排除了3月1號之后在AO3上發(fā)文的中文作者選錯語言的可能。

?????? 對比預測增長相對正常的非中文非英文同人總數(shù)后,我只能推測是因為AO3英文作品在3月初出現(xiàn)了一個井噴才導致了那個異常值??紤]到AO3官方1月16號的公告(https://archiveofourown.org/admin_posts/14779),可能這次爆發(fā)與Watchmen Kinkmeme參與Open Doors計劃(計劃介紹,目前沒有中文:https://opendoors.transformativeworks.org)有關。
(2)增量趨勢
?


?????? 這兩張圖還是累進圖。無論是全AO3的同人增量還是排除中文的外語同人增量除了最后推測值異常外基本上三年來都是比較穩(wěn)定的,當然最近幾個月增量也開始有增長的趨勢。那么中文同人的增量是怎么樣的呢?

???????
中文的同人增量明顯是有周期地增長的。我標出的時間點是增長開始的時間點。造成這種現(xiàn)象的原因可能是多樣的,我這里不會展開說,希望其他有識之士可以深入分析。但2020年3月1日之后的滑坡,證明偉大的長城已經(jīng)發(fā)揮作用了。而且據(jù)傳今天雨果計劃關站,相信實際數(shù)據(jù)會比我現(xiàn)在推測得要低。
(3)增量分級分布

???????? 我之前在自己的微薄上放出的是總量分級對比趨勢,但這個增量對比才比較能反映變化趨勢。先說一下這個表要怎么看:想知道哪個時間段間增加的中文同人的分級分布,只需要在始終兩個時間節(jié)點內(nèi)對這個圖進行一個“切片”,切出來的顏色面積比例即為那個時間段上傳的中文同人的分級分布。我之前在預告微博里做的判斷是錯的,從這張圖看來,早在2018年4月開始,中文同人中G級和PG13同人的比例開始逐步減少。


????? 對比可見,AO3上的同人總體趨勢大致保持平穩(wěn),成人向的內(nèi)容也在略微逐步增加,而非中文非英語的同人則基本上保持了相對平穩(wěn)的比例。
????? 首先,這肯定了其他人統(tǒng)計中認為中文同人相對于其他同人尺度較大的推論,也間接證明了的確有中文同人作者把AO3當作停車場。但是我們必須注意到,在AO3上中文同人的分級分布是產(chǎn)生了明顯變化的。其中的緣由相信各位創(chuàng)作者已經(jīng)心中有數(shù)了。
????? 那么,可能有人會問,是不是中文同人成人向作品變多導致AO3成人向作品的比例變大的呢?
(4)中文同人的占比

?????? 還是先說一下這張圖要怎么看。一騎絕塵的哪個紅線是中文同人作品總數(shù)占非英文同人總數(shù)的比例,中間藍色那條是中文同人作品總數(shù)占全AO3同人總數(shù)的比例,最下面綠色那條是除中文同人外的非英語同人作品占AO3同人作品總數(shù)的比例。
????? AO3畢竟還是美國的網(wǎng)站,在AO3上的英文同人是占壓倒性優(yōu)勢的。截至昨天統(tǒng)計時,AO3總同人數(shù)將近580w,其中英文同人占了近500w,所以中文同人始終只是AO3的一個添頭而已。但是中文作者的確在AO3上逐漸獲得了一席之地,從最開始的0.74%,逐漸爬到了2020年3月1日的4.38%。昨天我去搜非英文同人數(shù)量的時候,我才發(fā)現(xiàn),原來中文已經(jīng)占領了非英文同人的半壁江山。但現(xiàn)在,偉大的長城效果立竿見影,我們的比例馬上就掉下去了。而且這些數(shù)據(jù)是絕對準確的,因為計算比例并不需要考慮時間跨度,我并沒有調(diào)整數(shù)據(jù)。
4、碎碎念
?????? 不知不覺寫了幾千字。相信大家在看完原始數(shù)據(jù)之后都產(chǎn)生了自己的想法。如果你只需要看客觀數(shù)據(jù),那么到這里就可以關閉頁面了,接下來是我的一些碎碎念。
??????? 首先,和其他吃瓜群眾不一樣,我也是同人創(chuàng)作者,我也使用過lof和AO3??吹街形耐说臄?shù)據(jù)變化,我第一反應是:這側面證明了中文創(chuàng)作環(huán)境的確在收緊。如果中文平臺足夠好,我相信絕大部分創(chuàng)作者是更喜歡使用自己母語的平臺的。之前我看到的大部分”數(shù)據(jù)分析“,總是試圖證明”AO3作者“比”lof作者“更”黃暴“。這里不談文學創(chuàng)作和淫穢色情之間的關系,我覺得不了解創(chuàng)作群體經(jīng)歷的人不配說這樣的話。
??????? 然后,我在預告微博里也說過,我國人口占世界20%,但是在AO3上的作品比例僅為4%
,就算考慮到國內(nèi)有l(wèi)of,AO3本身有使用門檻,這個比例我個人還是覺得偏低了。AO3努力過,它向中文作者敞開懷抱,創(chuàng)建了絕無僅有的中文志愿者團隊,甚至讓頗有怨言的英語使用者要包容;創(chuàng)作者也努力過,他們創(chuàng)作,學習使用外語平臺,然后試圖讓大家看到作品。我只能說,這個結果是我們都不想看到的。
??????? 其次,有人問過我,這次事件是不是能有更深層次的討論。當然!這次事件早就不是一個粉絲團隊和平臺使用者的矛盾了。這次事件能延伸開的話題很多,分級制度,創(chuàng)作自由,流量粉絲真實情況。但這個我不敢展開說,我慫,我只能說:創(chuàng)作不死。只要堅持創(chuàng)作,我們就贏了
???????? 最后,我把AO3比作諾亞方舟,是因為它在限制創(chuàng)作的洪水中,給我們提供了一個安全可靠的地方,讓我們可以肆意創(chuàng)作。有人迫使這艘船離開了我們的生活,但她依然會傲立海上,為其他需要的人提供一個他們需要的平臺。