“不盈利”的互聯(lián)網(wǎng)檔案館,有人要從它身上擠出26億元
在互聯(lián)網(wǎng)上,有許多充滿“藝術(shù)行為”的項(xiàng)目,像是:把AI湊成一堆讓它們自己發(fā)布內(nèi)容、鼠標(biāo)指哪就生成一張人物看向鼠標(biāo)位置的圖片等等。這些項(xiàng)目雖然有趣,但要說再帶上“對(duì)大家能帶來用處”的標(biāo)簽,那么可以分類成“藝術(shù)類”的項(xiàng)目就不多了,其中……互聯(lián)網(wǎng)檔案館就算一個(gè)。

互聯(lián)網(wǎng)檔案館的口號(hào)是“普及所有知識(shí)”,它會(huì)爬取網(wǎng)絡(luò)上的信息并永久存儲(chǔ)下來,它主要保存的內(nèi)容分類是:網(wǎng)頁、圖書、視頻、音頻、軟件和圖片。

檔案館是一個(gè)誕生于1996年號(hào)稱非營(yíng)利的項(xiàng)目,到現(xiàn)在收集的內(nèi)容還在持續(xù)增長(zhǎng),在2021年,它保存的內(nèi)容數(shù)量是:
2021年2月,該網(wǎng)站存儲(chǔ)了7280 億個(gè)網(wǎng)頁、3800萬本書和文本、1400 萬個(gè)錄音(包括 240,000 場(chǎng)現(xiàn)場(chǎng)音樂會(huì))、700 萬個(gè)視頻(包括 200 萬個(gè)電視新聞節(jié)目)、400 萬張圖片、790,000 個(gè)軟件程序。
而在2023年,從單一的網(wǎng)頁分類來看,保存的網(wǎng)頁數(shù)就來到了8280億,一年500億的增長(zhǎng)數(shù)量可謂迅速,這些保存的網(wǎng)頁數(shù)據(jù)是一直累加的,不是說保存了新數(shù)據(jù)就刪除較舊的數(shù)據(jù),所以在這里能發(fā)現(xiàn)不少有趣的東西。

像是知乎以前的域名,在2001年的時(shí)候是一家叫做“智狐機(jī)械”的宣傳網(wǎng)頁,在這里上面你甚至還能看到瀛海威的服務(wù)器托管廣告,左下角有一個(gè)“請(qǐng)用IE4.0以上”訪問的提示,一下子就感覺回到了以前,而這些頁面里的鏈接,點(diǎn)進(jìn)去也是有內(nèi)容的,并不只是主頁。

你可以在上面自由調(diào)整時(shí)間線,來體驗(yàn)一下復(fù)古的感覺。


這些保存的網(wǎng)頁也不是強(qiáng)制爬取的,它會(huì)通過網(wǎng)站的robots.txt文件來判斷是不是爬取該網(wǎng)站,如果想單獨(dú)禁止這個(gè)檔案館保存你網(wǎng)站的黑歷史,只需要在爬蟲聲明里面禁止 ia_archiver 這個(gè)標(biāo)簽的爬蟲即可。


如果你只是在網(wǎng)站上單獨(dú)留下一行提示表示不想被爬取,是沒有用的,這在2007年的時(shí)候,一位美國(guó)科羅拉多州的婦女已經(jīng)嘗試過了。

而如果想要?jiǎng)h除某個(gè)站點(diǎn)保存的內(nèi)容,用robots.txt沒有生效的話,根據(jù)國(guó)外網(wǎng)友說的,也可以直接聯(lián)系管理員進(jìn)行刪除。

除了網(wǎng)頁,互聯(lián)網(wǎng)檔案館保存的內(nèi)容里面還有不少古早的系統(tǒng)和游戲,對(duì)于那些對(duì)歷史軟件感興趣的朋友比較有用。

像是一些MS-DOS游戲,互聯(lián)網(wǎng)檔案館的頁面直接提供了一個(gè)模擬器,可以直接在網(wǎng)頁上玩。


它上面的軟件五花八門,甚至安卓APK的都有,版本的話大多是比較舊的版本,給人感覺就像是一個(gè)應(yīng)用市場(chǎng)。

看到上面凌亂的軟件和版本,也能看出來這個(gè)互聯(lián)網(wǎng)檔案館的另一個(gè)特色,那就是:不管是什么東西,都是一股腦兒保存了再說,內(nèi)容質(zhì)量與真假并不是最重要的,保存是第一要?jiǎng)?wù)。那么帶來的結(jié)果就是,互聯(lián)網(wǎng)檔案館上面絕大部分的內(nèi)容,對(duì)普通人來說是冗余用不上,甚至是混亂的。
這時(shí)候再來看互聯(lián)網(wǎng)檔案館的標(biāo)語“普及所有知識(shí)”,就顯得有些小問題了,這些知識(shí)是沒有經(jīng)過篩選的,更多的僅僅是“信息”,稱不上是“知識(shí)”,而在近一兩年,這個(gè)爬蟲型的網(wǎng)站又被美國(guó)法院和索尼和其他唱片公司盯上,原因是它保存的內(nèi)容里有許多是未經(jīng)授權(quán)的內(nèi)容。

前腳剛剛在數(shù)字圖書的問題上達(dá)成和解,下一腳音樂相關(guān)的公司就找上門來了。

就在昨天,一堆唱片公司還在要求互聯(lián)網(wǎng)檔案館刪除音頻,然后按照15萬美元一首的價(jià)格進(jìn)行賠償,已經(jīng)列舉出來的有2749個(gè)音頻,完整的列表有數(shù)十萬部作品,一共需要3.72億美元,換算一下是26億人民幣左右,對(duì)于不盈利(但是接受組織或者個(gè)人的贊助,從6萬美元到600萬美元都有)的互聯(lián)網(wǎng)檔案館來說,絕對(duì)是一筆天價(jià)了。
而互聯(lián)網(wǎng)檔案館則表示積極應(yīng)訴唱片公司侵權(quán)索賠,同時(shí)吐槽了一下這些音頻的目的是用于教學(xué)和研究,而且大多內(nèi)容的訪問量一個(gè)月連1人都沒有。

里面一些也來自互聯(lián)網(wǎng)檔案館起源于2006年的Great78項(xiàng)目,他們想保存的音頻則歷史久遠(yuǎn),是一些1898年到1950年的唱片,而這些唱片大多是用蟲膠樹脂制作的,錄音中會(huì)有刮擦和爆裂的雜音,想要轉(zhuǎn)換成數(shù)字版本還需要有人去處理這些噪音。

在他們的博客上有提到,這個(gè)項(xiàng)目記錄的唱片已經(jīng)超過了40萬張。

也許看到這里,大家也能隱約感受到了,保存互聯(lián)網(wǎng)上的這些東西,哪怕也還只能算是互聯(lián)網(wǎng)上的一小部分內(nèi)容,維護(hù)和存儲(chǔ)起來也是需要費(fèi)用的,那么這些錢都是從哪里來的?那就必須提起這個(gè)站點(diǎn)的創(chuàng)始人Brewster Kahle了。

互聯(lián)網(wǎng)檔案館的創(chuàng)始人大家可能在不經(jīng)意間,已經(jīng)用過或者聽說他的產(chǎn)品,Kahle畢業(yè)于麻省理工,1992年創(chuàng)立了一家電子出版公司W(wǎng)AIS,可以讓《華爾街日?qǐng)?bào)》之類的出版物在網(wǎng)上發(fā)布,1995年,它把這套系統(tǒng)以1500萬美元賣給了美國(guó)在線。
之后他建立的網(wǎng)站Alexa Internet,相信大多人都不陌生,就是那個(gè)屬于亞馬遜的那個(gè)Alexa網(wǎng)頁分析工具(已經(jīng)關(guān)停),它可以分析網(wǎng)站的世界排名,這個(gè)工具是在1999年被亞馬遜以2.5億美元收購(gòu)的。

有了啟動(dòng)資金,Kahle就已經(jīng)在規(guī)劃互聯(lián)網(wǎng)檔案館這個(gè)項(xiàng)目了,在與亞馬遜的合約當(dāng)中,就提到了用Alexa獲取的數(shù)據(jù)也要給一份數(shù)據(jù)給到互聯(lián)網(wǎng)檔案館。
在互聯(lián)網(wǎng)檔案館成立25周年的時(shí)候,創(chuàng)始人提到了他們之前用的存儲(chǔ)設(shè)備是普通機(jī)器,最開始保存的內(nèi)容在1-10TB,之后每幾個(gè)月都要翻一倍,最后用上了數(shù)據(jù)中心一類的存儲(chǔ)設(shè)備。


而他們回首過去25年,說之后25年的互聯(lián)網(wǎng)可能越來越嚴(yán)格,相關(guān)的內(nèi)容會(huì)被企業(yè)和組織把控,他們會(huì)將網(wǎng)頁盡可能存檔,好家伙這事可不興做啊,不過也正是因?yàn)檫@樣的特性,所以它早早就被封掉了。
也有人受這個(gè)檔案館的啟發(fā),做了一個(gè)中文網(wǎng)站的時(shí)光機(jī),不過這類工具簡(jiǎn)陋許多,收集到的內(nèi)容和排版也在兼容性方面也差一點(diǎn),而且收集到的內(nèi)容也比較少,想要長(zhǎng)久運(yùn)營(yíng)下去是很困難了,而且像是搜索引擎的快照功能都已經(jīng)下線了,這樣的工具想要發(fā)展起來不太現(xiàn)實(shí)。


保存互聯(lián)網(wǎng)的內(nèi)容也是為了留住記憶,不過這些記憶變得不再想回憶的時(shí)候,怎么保存都會(huì)顯得多此一舉,如果只是選擇性地記憶某些東西,而且還是可以隨時(shí)篡改的時(shí)候,更令人深思。
參考資料:
碼農(nóng)翻身-他把互聯(lián)網(wǎng)“存”了起來
??ConanXin-互聯(lián)網(wǎng)檔案館(Internet Archive)25周年