從零開始的Java爬蟲——淺談采集站的技術變現(xiàn)
背景
我在高中的時候就有嘗試著建立屬于我自己的網(wǎng)站,那時候網(wǎng)絡上的“免費空間”很多,種類也不少,我最初接觸的是Discuz論壇程序,那時候大部分論壇都是使用的這個程序。直到我上大學學會了編程,從自己購買云主機搭建wordpress博客到自己開發(fā)簡單的博客程序,大體明白了建站需要的那些東西——域名、服務器、網(wǎng)站程序。記得有一陣子“網(wǎng)賺”的話題比較火,我也購買了一些相關的圖書,我記得比較清楚的兩本是電腦迷雜志的《網(wǎng)上淘金》和另一本比較硬核的《Adsense實戰(zhàn)寶典》:


Adsense這本書我看完之后感覺收益不大,因為當時的我并不知道如何才能建立一個有流量的網(wǎng)站,盡管如此,我還是去注冊并成功申請了Adsense賬號。
一些嘗試
我畢業(yè)后的兩三年里,有一種網(wǎng)站出現(xiàn)在我視線中的次數(shù)越來越多,它們都有一些共同特點——頁面數(shù)量少、樣式較為原始,最重要的是——這些網(wǎng)站的數(shù)據(jù)均是其他網(wǎng)站采集拿到的。我便開始了解爬蟲采集相關的資料,并根據(jù)自身的需求自己開發(fā)了一個輕量的爬蟲框架(可以在我的github上找到),這個框架雖然很原始,功能也很簡陋,但我使用它的這幾年一共采集了過億的數(shù)據(jù)。我的第一個爬蟲網(wǎng)站建立之后的幾個月,流量緩慢增長,直到一年后,日pv穩(wěn)定在一千左右,而adsense收入每天只有兩元,這個收入連服務器成本都無法收回,因為服務器費用不算太貴,我也就一直維護著這個網(wǎng)站了。
第一個百刀
在第一個爬蟲網(wǎng)站上線后過了大半年,我的adsense收入終于突破了一百美元(adsense最低一百美元打款),這是從0到1的突破。
在第二年的時候,流量有所上升,大概是三個月收一次adsense的程度。后來我做了一些其他方面的嘗試,我最成功的一個網(wǎng)站,曾經(jīng)達到了月流量五百萬pv,可惜的是過了兩個月就被搜索引擎給制裁了。
關于采集站的一些思考
技術方面的思考:
優(yōu)化數(shù)據(jù)存儲。對于傳統(tǒng)的采集網(wǎng)站,過多的數(shù)據(jù)會對數(shù)據(jù)庫產(chǎn)生很大的壓力,建議單表小于一千萬的數(shù)據(jù),否則網(wǎng)站響應會變慢,除非你不差錢或者服務器性能很強。
完善基礎框架。盡快搭建好擴展性強的框架,這樣才能在搭建新網(wǎng)站時減少開發(fā)的時間成本,畢竟時間就是金錢。
必須使用最熟悉的語言和技術。不要使用任何不熟悉的新技術,網(wǎng)站追求的是穩(wěn)定,網(wǎng)站掛掉一天,虧損的就是一天的收益。
雞蛋不要放在一個籃子里。建立盡可能多的網(wǎng)站,這樣當部分網(wǎng)站被降權時收入不至于降為零。
關于搜索引擎的思考:
百度索引很難做。
Bing會屏蔽采集網(wǎng)站,但是可以申訴解除黑名單。
谷歌會在兩周到兩個月內(nèi)人工審核流量增長過快的網(wǎng)站,且申訴成功率基本為0。
總結
現(xiàn)在入局的人越來越多,采集站的數(shù)量成指數(shù)級增長,流量獲取變得越來越困難,生存空間也越來越小,但你要是問能不能賺到錢,答案是肯定的,只是難度會越來越大。
我從第一個網(wǎng)站至今,一直是在閉門造車,幾乎從不與圈內(nèi)人溝通,也不清楚他們的建站手法和變現(xiàn)渠道。這幾年我用Adsense賺了過萬美元,但陸陸續(xù)續(xù)的總投入也超過了十萬元,只能說勉強實現(xiàn)了收支平衡。我計劃在未來幾周內(nèi)制作相關的視頻實戰(zhàn)教程,分享我建站的一些經(jīng)驗和教訓。