Java網(wǎng)絡(luò)編程-爬蟲
前言-該文章寫于2019年末-結(jié)論: 爬蟲這塊還是python?香,建議少走彎路
其實(shí)我深知Java的爬蟲比python要復(fù)雜很多,原因python先天的優(yōu)勢加上其豐富的第三方庫,而就目前我比較熟悉Java,所以就使用Java來做了。
因?yàn)閷W(xué)校讓在家搞個(gè)項(xiàng)目,我實(shí)在是想不出來有什么比較新穎的東西,就覺得爬蟲這東西比較神奇,于是就報(bào)了一個(gè)項(xiàng)目,不管有什么結(jié)果,我還是想把它做完善,其實(shí)是我寫項(xiàng)目介紹的時(shí)候?qū)戇^了,說我的爬蟲能爬音頻,視頻,文本,圖片,HTML響應(yīng),盡管項(xiàng)目很小但bug層出不窮,所以我決定邊做,邊寫....
數(shù)據(jù)的作用
網(wǎng)上很多人說爬蟲違法,其實(shí)我們只要以學(xué)習(xí)為目的,不損害他人利益就不會觸碰到法律,畢竟技術(shù)無罪,人有罪。
其實(shí)不然,爬蟲的作用很多,百度就是一個(gè)爬蟲,當(dāng)你做了一個(gè)個(gè)人網(wǎng)站,或者博客,當(dāng)你的站點(diǎn)有一定的流量的時(shí)候,你會發(fā)現(xiàn)你的網(wǎng)站在百度一下當(dāng)中可以被搜索到,這就是因?yàn)?,百度爬取了你的站點(diǎn)信息,并且把信息收錄到了它的搜索引擎庫內(nèi)。
身處大數(shù)據(jù)的影響下,數(shù)據(jù)就是金錢。
金融,做市場分析,電商,做產(chǎn)品調(diào)研,很多東西的排名都離不開數(shù)據(jù)分析,而獲取數(shù)據(jù)的工具爬蟲是其一。
URL
URL是統(tǒng)一資源定位符的簡稱,它表示Internet上某資源的地址。通過URL我們可以訪問網(wǎng)絡(luò)上的各種資源。
URL對象是一個(gè)絕對的URL地址,但URL對象可用絕對URL、相對URL和部分URL來構(gòu)建。
使用Java程序上網(wǎng)
使用URL可以遠(yuǎn)程訪問資源,URL有openConnection()方法,用此來創(chuàng)建一個(gè)URLConnection對象,與調(diào)用URL對象相關(guān),它返回一個(gè)URLConnection對象。但是它可能會發(fā)生I/O異常。
獲取網(wǎng)頁上的文字信息
接下來需要導(dǎo)入jar包依賴:
獲取網(wǎng)站響應(yīng)信息
獲取網(wǎng)站圖片
獲取HTML
獲取站點(diǎn)連接