最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

如何利用Java爬取網(wǎng)站數(shù)據(jù)?

2022-11-29 14:42 作者:云和數(shù)據(jù)何老師  | 我要投稿


1.Jsoup介紹

?

– 官網(wǎng)文檔:https://jsoup.org

– Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

2. Jsoup快速入門

– 獲取網(wǎng)頁標(biāo)題

  String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1";  Document document = Jsoup.connect(url).get();  String title = document.select("title").text();  System.out.println(title);  ```

– 運行效果:手機 – 商品搜索 – 京東

3. 網(wǎng)站數(shù)據(jù)分析

3.1 分析網(wǎng)站的訪問地址

– 以京東商城為例,商品分頁列表的url地址,需要帶如下幾個參數(shù),因此,在發(fā)送http請求時,需要攜帶正確的參數(shù)。

– URL:https://search.jd.com/Search?keyword=手機&wq=手機&page=1

3.2 分析網(wǎng)站的頁面結(jié)構(gòu)

– 通過瀏覽器的開發(fā)者工具,可以分析出頁面中我們需要的html結(jié)構(gòu)。

<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />

– 可以看出,我們需要的商品數(shù)據(jù),封裝在一個id=J_goodsList的div標(biāo)簽中,我們可以方便的通過DOM解析出這塊數(shù)據(jù)。

4. 實戰(zhàn)實現(xiàn)過程

– 獲取第1頁的商品基本數(shù)據(jù)

public static void main(String[] args) throws Exception { ? ?//第1頁地址 ? ?String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1"; ? ?//發(fā)送http請求 ? ?Document document = Jsoup.connect(url).get(); ? ?//在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標(biāo)簽 ? ?Elements lis = document.select("div[id=J_goodsList] li[data-sku]"); ? ?lis.forEach( ? ? ? ? ? ?li -> { ? ? ? ? ? ? ? ?//獲取商品sku ? ? ? ? ? ? ? ?String sku = li.attr("data-sku"); ? ? ? ? ? ? ? ?//獲取商品name ? ? ? ? ? ? ? ?String name = li.select("div[class='p-name p-name-type-2'] a em").text(); ? ? ? ? ? ? ? ?//獲取商品圖片地址 ? ? ? ? ? ? ? ?String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img"); ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?System.out.println(String.format("%s, %s, %s", sku, name, img)); ? ? ? ? ? ?} ? ?);}

– 效果預(yù)覽

– 改造為分頁獲取

public static void main(String[] args) throws Exception { ? ?//第N頁地址 ? ?String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=" + i; ? ?//發(fā)送http請求 ? ?Document document = Jsoup.connect(url).get(); ? ?//在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標(biāo)簽 ? ?Elements lis = document.select("div[id=J_goodsList] li[data-sku]"); ? ?lis.forEach( ? ? ? ? ? ?li -> { ? ? ? ? ? ? ? ?//獲取商品sku ? ? ? ? ? ? ? ?String sku = li.attr("data-sku"); ? ? ? ? ? ? ? ?//獲取商品name ? ? ? ? ? ? ? ?String name = li.select("div[class='p-name p-name-type-2'] a em").text(); ? ? ? ? ? ? ? ?//獲取商品圖片地址 ? ? ? ? ? ? ? ?String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img"); ? ? ? ? ? ? ? ?System.out.println(String.format("%s, %s, %s", sku, name, img)); ? ? ? ? ? ?} ? ?);}


如何利用Java爬取網(wǎng)站數(shù)據(jù)?的評論 (共 條)

分享到微博請遵守國家法律
康乐县| 齐河县| 乌鲁木齐市| 米泉市| 安徽省| 鱼台县| 绿春县| 鸡东县| 南安市| 武乡县| 宁陕县| 田林县| 屏边| 桑日县| 余江县| 揭阳市| 鄢陵县| 将乐县| 监利县| 定兴县| 凌源市| 富裕县| 腾冲县| 曲沃县| 淳安县| 长治市| 融水| 浑源县| 赣州市| 丽江市| 苍南县| 苏尼特左旗| 班戈县| 平原县| 龙胜| 册亨县| 八宿县| 登封市| 霸州市| 新绛县| 北京市|