最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Python個人學習筆記 XPath語法與lxml.etree模塊

2023-07-13 12:31 作者:ベレッタ  | 我要投稿

lxml.etree

????解析HTML代碼

XPath

????常用語法

????常用用法示例

????運算符



解析HTML代碼

⑴ 解析本地文件 parse()


⑵ 解析字符串HTML代碼 HTML()

其實用response.html可以直接獲取非字符串類型的HTML代碼,沒必要再用etree.HTML()解析一遍。

區(qū)別就是匹配節(jié)點后輸出的方式不同。response.html會顯示標簽中屬性和屬性值,etree.HTML()解析的代碼只顯示標簽名。



XPath

XPath可用于爬蟲中匹配標簽對。

常用語法

示例可參考 requests庫 requests_html庫——簡單數(shù)據(jù)爬取。


常用用法示例

⑴ 獲取所有節(jié)點 //*


⑵ 獲取父節(jié)點 ..

多個節(jié)點的父節(jié)點相同時,不會重復返回父節(jié)點。

獲取<body>下<div>標簽的父節(jié)點。一共會匹配到5個<div>,只會返回1個<body>。


⑶ 獲取文本 /text()????/????獲取屬性值 @

① 獲取所有<td class="..." colspan="..." style="...">下<a>的文本。

②?獲取所有<td class="..." colspan="..." style="...">下<a>的title的屬性值。



⑷ 模糊匹配文本 contains()

① 匹配屬性值

② 匹配文本


⑸ 指定索引

在之前的例子中獲取東方作品名中,一共有4個表格:舊作、整數(shù)作、小數(shù)點作、黃昏作。

用索引 [2] 指定第二個表格(新作),再獲取作品名。

last():返回最后一個索引值。

position():返回當前索引值。

用?[last()-2]、[position()=2] 同樣可以獲取第二個表格。

▲索引從1開始。


⑹ 指定軸(節(jié)點關系) ::

示例參考?requests庫 requests_html庫——簡單數(shù)據(jù)爬取。


運算符

示例:

獲取<head>和<table>標簽。


Python個人學習筆記 XPath語法與lxml.etree模塊的評論 (共 條)

分享到微博請遵守國家法律
福鼎市| 麟游县| 宜阳县| 昌图县| 舒城县| 柘城县| 昌江| 鄢陵县| 遵义市| 息烽县| 东乡县| 花莲市| 江津市| 仁寿县| 岳普湖县| 仙居县| 昌吉市| 临江市| 梁河县| 文山县| 呈贡县| 普安县| 西乡县| 榆中县| 景洪市| 江川县| 临江市| 乌恰县| 云林县| 山东省| 天柱县| 延津县| 天长市| 平果县| 太湖县| 龙门县| 胶州市| 邹城市| 东兰县| 临泉县| 象州县|