c語言庫libtidy-網(wǎng)頁源碼解析
它的常見用途是用來規(guī)整HTML,糾正HTML書寫中的格式不規(guī)范的錯(cuò)誤。對(duì)于XML主要糾正標(biāo)簽不匹配的錯(cuò)誤。
還提供一整套的接口,利用這些建立在標(biāo)準(zhǔn)C之上接口,可以很方便的把標(biāo)記語言文檔處理成一棵Dom樹(Document Object Model),利用API對(duì)于DOM的節(jié)點(diǎn)名,節(jié)點(diǎn)值, 屬性名,屬性值可以很方便的遍歷。如果用它來做網(wǎng)頁信息抽取,應(yīng)該是比較良好的工具。
下面是分析網(wǎng)頁的例子:
標(biāo)簽: