【原創(chuàng)】Python 二手車之家車輛檔案數(shù)據(jù)爬蟲
?本文僅供學(xué)習(xí)交流使用,如侵立刪!
二手車之家車輛檔案數(shù)據(jù)爬蟲
先上效果圖

環(huán)境
win10
python3.9
lxml、retrying、requests
需求分析
需求: 主要是需要車輛詳情頁(yè)中車輛檔案的數(shù)據(jù)

先抓包分析一波,網(wǎng)頁(yè)抓包沒有什么有用的,轉(zhuǎn)戰(zhàn)APP


拿到數(shù)據(jù)接口就簡(jiǎn)單了,直接構(gòu)造請(qǐng)求保存數(shù)據(jù)即可
獲取車輛信息列表
? ?def _get_car_list(self, _url: str):
? ? ? ?"""
? ? ? ?獲取二手車信息列表
? ? ? ?"""
? ? ? ?res = self._parse_url(_url=_url)
? ? ? ?ret = res.text ?# 解析獲得字符串類型數(shù)據(jù)
? ? ? ?result = etree.HTML(ret) ?# 轉(zhuǎn)換數(shù)據(jù)類型為HTML,方便使用xpath
? ? ? ?url_list = result.xpath('//*[@id="goodStartSolrQuotePriceCore0"]/ul/li/a/@href')
? ? ? ?if not url_list:
? ? ? ? ? ?print('獲取完成!')
? ? ? ? ? ?return
? ? ? ?for i in url_list:
? ? ? ? ? ?# 有些車型url直接是帶域名的
? ? ? ? ? ?if 'www.che168.com/' in i:
? ? ? ? ? ? ? ?yield 'https://' + i[2:]
? ? ? ? ? ?else:
? ? ? ? ? ? ? ?yield 'https://www.che168.com' + i
獲取車輛詳情信息
? ?def _get_car_info(self, _url: str):
? ? ? ?"""
? ? ? ?獲取車輛詳情信息
? ? ? ?"""
? ? ? ?res = self._parse_url(_url=_url)
? ? ? ?ret = res.text ?# 解析獲得字符串類型數(shù)據(jù)
? ? ? ?result = etree.HTML(ret) ?# 轉(zhuǎn)換數(shù)據(jù)類型為HTML,方便使用xpath
? ? ? ?# 標(biāo)題
? ? ? ?title = result.xpath('//div[@class="car-box"]/h3//text()')
? ? ? ?title = title[1].strip() if len(title) > 1 else title[0].strip()
? ? ? ?# 上牌時(shí)間
? ? ? ?play_time = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[1]/text()')
? ? ? ?play_time = play_time[0].strip() if play_time else '-'
? ? ? ?# 表顯里程
? ? ? ?display_mileage = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[2]/text()')
? ? ? ?display_mileage = display_mileage[0].strip() if display_mileage else '-'
? ? ? ?# 變速箱
? ? ? ?gearbox = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[3]/text()')
? ? ? ?gearbox = gearbox[0].strip() if gearbox else '-'
? ? ? ?# 排放標(biāo)準(zhǔn)
? ? ? ?emission_standards = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[4]/text()')
? ? ? ?emission_standards = emission_standards[0].strip() if emission_standards else '-'
? ? ? ?# 排量
? ? ? ?displacement = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[5]/text()')
? ? ? ?displacement = displacement[0].strip() if displacement else '-'
? ? ? ?# 發(fā)布時(shí)間
? ? ? ?release_time = result.xpath('//*[@id="nAV1"]/div[1]/ul[1]/li[6]/text()')
? ? ? ?release_time = release_time[0].strip() if release_time else '-'
? ? ? ?# 年檢到期
? ? ? ?annual_inspection_expires = result.xpath('//*[@id="nAV1"]/div[1]/ul[2]/li[1]/text()')
? ? ? ?annual_inspection_expires = annual_inspection_expires[0].strip() if annual_inspection_expires else '-'
? ? ? ?# 保險(xiǎn)到期
? ? ? ?insurance_expires = result.xpath('//*[@id="nAV1"]/div[1]/ul[2]/li[2]/text()')
? ? ? ?insurance_expires = insurance_expires[0].strip() if insurance_expires else '-'
? ? ? ?# 質(zhì)保到期
? ? ? ?warranty_expires = result.xpath('//*[@id="nAV1"]/div[1]/ul[2]/li[3]/text()')
? ? ? ?warranty_expires = warranty_expires[0].strip() if warranty_expires else '-'
? ? ? ?# 過戶次數(shù)
? ? ? ?number_of_transfers = result.xpath('//*[@id="nAV1"]/div[1]/ul[2]/li[5]/text()')
? ? ? ?number_of_transfers = number_of_transfers[0].strip() if number_of_transfers else '-'
? ? ? ?# 所在地
? ? ? ?location = result.xpath('//*[@id="nAV1"]/div[1]/ul[2]/li[6]/text()')
? ? ? ?location = location[0].strip() if location else '-'
? ? ? ?# 發(fā)動(dòng)機(jī)
? ? ? ?engine = result.xpath('//*[@id="nAV1"]/div[1]/ul[3]/li[1]/text()')
? ? ? ?engine = engine[0].strip() if engine else '-'
? ? ? ?# 車輛級(jí)別
? ? ? ?vehicle = result.xpath('//*[@id="nAV1"]/div[1]/ul[3]/li[2]/text()')
? ? ? ?vehicle = vehicle[0].strip() if vehicle else '-'
? ? ? ?# 車身顏色
? ? ? ?car_color = result.xpath('//*[@id="nAV1"]/div[1]/ul[3]/li[3]/text()')
? ? ? ?car_color = car_color[0].strip() if car_color else '-'
? ? ? ?# 燃油標(biāo)號(hào)
? ? ? ?fuel_label = result.xpath('//*[@id="nAV1"]/div[1]/ul[3]/li[4]/text()')
? ? ? ?fuel_label = fuel_label[0].strip() if fuel_label else '-'
? ? ? ?# 驅(qū)動(dòng)方式
? ? ? ?drive_mode = result.xpath('//*[@id="nAV1"]/div[1]/ul[3]/li[5]/text()')
? ? ? ?drive_mode = drive_mode[0].strip() if drive_mode else '-'
? ? ? ?data = [[title, play_time, display_mileage, gearbox, emission_standards, displacement, release_time, annual_inspection_expires,
? ? ? ? ? ? ? ? insurance_expires, warranty_expires, number_of_transfers, location, engine, vehicle, car_color, fuel_label, drive_mode, _url]]
? ? ? ?print(data)
? ? ? ?self._save_csv(data=data)
資源下載
https://download.csdn.net/download/qq_38154948/85358088
本文僅供學(xué)習(xí)交流使用,如侵立刪!