獲得京東商品信息并清洗為excel表格
# 在京東進(jìn)行網(wǎng)頁(yè)搜索 進(jìn)行url分析 發(fā)現(xiàn)url中page={}與頁(yè)數(shù)之間的關(guān)系為2i+1
通過(guò)元素檢查發(fā)現(xiàn) 商品的信息都儲(chǔ)存在xpath路徑//*[@id="J_goodsList"]/ul中?

# 使用的庫(kù)
from pyquery import PyQuery
import requests
import time
import xlwt
from urllib.parse import quote

# 抓取單個(gè)頁(yè)面的數(shù)據(jù)? ?請(qǐng)求標(biāo)頭詳見(jiàn)瀏覽器元素檢查
def craw_one_page(url):
? ?try:
? ? ? ?cookie = quote('?')?
? ? ? ?headers = {
? ? ? ? ? ?'authority': 'search.jd.com',
? ? ? ? ? ?'accept': '',
? ? ? ? ? ?'accept-language': '',
? ? ? ? ? ?'cookie': cookie,
? ? ? ? ? ?'referer': 'https://www.jd.com/',
? ? ? ? ? ?'user-agent': ''
? ? ? ?}
? ? ? ?response = requests.get(url=url, headers=headers)
? ? ? ?if response.status_code == 200:
? ? ? ? ? ?response_content = response.content ?# 獲取二進(jìn)制數(shù)據(jù)
? ? ? ? ? ?response_content_doc = str(response_content, 'utf-8')
? ? ? ? ? ?return response_content_doc
? ? ? ?return None
? ?except Exception:
? ? ? ?return None

#? 解析單個(gè)頁(yè)面的數(shù)據(jù)???class屬性 空格可以用.定位
def analysis_one_page(html):
? ?doc = PyQuery(html)
? ?ul = doc('.gl-warp.clearfix')
? ?li_list = ul('.gl-item')
? ?for li in li_list.items():??
? ? ? ?product = li('div > div.p-name.p-name-type-2 > a > em')[0].text? ?
? ? ? ?if product is None:?
? ? ? ? ? ?product = li(' div > div.p-name.p-name-type-2 > a').attr('title')
? ? ? ?price = li('div > div.p-price > strong > i').text()
? ? ? ?sale = li('div > div.p-shop > span > a').text()
? ? ? ?yield {
? ? ? ? ? ?'商品': product,
? ? ? ? ? ?'價(jià)格': price,
? ? ? ? ? ?'賣家': sale
? ? ? ?}

# 運(yùn)行函數(shù) 進(jìn)行數(shù)據(jù)處理
if __name__ == '__main__':
? ?urls = ['https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&wq=%E6%89%8B%E6%9C%BA&pvid=084ce205e8df47f48433198db7d00f35&page={}&s=56&click=0'.format(str(i)) for i in range(1, 13, 2)]
? ?header = ['排名', '產(chǎn)品', '價(jià)格', '賣家'] ? # 定義xls的頭
? ?book = xlwt.Workbook(encoding='utf-8')
? ?# 創(chuàng)建sheet
? ?sheet_all = book.add_sheet('所有手機(jī)排名')
? ?sheet_huawei = book.add_sheet('華為')
? ?sheet_apple = book.add_sheet('蘋(píng)果')
? ?sheet_xiaomi = book.add_sheet('小米')
? ?sheet_samsung = book.add_sheet('三星')
? ?sheet_oppo = book.add_sheet('oppo')
? ?for n in range(len(header)): ?# 為每個(gè)sheet添加標(biāo)頭
? ? ? ?sheet_all.write(0, n, header[n])
? ? ? ?sheet_apple.write(0, n, header[n])
? ? ? ?sheet_huawei.write(0, n, header[n])
? ? ? ?sheet_xiaomi.write(0, n, header[n])
? ? ? ?sheet_samsung.write(0, n, header[n])
? ? ? ?sheet_oppo.write(0, n, header[n])
? ?i = 1
? ?i_apple = 1
? ?i_huawei = 1
? ?i_xiaomi = 1
? ?i_samsung = 1
? ?i_oppo = 1
? ?for url in urls:
? ? ? ?mobile_infos = analysis_one_page(craw_one_page(url))
? ? ? ?for mobile_info in mobile_infos: ? # 使可以打印每一條信息
? ? ? ? ? ?print(mobile_info)
? ? ? ? ? ?sheet_all.write(i, 0, str(i))
? ? ? ? ? ?sheet_all.write(i, 1, mobile_info['商品'])
? ? ? ? ? ?sheet_all.write(i, 2, mobile_info['價(jià)格'])
? ? ? ? ? ?sheet_all.write(i, 3, mobile_info['賣家'])
? ? ? ? ? ?i += 1
? ? ? ? ? ?if mobile_info['商品'].lower().find('Apple') != -1:
? ? ? ? ? ? ? ?sheet_apple.write(i_apple, 0, str(i_apple))
? ? ? ? ? ? ? ?sheet_apple.write(i_apple, 1, mobile_info['商品'])
? ? ? ? ? ? ? ?sheet_apple.write(i_apple, 2, mobile_info['價(jià)格'])
? ? ? ? ? ? ? ?sheet_apple.write(i_apple, 3, mobile_info['賣家'])
? ? ? ? ? ? ? ?i_apple += 1
? ? ? ? ? ?if mobile_info['商品'].lower().find('華為') != -1:
? ? ? ? ? ? ? ?sheet_huawei.write(i_huawei, 0, str(i_huawei))
? ? ? ? ? ? ? ?sheet_huawei.write(i_huawei, 1, mobile_info['商品'])
? ? ? ? ? ? ? ?sheet_huawei.write(i_huawei, 2, mobile_info['價(jià)格'])
? ? ? ? ? ? ? ?sheet_huawei.write(i_huawei, 3, mobile_info['賣家'])
? ? ? ? ? ? ? ?i_huawei += 1
? ? ? ? ? ?if mobile_info['商品'].lower().find('小米') != -1:
? ? ? ? ? ? ? ?sheet_xiaomi.write(i_xiaomi, 0, str(i_xiaomi))
? ? ? ? ? ? ? ?sheet_xiaomi.write(i_xiaomi, 1, mobile_info['商品'])
? ? ? ? ? ? ? ?sheet_xiaomi.write(i_xiaomi, 2, mobile_info['價(jià)格'])
? ? ? ? ? ? ? ?sheet_xiaomi.write(i_xiaomi, 3, mobile_info['賣家'])
? ? ? ? ? ? ? ?i_xiaomi += 1
? ? ? ? ? ?if mobile_info['商品'].lower().find('三星') != -1:
? ? ? ? ? ? ? ?sheet_samsung.write(i_samsung, 0, str(i_samsung))
? ? ? ? ? ? ? ?sheet_samsung.write(i_samsung, 1, mobile_info['商品'])
? ? ? ? ? ? ? ?sheet_samsung.write(i_samsung, 2, mobile_info['價(jià)格'])
? ? ? ? ? ? ? ?sheet_samsung.write(i_samsung, 3, mobile_info['賣家'])
? ? ? ? ? ? ? ?i_samsung += 1
? ? ? ? ? ?if mobile_info['商品'].lower().find('OPPO') != -1:
? ? ? ? ? ? ? ?sheet_oppo.write(i_oppo, 0, str(i_oppo))
? ? ? ? ? ? ? ?sheet_oppo.write(i_oppo, 1, mobile_info['商品'])
? ? ? ? ? ? ? ?sheet_oppo.write(i_oppo, 2, mobile_info['價(jià)格'])
? ? ? ? ? ? ? ?sheet_oppo.write(i_oppo, 3, mobile_info['賣家'])
? ? ? ? ? ? ? ?i_oppo += 1
? ? ? ? ? ?time.sleep(0.3)
? ?book.save('mobile_phone_2.xls')

# 私貨 歡迎關(guān)注天選國(guó)V 雫るる_Offical! 謝謝了喵!??!

