基于Python的招聘網(wǎng)站信息爬取-計算機(jī)畢業(yè)設(shè)計源碼+LW文檔
選題背景
隨著社會經(jīng)濟(jì)的快速發(fā)展,人們的生活水平得到了顯著提高,但隨之而來的社會問題也越來越多。其中最為顯著的就是就業(yè)問題。為此,招聘信息的展示也變得越來越為重要。人們獲取信息的最重要來源也由報紙、電視轉(zhuǎn)變?yōu)榱嘶ヂ?lián)網(wǎng)?;ヂ?lián)網(wǎng)的廣泛應(yīng)用使網(wǎng)絡(luò)的數(shù)據(jù)量呈指數(shù)增長,讓人們得到了更新、更完整的海量信息的同時,也使得人們在提取自己最想要的信息,過濾掉對自己無用的信息時變得不那么容易,對于應(yīng)聘者也是如此。由于招聘網(wǎng)站的日益流行,也使得應(yīng)聘網(wǎng)站成為了應(yīng)聘者找工作的主要平臺。在面對著大量的招聘信息時,就業(yè)者不能一目了然的獲取自己想要的招聘信息,因此我們需要對海量的招聘數(shù)據(jù)進(jìn)行處理,做出一種招聘信息的分析系統(tǒng)。招聘網(wǎng)站能使招聘者隨時隨地了解到招聘信息,同時提高企業(yè)招聘的速度。但是面對著大量的招聘信息,應(yīng)聘者難以在很快的時間內(nèi)找到適合自己的崗位,做出適合自己選擇,也不能根據(jù)這些信息直觀的看到應(yīng)聘者比較關(guān)心的薪資狀況分布,企業(yè)的主要招聘城市,公司福利和所要求的學(xué)歷與經(jīng)驗等方面。因此,當(dāng)下需要一個能夠把招聘信息整合到一起并將信息可視化顯示的系統(tǒng),這樣用戶就可以通過該平臺來進(jìn)行查看招聘信息的薪資分布,企業(yè)福利,所在城市等,從而使求職者可以更快找到心儀的工作。
研究現(xiàn)狀
國內(nèi)研究現(xiàn)狀:
近幾年,隨著國內(nèi)信息技術(shù)的飛速發(fā)展,我國網(wǎng)絡(luò)招聘產(chǎn)業(yè)也發(fā)生了天翻覆地的變化,涌現(xiàn)出了大量的線上招聘網(wǎng)站,同時線上招聘的市場規(guī)模也在不斷地擴(kuò)大。根據(jù)數(shù)據(jù)分析統(tǒng)計,2017-2018年,中國的網(wǎng)絡(luò)招聘市場規(guī)模各季度同比增速都保持在20%以上,到2019年網(wǎng)絡(luò)招聘市場的用戶數(shù)量已經(jīng)超過了2億,在第一季度它的市場規(guī)模就超過了25億元。并且隨著數(shù)據(jù)科學(xué)的興起,數(shù)據(jù)挖掘和分析逐漸成為熱門研究領(lǐng)域,關(guān)于網(wǎng)絡(luò)招聘文本信息中蘊(yùn)藏的價值開始顯現(xiàn),許多研究者開始對這一領(lǐng)域進(jìn)行探索研究,提出以就業(yè)指導(dǎo)中心網(wǎng)站數(shù)據(jù)為基礎(chǔ),從招聘信息中獲取各個學(xué)科建設(shè)和發(fā)展的建議,提高企業(yè)在進(jìn)行校園招聘時的精準(zhǔn)度,同時也能提高應(yīng)屆生的就業(yè)率,實現(xiàn)學(xué)校、企業(yè)和學(xué)生三方的共贏。[1]?
國外研究現(xiàn)狀:
目前,在美國等一些國家,通過網(wǎng)絡(luò)進(jìn)行招聘求職的形式深入人心[2],已經(jīng)成為廣大畢業(yè)生和社會人員進(jìn)行求職就業(yè)的主要方式。而著名的跨國科技公司微軟更是信息化管理的領(lǐng)航者,他們在進(jìn)行網(wǎng)絡(luò)招聘時,不僅對外發(fā)布招聘信息,同時也針對自己公司內(nèi)部的員工。當(dāng)有職位的招聘需求時,微軟公司將統(tǒng)一發(fā)布在網(wǎng)上,不管是微軟公司內(nèi)部的員工還是外部人員都可以進(jìn)行職位的申請,并且還支持內(nèi)部員工跨國的職位申請。對于國內(nèi)的網(wǎng)絡(luò)招聘來說,主要是集中在一些發(fā)展比較好的一、二線城市,還有一部分地區(qū)網(wǎng)絡(luò)求職的比例相對較低。
國內(nèi)外招聘網(wǎng)站的不足之處在于此類招聘網(wǎng)站的崗位信息并不全面,很多實用崗位并未爬取到,而且也存在展示的崗位是虛假崗位的問題。
選題意義
對于即將畢業(yè)找工作的應(yīng)屆生和社會擇業(yè)人員來說,上網(wǎng)快速找到合適的工作,無疑是急需的。招聘網(wǎng)站數(shù)據(jù)可視化項目從繁雜的招聘信息中提取出潛在的、有價值的數(shù)據(jù),并以圖形的形式進(jìn)行直觀化展示,將用戶從一堆雜亂無章的數(shù)據(jù)里面解放出來[3]。通過該系統(tǒng)用戶能夠更加高效的理解和分析招聘數(shù)據(jù)信息,快速獲取自身所需要的信息使得招聘信息能夠更加明確、有效地進(jìn)行傳遞。有利于用戶明確學(xué)習(xí)方向,以及所需要掌握的工作技能和知識。
二、設(shè)計的基本思路、主要內(nèi)容及其主要的研究方法等
1.基本思路
(1)根據(jù)所選題目涉及的內(nèi)容,查閱相關(guān)技術(shù)資料及文獻(xiàn),對“招聘網(wǎng)站信息爬取和數(shù)據(jù)分析”相關(guān)流程進(jìn)行理解分析,明確該項目應(yīng)具有的特色和功能情況,以及按照實際情況進(jìn)行更多形式的探索與研究。
(2)確定要爬取的招聘網(wǎng)站,以找出合適的數(shù)據(jù)。
(3)確定整體框架的技術(shù)選取。
(4)使用Request爬蟲技術(shù)爬取數(shù)據(jù),并將爬取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗及數(shù)據(jù)分析。
(5)連接數(shù)據(jù)庫,將處理后的數(shù)據(jù)存入數(shù)據(jù)庫。
(6)編寫web網(wǎng)站的前端頁面。
(7)使用Flask框架將數(shù)據(jù)返回給前端,并用ECharts對數(shù)據(jù)進(jìn)行可視化展示。
(8)增加主頁推薦功能。
(8)進(jìn)行前后端調(diào)試,保證整個數(shù)據(jù)之間的正常展示與交互。
(9)對設(shè)計作品進(jìn)行測試并不斷完善,并最終完成具有良好的信息展示效果的設(shè)計作品。
(10)不斷完善設(shè)計報告初稿,形成終稿畢業(yè)設(shè)計報告,完成畢業(yè)答辯。
2.主要內(nèi)容
本招聘網(wǎng)站的爬蟲及可視化系統(tǒng)使用的是Python語言編寫,采用基于Flask的輕量級Web應(yīng)用框架,招聘信息的存儲數(shù)據(jù)庫采用MySQL設(shè)計,使用ECharts進(jìn)行招聘信息的數(shù)據(jù)可視化顯示。
中心思想:
首先使用Request爬取網(wǎng)頁數(shù)據(jù),分析網(wǎng)頁,將內(nèi)容進(jìn)行解析后將招聘信息寫入數(shù)據(jù)庫,連接數(shù)據(jù)庫,將信息查詢后讀取并寫入字典,使用ECharts框架,將數(shù)據(jù)傳輸?shù)角岸司W(wǎng)頁,以餅狀圖,柱狀圖,折線圖等形式展示,讓用戶直觀的看到招聘信息的地域,薪資,待遇等分布,直觀的展示和獲取到最關(guān)心的招聘信息。
功能概述:
爬取的所有的崗位招聘數(shù)據(jù),可以通過學(xué)歷和職位來選擇查看滿足條件的招聘信息,可以選擇學(xué)歷要求、輸入職位來搜索更加精準(zhǔn)的職位。
可視化:
(1)薪資情況:通過選擇學(xué)歷來查看各種崗位對于不同學(xué)歷的薪資可視化情況,以柱狀圖、餅圖的形式來展示各種職位的薪資分布、所占比例,提供給用戶在找工作是作為參考。
(2)企業(yè)情況:通過選擇職位可以來查看這個職位的主要招聘城市,還可以大概查看一下這個職位的公司規(guī)模情況,以及每個職位在各個主要城市所占的比例餅圖。
(3)福利情況:通過數(shù)據(jù)可視化速覽公司福利,基于詞云進(jìn)行構(gòu)造,可以清晰看出所有公司最核心的福利待遇。
(4)學(xué)歷情況:可以查看各個職位對學(xué)歷以及工作經(jīng)驗的要求,以條形圖、矩形樹的形式進(jìn)行可視化展示。
3.主要研究方法
本課題涉及到研究方法有文獻(xiàn)研究法和功能分析法。
(1)文獻(xiàn)研究法。
通過對不同python相關(guān)文獻(xiàn)進(jìn)行閱讀研究,總結(jié)要點,從而全面地、正確地了解掌握招聘網(wǎng)站分析的方法。
(2)功能分析法。
? ? 通過功能分析法分析招聘網(wǎng)站的現(xiàn)象,總結(jié)出需要改進(jìn)的地方。
三、計劃進(jìn)度安排:
1.完成開題報告及開題答辯:2022年12月30日前。
2.完成畢業(yè)設(shè)計、撰寫畢業(yè)設(shè)計報告初稿:2022年12月至2023年3月。
3.指導(dǎo)教師中期檢查:2023年3月,具體時間以學(xué)校安排為準(zhǔn)。
4.根據(jù)中期檢查意見繼續(xù)完善畢業(yè)設(shè)計、畢業(yè)設(shè)計報告:2023年3月至2023年4月。
5.畢業(yè)設(shè)計報告查重:2023年4月,具體時間以學(xué)校安排為準(zhǔn)。
6.答辯及成績返回:2023年5月30日前。
四、主要參考文獻(xiàn)
[1] 肖云鵬,戴天驥,吳欣虹等.以招聘就業(yè)大數(shù)據(jù)為基礎(chǔ)反饋教學(xué)的“校企學(xué)”服務(wù)模式思考[J].當(dāng)代教育實踐與教學(xué)研究,2018(05):41+164.
[2] 葉惠仙,游金水。 Python語言在大數(shù)據(jù)處理中的應(yīng)用[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021,(05):51-54.
[3] 陳為,沈澤潛,陶煜波 《數(shù)據(jù)可視化》 電子工業(yè)出版社 2013
[4] 陳慧,郝錦亨,袁志濤,羅佳偉,陳胤熹,鄭少鵬,黎佩瑜,呂詠鍶,梁世濠,賴林浩,曹詩林。 利用python/RGB色彩數(shù)據(jù)分析平臺快速測定還原糖濃度[J]. 現(xiàn)代食品科技,:1-6.
[5] 范潔。 基于Python的網(wǎng)絡(luò)流量特征統(tǒng)計分析與可視化[J]. 信息技術(shù)與信息化,2021,(04):49-51.
[6] 闕金煌。 基于Anaconda環(huán)境下的Python數(shù)據(jù)分析及可視化[J]. 信息技術(shù)與信息化,2021,(04):215-218.
[7] 黃巖。 基于Python的計算機(jī)軟件應(yīng)用技術(shù)探究[J]. 電腦編程技巧與維護(hù),2021,(04):37-39.
[8] 何一林,趙高錦,路志利,董晟,王金國。 Python技術(shù)預(yù)制T梁混凝土表面氣泡快速圖像檢測[J]. 云南水力發(fā)電,2021,37(04):12-14.
[9] 黨康寧,蘇晨輝,肖瑜,張靜宜。 基于ABAQUS-Python無限元的動力人工邊界研究[J]. 廣東水利水電,2021,(04):6-10.
[10] 梁偉,賈名先,苑寧萍。 基于Python的大數(shù)據(jù)技術(shù)對線上教學(xué)情況分析與研究[J]. 電腦知識與技術(shù),2021,17(11):111-112.
[11] 高鍵,季禹伶。 基于Python的數(shù)據(jù)挖掘技術(shù)在創(chuàng)業(yè)擔(dān)保貸款中的應(yīng)用[J]. 電子制作,2021,(08):51-53.
[12] 毛遂,毛紅霞。 基于51job網(wǎng)站招聘信息的爬取與分析--以Python技術(shù)崗位為例[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021,(04):47-49.
[13] 彭敦誠.基于Python機(jī)器學(xué)習(xí)的大氣環(huán)境下材料失效數(shù)據(jù)分析[D].機(jī)械科學(xué)研究總院,2021.
[14] 楊軍,張岳,劉燕峰。 基于Python語言的數(shù)據(jù)挖掘課程的建設(shè)與研究[J]. 科技風(fēng),2021,(14):80-82.
[15] 關(guān)陽.基于python數(shù)據(jù)可視化的桂林旅游形象感知中外差異分析[D].廣西大學(xué),2020.
[16] 房瑾堂.基于網(wǎng)絡(luò)爬蟲的在線教育平臺設(shè)計與實現(xiàn)[D].北京交通大學(xué),2017.



