基于python的外賣數(shù)據(jù)分析-計(jì)算機(jī)畢業(yè)設(shè)計(jì)源碼+LW文檔
一、 選題的背景與意義
(一)課題研究來源
拙筆所值新世紀(jì)第二個(gè)十年的尾聲,距離上世紀(jì)九十年代以TCP/IP協(xié)議的數(shù)據(jù)傳輸過程為基礎(chǔ)的互聯(lián)網(wǎng)信息技術(shù)的崛起的時(shí)間點(diǎn)己經(jīng)經(jīng)過了三十年的時(shí)間,距離上世紀(jì)六十年代互聯(lián)技術(shù)問世的時(shí)間點(diǎn)己經(jīng)有六十年。時(shí)至今日,隨著移動(dòng)終端(如手機(jī)、平板電腦等便攜式微型數(shù)據(jù)處理計(jì)算機(jī))技術(shù)的成熟以及其以日漸平民化的價(jià)格、趨同的處理速度、優(yōu)秀的功能集成度等優(yōu)勢(shì)逐漸代替pc端的硬件產(chǎn)業(yè)革命,互聯(lián)網(wǎng)技術(shù)可以說在新世紀(jì)第二個(gè)十年達(dá)到了前所未有的普及廣度。這種普及廣度無涉于用戶的性別、年齡、職業(yè)、國(guó)別等非功能性因素,甚至在聽覺或視覺功能上有一定缺陷的病患者也幾乎全部加入至互聯(lián)網(wǎng)用戶的大軍之中。據(jù)2018年12月1日調(diào)查顯示,我國(guó)己有至少8.02億網(wǎng)民,互聯(lián)網(wǎng)普及率為57.7%,其普及程度可見一般。同時(shí),互聯(lián)網(wǎng)技術(shù)對(duì)人類社會(huì)的滲透深度也同等強(qiáng)大。借力于物聯(lián)網(wǎng)工程的基礎(chǔ)設(shè)施建設(shè)、高集成化的智能電子芯片以及云計(jì)算技術(shù)的成熟,人類社會(huì)的具體目的性行為幾乎無法遠(yuǎn)離互聯(lián)網(wǎng)技術(shù)。如定位導(dǎo)航系統(tǒng)之于出行;電子商務(wù)平臺(tái)之于購物;社交軟件之于溝通,其憑借強(qiáng)大的功能與傳播力使得人類社會(huì)對(duì)其依賴度越來越高,甚至可以說是不可或缺的程度。
(二)課題研究的目的
隨著信息時(shí)代的發(fā)展和編程技術(shù)的普及,搜索引擎成為了使用互聯(lián)網(wǎng)的常用工具。搜索引擎大多使用爬蟲技術(shù)作為核心模塊,通過關(guān)鍵詞返回用戶查詢的結(jié)果。但是網(wǎng)絡(luò)信息呈現(xiàn)爆炸式的增長(zhǎng),使得信息的查找和定位也變得困難。為解決上述困境,研究借助Python語言。它是為了編寫自動(dòng)化腳本(shell)而設(shè)計(jì)的膠水語言,是面向?qū)ο蟮膭?dòng)態(tài)類型語言。Python語言經(jīng)過不斷地改進(jìn)及增加新功能,慢慢地被很多獨(dú)立的、復(fù)雜的軟件系統(tǒng)用于開發(fā)。Python作為一門程序設(shè)計(jì)語言被越來越多的人所喜愛。
(三)課題研究的意義
本論文實(shí)現(xiàn)的基本方式為:以開源的Python語言系統(tǒng)為基礎(chǔ)利用,同時(shí)借鑒、粘連其他編程語言的抽象構(gòu)建方式,從而構(gòu)建一個(gè)實(shí)現(xiàn)能力強(qiáng)大的Web crawler系統(tǒng)程序,同時(shí)保障其具有較強(qiáng)的拓展性。
本次課題所構(gòu)建Web crawler系統(tǒng)程序所針對(duì)、解決的現(xiàn)實(shí)問題不僅僅局限于本次課題的問題領(lǐng)域,也就是說,本次課題所構(gòu)建Web crawler系統(tǒng)程序可以嫁接于其他種類的網(wǎng)站信息提取捕獲類系統(tǒng),進(jìn)而實(shí)現(xiàn)多種多樣的抓取功能,也會(huì)在一定程度上對(duì)網(wǎng)絡(luò)用戶自身利用或者今后的語言編程開發(fā)人員的開發(fā)、研究提供具有一定程度利用價(jià)值的素材。
(四)研究現(xiàn)狀
(1)互聯(lián)網(wǎng)技術(shù)的普及
時(shí)至今日,隨著移動(dòng)終端(如手機(jī)、平板電腦等便攜式微型數(shù)據(jù)處理計(jì)算機(jī))技術(shù)的成熟以及其以日漸平民化的價(jià)格、趨同的處理速度、優(yōu)秀的功能集成度等優(yōu)勢(shì)逐漸代替pc端的硬件產(chǎn)業(yè)革命,互聯(lián)網(wǎng)技術(shù)可以說在新世紀(jì)第二個(gè)十年達(dá)到了前所未有的普及廣度。這種普及廣度無涉于用戶的性別、年齡、職業(yè)、國(guó)別等非功能性因素,甚至在聽覺或視覺功能上有一定缺陷的病患者也幾乎全部加入至互聯(lián)網(wǎng)用戶的大軍之中。據(jù)2018年12月1日調(diào)查顯示,我國(guó)己有至少8.02億網(wǎng)民,互聯(lián)網(wǎng)普及率為57.7%,其普及程度可見一般。同時(shí),互聯(lián)網(wǎng)技術(shù)對(duì)人類社會(huì)的滲透深度也同等強(qiáng)大。借力于物聯(lián)網(wǎng)工程的基礎(chǔ)設(shè)施建設(shè)、高集成化的智能電子芯片以及云計(jì)算技術(shù)的成熟,人類社會(huì)的具體目的性行為幾乎無法遠(yuǎn)離互聯(lián)網(wǎng)技術(shù)。如定位導(dǎo)航系統(tǒng)之于出行;電子商務(wù)平臺(tái)之于購物;社交軟件之于溝通,其憑借強(qiáng)大的功能與傳播力使得人類社會(huì)對(duì)其依賴度越來越高,甚至可以說是不可或缺的程度。
(2)傳統(tǒng)信息渠道的“萎靡”
相較于互聯(lián)網(wǎng)技術(shù)的方興未艾,傳統(tǒng)信息獲取渠道早已呈現(xiàn)出天壤之別的劣勢(shì),并且其穩(wěn)定受眾的數(shù)量仍在持續(xù)走低。據(jù)世界報(bào)業(yè)協(xié)會(huì)2018年趨勢(shì)報(bào)告中指出,在過去的五年中,全球報(bào)紙總發(fā)行量每年平均減少900萬份,以平均降幅為2%的速度逐年下降;同時(shí),諸多國(guó)際知名雜志的運(yùn)營(yíng)商因長(zhǎng)年被互聯(lián)網(wǎng)擠壓市場(chǎng)占有率而宣布破產(chǎn)(如美國(guó)的“閣樓")。尤其對(duì)于年齡在18-45歲之間的年輕受眾群體而言,幾乎已經(jīng)不再選擇報(bào)紙、雜志、廣播等傳統(tǒng)信息渠道獲取信息來指導(dǎo)日常生活,他們無時(shí)無刻不生活在網(wǎng)絡(luò)之中。
二、 課題研究?jī)?nèi)容及創(chuàng)新
首先,若要實(shí)現(xiàn)本課題所指向的系統(tǒng)結(jié)構(gòu)并達(dá)到預(yù)期效果,認(rèn)知、熟悉乃至.于在某一方面精通Python語言體系是非常必要的。同時(shí),就開源庫來講,本課題將高頻的利用SCRAPY結(jié)構(gòu)作為本課題系統(tǒng)結(jié)構(gòu)的框架。
本次課題的實(shí)現(xiàn)是研究者本身親力親為的構(gòu)建、編寫Web crawler原始構(gòu)成框架,這個(gè)過程中將有助于前沿網(wǎng)絡(luò)程序編寫能力的提高,并且將自身對(duì)網(wǎng)絡(luò)技術(shù)與目的搭載實(shí)現(xiàn)方式進(jìn)行全面、系統(tǒng)的升級(jí)。其次,本次課題所構(gòu)建Webcrawler系統(tǒng)程序所針對(duì)、解決的現(xiàn)實(shí)問題不僅僅局限于本次課題的問題領(lǐng)域,也就是說,本次課題所構(gòu)建Webcrawler系統(tǒng)程序可以嫁接于其他種類的網(wǎng)站信息提取捕獲類系統(tǒng),進(jìn)而實(shí)現(xiàn)多種多樣的抓取功能,也會(huì)在一定程度上對(duì)網(wǎng)絡(luò)用戶自身利用或者今后的語言編程開發(fā)人員的開發(fā)、研究提供具有一定程度利用價(jià)值的素材。
數(shù)據(jù)收集
收集外賣平臺(tái)的訂單數(shù)據(jù),包括訂單編號(hào)、下單時(shí)間、商家名稱、商品名稱、商品數(shù)量、商品單價(jià)、收貨地址、支付方式、訂單狀態(tài)等信息。
數(shù)據(jù)清洗
對(duì)收集到的數(shù)據(jù)進(jìn)行清洗,包括去重、缺失值處理、異常值處理等,保證數(shù)據(jù)的準(zhǔn)確性和完整性。
數(shù)據(jù)探索
通過可視化工具對(duì)數(shù)據(jù)進(jìn)行探索,包括訂單量、銷售額、商品銷量、商家評(píng)分等指標(biāo)的分析,找出數(shù)據(jù)中的規(guī)律和問題。
數(shù)據(jù)建模
利用機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行建模,預(yù)測(cè)銷售額、商品銷量、商家評(píng)分等指標(biāo),并優(yōu)化外賣平臺(tái)的運(yùn)營(yíng)策略。
? ?和客戶主要溝通內(nèi)容:爬取網(wǎng)站不限定。
?
數(shù)據(jù)展示
將分析結(jié)果以可視化的形式展示出來,包括折線圖、柱狀圖、餅狀圖等,使得數(shù)據(jù)結(jié)果更加直觀和易于理解。
總結(jié)
通過外賣數(shù)據(jù)分析,可以幫助外賣平臺(tái)了解用戶需求,優(yōu)化運(yùn)營(yíng)策略,提高用戶體驗(yàn)和
平臺(tái)收益。
三、 課題的研究方法:
(1)文獻(xiàn)研究法
在正式開始撰寫論文之前搜集整理大量文獻(xiàn)資料,包括各類學(xué)術(shù)著作、期刊論文和相關(guān)媒體報(bào)道,在全面了解前人研究成果的基礎(chǔ)上確定研究課題,理清研究思路。
本論文實(shí)現(xiàn)的基本方法為:以開源的Python語言系統(tǒng)為基礎(chǔ)利用,同時(shí)借鑒、粘連其他編程語言的抽象構(gòu)建方式,從而構(gòu)建一個(gè)實(shí)現(xiàn)能力強(qiáng)大的Web crawler系統(tǒng)程序,同時(shí)保障其具有較強(qiáng)的拓展性。
四、 研究計(jì)劃及預(yù)期成果:
第一階段:2023.xx——2023.xx 閱讀相關(guān)的文獻(xiàn),制定論文的研究計(jì)劃和方案,收集資料;
第二階段:2023.xx——2023.xx 擬定開題報(bào)告,構(gòu)思論文框架,提交指導(dǎo)老師審批;
第三階段:2023.xx——2023.xx 起草論文初稿,潤(rùn)色修改,提交指導(dǎo)老師初審;
第四階段:2023.xx——2023.xx 根據(jù)指導(dǎo)老師意見,修改初稿;
第五階段:2023.xx——2023.xx 基本定稿,編寫論文答辯提綱;
第六階段:2023.xx? 以最佳狀態(tài)參加答辯,完成答辯。
五、 參考文獻(xiàn):
[1]曹忠,趙文靜、一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),
2008(35):2082-2083.
[2]胡峴.基于Unity桌面環(huán)境的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D]國(guó)防科技大學(xué),
2013:167-1 69.
[3]徐曉琳.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J].數(shù)字化用
戶,2013(23):4-4.
[4]呂俊宏,周江峰.深入解析Cookie技術(shù)[J]數(shù)字通信世界,2015(6):332-333.
[5]王鳳紅、簡(jiǎn)單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析[J].中國(guó)現(xiàn)代教育裝備,
2008(4):76-78.
[6]Menell PS.Google,PageRank,and Symbiotic Technological Change[J]UC
Berkeley Public Law Research Paper,2012:19-20.
[7]Rogers I.The Google Pagerank algorithm and how it works[J]2012:2-3.
[8]陳麗.Google搜索引擎架構(gòu)研究[J]中國(guó)科技縱橫,2013(2):56-56.
[9]許劍穎.搜索引擎發(fā)展趨勢(shì)研究[J].現(xiàn)代情報(bào),2011(1):51-55.
[10]何震葦,鄒若晨鐘偉彬,鐘偉彬[J].中國(guó)經(jīng)濟(jì)和信息化,2004(24):49-50.


