【計(jì)算機(jī)開題報(bào)告】基于協(xié)同過濾算法的圖書館書籍推薦系統(tǒng)大數(shù)據(jù)開題報(bào)告
注:每個(gè)學(xué)校模板不一樣,僅供參考,需要私定聯(lián)系Up主
一、選題的目的、意義、研究現(xiàn)狀,本選題研究的基本內(nèi)容、擬解決的主要問題
(一)目的、意義
隨著新興媒體的快速更新與盛行,公共圖書館的規(guī)模和現(xiàn)代化硬件設(shè)施不斷得到優(yōu)化和增加,圖書館的紙質(zhì)圖書質(zhì)量和數(shù)量也呈直線上升的趨勢(shì)。廣大市民要想在海量的館藏中尋找適合自己的圖書十分困難,有些年長者更是對(duì)紛繁冗雜的圖書無從下手。此外,傳統(tǒng)的檢索方式已經(jīng)不能滿足讀者的閱讀服務(wù)需求,他們?cè)絹碓叫枰鄻踊?、個(gè)性化的檢索方式。
為了出版社和圖書館可以更容易的把握讀者的個(gè)人喜好,同時(shí)也使讀者能夠及時(shí)獲得自己所需要的相關(guān)書籍,而不是耗時(shí)耗力地自行查找,圖書館需要采取多種方式收集和分析讀者的閱讀信息,準(zhǔn)確分析讀者需求,創(chuàng)新閱讀模式,為讀者提供精準(zhǔn)和個(gè)性化的書籍推薦服務(wù),提升讀者的閱讀體驗(yàn)。當(dāng)前,加強(qiáng)書籍推薦系統(tǒng)功能和提升讀者滿意度已成為公共圖書館的工作目標(biāo)之一。
(二)研究現(xiàn)狀
隨著國際互聯(lián)網(wǎng)的進(jìn)一步發(fā)展,云計(jì)算和大數(shù)據(jù)技術(shù)越來越深刻地影響著工業(yè)、商業(yè)、金融、教育、軍事等社會(huì)的各個(gè)層面和領(lǐng)域,并且潛移默化地改變著人們的生活方式。云計(jì)算和大數(shù)據(jù)技術(shù)的迅速發(fā)展使之很快應(yīng)用于高校圖書館領(lǐng)域,書籍推薦服務(wù)也得到進(jìn)一步加強(qiáng),它們?yōu)橛脩舻拈喿x創(chuàng)造了廣闊自由的環(huán)境,提供了高效、快速和方便的信息傳遞途徑。
個(gè)性化圖書推薦系統(tǒng)以圖書管理系統(tǒng)為背景,引入了個(gè)性化推薦技術(shù),使圖書管理系統(tǒng)能夠根據(jù)用戶的不同,推薦出個(gè)性化和人性化的結(jié)果,使用戶能夠通過此系統(tǒng),更加高效的檢索和學(xué)習(xí)。圖書管理系統(tǒng)跨越了時(shí)間和空間的障礙,使得任何時(shí)間、任何地點(diǎn)的用戶都可以通過互聯(lián)網(wǎng)來閱讀。一般的推薦系統(tǒng)主要是由行為記錄模塊、模型分析模塊和推薦算法模塊組成。針對(duì)圖書檢索和書籍推薦,個(gè)性化圖書推薦系統(tǒng)主要對(duì)圖書館日志里記錄的讀者借閱數(shù)據(jù)、查詢數(shù)據(jù)等進(jìn)行整理,分析挖掘讀者的閱讀愛好從而進(jìn)行個(gè)性化圖書推薦。個(gè)性化推薦技術(shù)的引入,使得原本呆板的圖書管理系統(tǒng)有了生機(jī),它可以針對(duì)不同的用戶,推薦不同的圖書資源,更適應(yīng)用戶的需求,使用戶更加能夠高效率的閱讀。
(三)基本內(nèi)容
本課題對(duì)圖書館的書籍和用戶數(shù)據(jù)進(jìn)行采集,使用Hadoop技術(shù)進(jìn)行數(shù)據(jù)整理并存儲(chǔ)到MySQL數(shù)據(jù)庫中;采用MapReduce技術(shù)進(jìn)行數(shù)據(jù)分析,在結(jié)合圖書館書籍借閱的具體特征的基礎(chǔ)上,提出適用于館藏書籍的個(gè)性化推薦模型;對(duì)用戶相關(guān)數(shù)據(jù)進(jìn)行分析,為相似度較高的用戶建立鄰居關(guān)系,基于協(xié)同過濾算法產(chǎn)生符合用戶興趣的個(gè)性化圖書資源列表;最后對(duì)推薦結(jié)果進(jìn)行排序,并通過可視化技術(shù)展示出來。本課題主要分為以下六個(gè)模塊:
1、書籍和用戶數(shù)據(jù)獲取
對(duì)館藏書籍和用戶數(shù)據(jù)進(jìn)行采集,再使用Hadoop技術(shù)進(jìn)行數(shù)據(jù)整理,并將數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫中,便于后續(xù)對(duì)數(shù)據(jù)進(jìn)行分析。
2、數(shù)據(jù)清洗
由于數(shù)據(jù)量較大,本課題采用MapReduce并行計(jì)算框架進(jìn)行數(shù)據(jù)清理和數(shù)據(jù)整理。
3、館藏書籍信息建模
對(duì)已獲取的館藏書籍信息進(jìn)行分析,構(gòu)建符合其特征屬性的基本模型,存儲(chǔ)到MySQL數(shù)據(jù)庫中。
4、用戶建模及鄰居關(guān)系分析
根據(jù)用戶借閱書籍的相關(guān)信息,采用每個(gè)讀者的借閱評(píng)分向量來建立用戶模型,通過余弦公式計(jì)算出各個(gè)用戶之間的相似度,建立用戶之間的鄰居關(guān)系。
5、協(xié)同過濾
圖書管理系統(tǒng)基于關(guān)鍵詞和圖書分類號(hào)產(chǎn)生檢索結(jié)果,本課題以讀者的借閱記錄作為個(gè)性化推薦的數(shù)據(jù)參考基礎(chǔ),將檢索結(jié)果中已經(jīng)借閱過的圖書過濾掉,將過濾后的圖書列表用于對(duì)用戶的個(gè)性化推薦。
本課題依據(jù)鄰居的相似度及借閱歷史,預(yù)測當(dāng)前用戶可能會(huì)喜歡的的書籍,根據(jù)鄰居對(duì)圖書列表中圖書的偏愛程度進(jìn)行第一次排序,再根據(jù)用戶自己的向量模型計(jì)算得出按照一定順序排列的最終書籍推薦列表。通過此策略,本課題為每一位讀者進(jìn)行個(gè)性化的圖書推薦。
(1)根據(jù)用戶的借閱記錄,過濾掉已經(jīng)借閱過的圖書;
(2)將鄰居的屬性向量數(shù)據(jù)和圖書數(shù)據(jù)進(jìn)行協(xié)同過濾,進(jìn)行第一次排序;
(3)將過濾出的書籍與被推薦者進(jìn)行協(xié)同過濾,進(jìn)行第二次排序;
(4)將最終結(jié)果推薦給用戶。
6、數(shù)據(jù)可視化
使用瀏覽器對(duì)推薦結(jié)果及統(tǒng)計(jì)信息進(jìn)行可視化,通過網(wǎng)頁方式直觀的展現(xiàn)出來。
(四)擬解決的主要問題
稀疏性問題。據(jù)研究結(jié)果表明,當(dāng)用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的,就很容易造成評(píng)價(jià)矩陣數(shù)據(jù)相當(dāng)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。
冷啟動(dòng)問題?;谟脩魠f(xié)同過濾是建立在有大量用戶對(duì)某個(gè)產(chǎn)品的評(píng)價(jià)上的,由于在新產(chǎn)品開始階段沒有人購買,也沒有對(duì)其進(jìn)行評(píng)價(jià),那么在開始階段也將無法對(duì)其進(jìn)行推薦。
算法擴(kuò)展性問題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,所以不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大大受影響,沒有快速的響應(yīng)速度,對(duì)網(wǎng)絡(luò)用戶來說無法忍受的,因此限制了協(xié)同過濾算法在推薦系統(tǒng)中的使用。
?
二、選題研究步驟、研究方法及措施:
(一)研究步驟
1、課題調(diào)研
對(duì)現(xiàn)狀需求進(jìn)行分析,調(diào)研該課題的背景、目的及意義。
2、對(duì)目前圖書個(gè)性化推薦系統(tǒng)進(jìn)行研究和分析。
3、系統(tǒng)設(shè)計(jì)
根據(jù)需求分析的結(jié)果,按照其功能進(jìn)行模塊劃分,編寫各個(gè)模塊:數(shù)據(jù)采集模塊;數(shù)據(jù)清洗模塊;數(shù)據(jù)分析模塊;數(shù)據(jù)可視化模塊。
4、程序編寫
根據(jù)MapReduce文檔提供的一系列開發(fā)文檔,按其編程風(fēng)格進(jìn)行程序編寫。
5、運(yùn)行調(diào)試
通過IntelliJ IDEA等工具進(jìn)行測試,調(diào)試改進(jìn)程序。
6、撰寫論文
歸納總結(jié),參考文獻(xiàn),對(duì)分析結(jié)果進(jìn)行整理,撰寫論文。
(二)研究方法
1、文獻(xiàn)研究法
通過對(duì)期刊、網(wǎng)絡(luò)、圖書等文獻(xiàn)進(jìn)行調(diào)研,了解該課題研究現(xiàn)狀,找出不足,力求能夠避免或者進(jìn)行改進(jìn)。
2、個(gè)案研究法
通過對(duì)有關(guān)成功案例進(jìn)行搜集和分析,借鑒其成功的部分,根據(jù)現(xiàn)有的研究項(xiàng)目進(jìn)行分析與設(shè)計(jì),理論與實(shí)踐的相結(jié)合,使理論有理有據(jù),設(shè)計(jì)更合理,并提出自己的看法,在此基礎(chǔ)上創(chuàng)新。
(三)研究措施
通過相關(guān)圖書,學(xué)習(xí)相應(yīng)的有關(guān)知識(shí),進(jìn)行網(wǎng)上搜索相關(guān)內(nèi)容,閱讀相關(guān)的項(xiàng)目報(bào)告,及時(shí)做筆錄,對(duì)該課題有幫助的部分進(jìn)行整理與分析,開拓思維,由此作為該課題的理論基礎(chǔ)。
三、選題研究工作進(jìn)度:
起訖日期
主要工作內(nèi)容
2021.10.21-2021.11.12
選題、調(diào)研、收集資料
2021.11.13-2021.11.28
論證、開題、撰寫開題報(bào)告
2021.11.29-2022.01.31
實(shí)踐研究、資料搜集過程
2022.02.01-2022.05.17
論文寫作
2022.03.14-2022.03.21
中期檢查
2022.05.18-2022.05.25
論文答辯
四、主要參考文獻(xiàn):
[1]張捷.基于極限學(xué)習(xí)機(jī)算法的圖書館讀者借閱行為分析[J].現(xiàn)代電子技術(shù),2020,43(5):121-124.
[2]高遠(yuǎn).網(wǎng)絡(luò)環(huán)境下電子圖書館借閱流通管理系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020,43(8):56-59.
[3]吳榮,段宏濤.基于Hadoop平臺(tái)的Spark快數(shù)據(jù)推薦算法解析——以其在圖書推薦系統(tǒng)中的應(yīng)用為例[J].數(shù)字技術(shù)與應(yīng)用,2020,38(6):115-117.
[4]石艷麗,劉欣.基于微信公眾平臺(tái)的圖書借閱信息查詢系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020,43(24):88-91.
[5]高琪娟,劉鍇,陳佳.面向Spark的圖書借閱數(shù)據(jù)關(guān)聯(lián)模型的研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報(bào),2018,45(4):768-771.