數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)-答辯參考問題一覽
臨近期末少不了大作業(yè)和答辯,在正式答辯前,先準(zhǔn)備好以下這些問題,在被導(dǎo)師提問時(shí)會(huì)更游刃有余。 根據(jù)實(shí)驗(yàn)過程分為四個(gè)部分,分別是:數(shù)據(jù)探索與預(yù)處理、模型選擇、模型訓(xùn)練、模型調(diào)優(yōu)

1.數(shù)據(jù)探索與預(yù)處理部分
讀入的數(shù)據(jù)是多大的?(表格是多少,圖片是多少張,像素是幾乘幾)
進(jìn)行了那些數(shù)據(jù)探索,分別是用來看什么的,針對(duì)異常數(shù)據(jù)是怎么處理的?
異常值有沒有刪去?對(duì)比刪與不刪對(duì)結(jié)果的影響了嗎?一共刪除了多少數(shù)據(jù)?
缺省值填充了嗎?用的什么填充方式?是否對(duì)比過填充前后對(duì)結(jié)果的影響?
如果你的PPT里有圖,那么她可能問你某一張或某幾張圖是什么?(這個(gè)圖是用什么數(shù)據(jù),什么函數(shù)生成的)
2.模型選擇
可選的有哪些,你根據(jù)什么原因選擇了你現(xiàn)在用的這些。
你有嘗試過其他模型嗎?嘗試了那些?為什么沒選呢?我看別的同學(xué)用某個(gè)模型你嘗試過的模型效果很好啊,你這個(gè)為什么不行呢?有沒有嘗試模型融合呢?
3.模型訓(xùn)練
(每一個(gè)你用的參數(shù)都要知道他表示什么,然后你選擇每個(gè)參數(shù)的理由。)
這里舉例KNN和Adboost
KNN:用的是幾層的網(wǎng)絡(luò)?為什么選擇這個(gè)層數(shù)?參數(shù)是自己跑的還是借鑒的?跑了多久,效果怎么樣?
Adboost:選擇的弱學(xué)習(xí)器是什么?最大迭代次數(shù)是多少?參數(shù)是自己跑的還是借鑒的?跑了多久,效果怎么樣?.
效果最好是多少?
4.模型調(diào)優(yōu)
用什么方法調(diào)參?調(diào)整后效果如何?
如有過擬合,那么你有沒有試試找出到底是哪個(gè)變量影響了結(jié)果?
如有欠擬合,那么你試過重新處理數(shù)據(jù)或者多加入一些特征嗎?有沒有調(diào)整學(xué)習(xí)率?

暫時(shí)就寫到這里了,希望能對(duì)你的答辯有所幫助,如果你遇到了不在這篇文章范圍內(nèi)的問題,歡迎在評(píng)論區(qū)一起交流。
如果你有別的想看的內(nèi)容也可以寫在評(píng)論區(qū)或者私信我。