隊(duì)友和我都不會(huì)建模怎么辦
下面是我分模塊總結(jié)的一些數(shù)學(xué)建模常用方法:
接下來將逐個(gè)進(jìn)行介紹說明。
一、數(shù)據(jù)預(yù)處理
一般在數(shù)據(jù)分析或者建模前均需要進(jìn)行數(shù)據(jù)預(yù)處理,這一步非常關(guān)鍵,預(yù)處理的質(zhì)量直接影響到后續(xù)建模和預(yù)測的準(zhǔn)確性。常見的數(shù)據(jù)預(yù)處理方式有異常值處理、缺失值處理、量綱處理以及數(shù)據(jù)標(biāo)簽和數(shù)據(jù)編碼等。
1、異常值處理
異常值也稱離群值,其數(shù)值明顯偏離它所屬樣本集的其余觀測值。比如身高的數(shù)據(jù)中,有一人身高為5米,忽視異常值的存在可能會(huì)對建模結(jié)果產(chǎn)生不良影響。
檢測異常值的方法有很多種,常見的比如描述分析法——在3σ原則下,異常值如超過3倍標(biāo)準(zhǔn)差,那么可以將其視為異常值;圖示法——比如通過箱線圖、散點(diǎn)圖進(jìn)行判斷等等。
異常值處理通常有以下3種方式:
2、缺失值處理
對缺失值進(jìn)行處理方法通常有刪除記錄、線性插值、該點(diǎn)線性趨勢插值、不處理等4種方法,說明如下表:
3、量綱處理
量綱處理是指通過數(shù)據(jù)變換來消除原始變量的量綱影響的方法,以便于進(jìn)行比較和分析。在數(shù)據(jù)預(yù)處理中,常見的量綱處理方法包括標(biāo)準(zhǔn)化、歸一化、中心化、正向化、逆向化、適度化、區(qū)間化等等。
SPSSAU提供17種數(shù)據(jù)無量綱化處理方法,匯總說明如下:
二、基本描述
對數(shù)據(jù)進(jìn)行基本描述分析可以提供對數(shù)據(jù)的初步了解,有助于了解數(shù)據(jù)的特征和分布,為進(jìn)一步的數(shù)據(jù)處理和建模提供依據(jù)。以下是一些常見的基本描述分析方法:
1、基本描述分析
基本描述統(tǒng)計(jì)分析包括描述分析、頻數(shù)分析、分類匯總;是對收集的數(shù)據(jù)進(jìn)行基本的說明。
2、可視化分析
數(shù)據(jù)可視化分析是一個(gè)非常重要的過程,它可以幫助我們更好地理解數(shù)據(jù),發(fā)現(xiàn)其中的模式和趨勢,更加直觀的描述數(shù)據(jù)。常見的可視化分析方法包括散點(diǎn)圖、箱線圖、直方圖、簇狀圖、組合圖以及帕累托圖等。
三、分類模型
分類模型是一種按照數(shù)學(xué)模型來分類數(shù)據(jù)的算法。它通過對給定的歷史數(shù)據(jù)進(jìn)行分析,根據(jù)已知的分類規(guī)則來對新的數(shù)據(jù)進(jìn)行預(yù)測。常見的分類模型有聚類分析、判別分析、logistic回歸以及機(jī)器學(xué)習(xí)。
1、聚類分析
常用的聚類分析分為K-means聚類、K-modes聚類、K-prototype聚類以及分層聚類。其中K-means聚類、K-modes聚類、K-prototype聚類是按行聚類(R型聚類),分層聚類是按列聚類(Q型),其中最常用的為K-means聚類,各自適用場景說明如下表:
2、判別分析
判別分析用于根據(jù)已知的分類信息對觀測數(shù)據(jù)進(jìn)行分類。判別分析有很多種,比如Fisher判別、距離判別、Beyes判別等,其中Fisher判別使用頻率最高。
3、logistic回歸
logistic回歸可以用于分類,它的核心思想是利用邏輯函數(shù)將線性回歸的結(jié)果轉(zhuǎn)化成一個(gè)概率值,這個(gè)概率值可以用來進(jìn)行分類。logistic回歸分析可細(xì)分為二元logistic回歸、多分類logistic回歸、有序logistic回歸、條件logistic回歸。各自適用場景說明如下表:
4、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)算法中常用于分類的模型包括決策樹、隨機(jī)森林、KNN、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)等等。具體說明如下:
四、預(yù)測模型
數(shù)學(xué)建模預(yù)測模型是一種利用數(shù)學(xué)模型和統(tǒng)計(jì)方法來預(yù)測未來可能發(fā)生的結(jié)果的模型。它通?;跉v史數(shù)據(jù)和已知信息,通過建立數(shù)學(xué)模型來分析問題,并預(yù)測未來的發(fā)展趨勢。預(yù)測類常見的方法有時(shí)間序列類預(yù)測、回歸分析進(jìn)行預(yù)測、機(jī)器學(xué)習(xí)進(jìn)行預(yù)測、馬爾科夫預(yù)測或者其它方法組合預(yù)測等。
比較常用的時(shí)間序列數(shù)據(jù)預(yù)測方法有ARIMA預(yù)測、指數(shù)平滑法、灰色預(yù)測模型、VAR模型、季節(jié)Sarima模型?;貧w分析是一種常用的統(tǒng)計(jì)方法,用于建立變量間的關(guān)系模型,并通過該模型對未知數(shù)據(jù)進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)用于從數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,并利用這些知識進(jìn)行預(yù)測。通過訓(xùn)練算法來自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的模式,并根據(jù)這些模式進(jìn)行未知樣本的預(yù)測。
五、評價(jià)模型
評價(jià)模型用于對某個(gè)系統(tǒng)、方案或決策進(jìn)行評估。通過構(gòu)建合適的指標(biāo)和評價(jià)方法,評價(jià)模型能夠?qū)Σ煌桨傅膬?yōu)劣進(jìn)行比較和分析。在評價(jià)模型中,常用的方法如層次分析法、熵值法、TOPSIS法、模糊綜合評價(jià)等等,如下圖:
各類方法說明如下:
六、降維模型
主成分分析和因子分析都可用于數(shù)據(jù)降維,它們的核心思想都是通過構(gòu)造新的變量(或稱為因子或主成分),使得這些新變量能夠盡可能地反映數(shù)據(jù)的變異情況,同時(shí)又能夠減少變量的個(gè)數(shù)。除了這兩種熟知的,多維尺度MDS也可以用于數(shù)據(jù)降維。說明如下:
七、用戶分析
用戶分析是指通過對用戶的數(shù)據(jù)進(jìn)行分析,從而更好地了解他們的需求和行為。在數(shù)學(xué)建模中,用戶分析可以幫助我們更好地理解問題,從而提高模型的準(zhǔn)確性和可解釋性并確定最佳的解決方法。常見的用戶分析的模型有KANO模型、RFM模型、NPS凈推薦值分析、聯(lián)合分析、多維尺度MDS分析等。說明如下: