基于k均值聚類的志愿分析
聲明:本文不是志愿推薦,僅為個人興趣,對所分析的學校僅從已有數(shù)據(jù)出發(fā)
一、分析思路
????????基于軟科、高考分數(shù)線、GDP、地圖矢量等數(shù)據(jù),使用穩(wěn)健回歸、熵值法、k均值聚類等方法分析高校選擇的推薦程度。
二、分析過程
(一)經(jīng)濟中心選擇
????????根據(jù)2022年重慶市各區(qū)縣GDP數(shù)據(jù)及各區(qū)縣駐地經(jīng)緯度,計算重慶市經(jīng)濟幾何中心為(107.96°E,30.09°N),大致在石柱土家族自治縣。因此后續(xù)關于交通費用的測算均從石柱土家族自治縣出發(fā)。
(二)高校選擇
????????1.重慶市的重慶大學、西南大學、西南政法大學等9所學校;
????????2.四川省的四川大學、電子科技大學、西南財經(jīng)大學等9所學校;
????????3.湖北省的武漢大學、華中科技大學、華中師范大學等9所學校;
????????4.湖南省的中南大學、湖南大學、湖南師范大學等9所學校;
????????5.陜西省的西安交通大學、西安電子科技大學、西北工業(yè)大學等9所學校;
????????6.貴州省的貴州大學、貴州師范大學、貴州財經(jīng)大學等等5所學校
????????7.甘肅省的蘭州大學、江西省的南昌大學、河南省的鄭州大學。

(三)指標體系構建
????????本文主要選取了經(jīng)費預算、學科建設、標準分差(假定分數(shù)高于物理類本科線150,標準分差=|2022年物理類最低分差-150|)、交通費用、口碑和研究生報考。經(jīng)費預算和學科建設反映學校客觀狀況,口碑和研究生報考反映主觀評價,標準分差和交通費用則反映個人狀況。
????????本文假定經(jīng)費預算、學科建設、口碑以及研究生報考為正向指標,標準分差和交通費用為負向指標。
(四)權重計算
????????本文認為標準分差的影響是最大的,因此首先將其權重設置為0.5,再利用熵值法計算剩余五個指標的權重,并滿足剩余權重和為0.5。
(1)無量綱化
①正指標

②負指標

式中:i是樣本編號,取1到n的整數(shù),j是影響因素編號,取1到m的整數(shù);Xij表示原始指標值;Yij為無量綱化處理后的指標值;max{Xj}表示j編號因素中的最大值;min{Xj}則為j編號因素中的最小值。
(2)信息熵計算

若pij>0,則:

否則,mij=0,進一步

(3)權重計算


(4)綜合得分

(五)聚類分析
????????根據(jù)綜合得分對所分析的高校進行排序,再利用k均值聚類,分類設置為六類,包括高推薦、較高推薦、一般推薦、較低推薦、低推薦和不推薦。
三、評估分析

????????可以發(fā)現(xiàn)西南交通大學、重慶大學、西南大學、鄭州大學、四川大學、湖南大學、南昌大學、湖南師范大學、中國地質大學(武漢)、武漢理工大學和陜西師范大學為假定情況中的高推薦,華中師范大學、西南政法大學、長安大學、西北大學等為較高推薦。在高推薦的高校中,各自的分差為5、24、-16、0、39、32、-2、13、4、14和-2,西南大學難度較小而四川大學難度較大,西南交通大學、鄭州大學、南昌大學、中國地質大學(武漢)和陜西師范大學難度適中。
四、預測分析(重慶)
????????使用穩(wěn)健回歸,預測發(fā)現(xiàn):
????????2023年物理類本科線? 420分,高于實際14分
????????2024年物理類本科線? 419分
????????2025年物理類本科線? 419分

? ?