最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)挖掘類比賽經(jīng)驗(yàn)分享

2019-11-02 20:54 作者:薈呀薈學(xué)習(xí)  | 我要投稿

????????今天小薈給大家分享一下參加數(shù)據(jù)挖掘類比賽的個(gè)人經(jīng)驗(yàn),希望能夠?qū)φ趨⒓踊蛘呓窈鬁?zhǔn)備參加的小伙伴有所幫助。

首先先分享一下數(shù)據(jù)挖掘類比賽賽題完成標(biāo)準(zhǔn)流程:

▼1數(shù)據(jù)的可視化分析

????▼1.1上下文信息

??????????1.1.1廣告主信息

????????????1.1. 2設(shè)備信息

????????????1.1.3操作系統(tǒng)信息

????????????1.1.4時(shí)間信息

????1.2用戶信息

2數(shù)據(jù)預(yù)處理

3特征工程

▼4模型

????????4.1創(chuàng)建模型

????????4.2調(diào)參

????????4. 3模型評(píng)估

????????4.4模型整合

5提交測(cè)試集結(jié)果

賽題完成流程圖

根據(jù)上方流程圖,小薈給小伙伴們就各個(gè)點(diǎn)進(jìn)行詳細(xì)闡述。

  1. 熟悉賽題背景和目標(biāo)

    ·研讀賽題信息

  2. 了解評(píng)估準(zhǔn)則階段

    ·選擇比賽中適合的模型

    ·分析業(yè)務(wù)好特征工程

  3. 數(shù)據(jù)預(yù)處理階段

    3.1對(duì)重復(fù)值、異常值、缺失值處理

    ? ?重復(fù)值刪除(例如xh.drop_duplicates());

    ? ?異常值剔除:

    ? ? ? ?a.進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)分析,對(duì)屬性值進(jìn)行一個(gè)描述性的統(tǒng)計(jì), 從而查看哪些值是不合理的;

    ? ? ?? b. 3σ原則,根據(jù)正態(tài)分布的定義,距離平均值3σ之外的概率不超過(guò)0.003,這屬于極小概率事件;

    ? ? ? ?c. 聚類分析,如DBSCAN基于密度的聚類方法,可用于離群點(diǎn)檢測(cè)。

    ? ?? ? d.箱型圖分析,箱型圖提供了一個(gè)標(biāo)準(zhǔn),即大于或小于箱型圖設(shè)定的上下界的數(shù)值即為異常值。

    ? ?缺失值填充(例如:xh.fillna(xh.mean)),刪除(例如:xh.dropna());

    3.2對(duì)特征進(jìn)行縮放

    ? ?整體進(jìn)行歸一化,避免量級(jí)過(guò)大影響權(quán)值,歸一化后權(quán)重可置為1。

    ? ?主要有三種方式:min-max normalization、Mean normalization、Standardization,相關(guān)函數(shù)可百度查詢。

    3.3解決樣本不均衡問(wèn)題

    ?a.上采樣(過(guò)采樣) : 通過(guò)增加分類中樣本較少的類別的采樣數(shù)量來(lái)實(shí)現(xiàn)平衡

    ? ? ?方法1:直接復(fù)制小樣本數(shù)據(jù),缺點(diǎn)是容易導(dǎo)致過(guò)擬合

    ? ? ?方法2:通過(guò)一定規(guī)則生成新的變量,如smote

    b.下采樣(欠采樣) :通過(guò)減少分類中多數(shù)類樣本的數(shù)量來(lái)實(shí)現(xiàn)樣本均衡

    ? ? 方法1:隨機(jī)去掉一些多數(shù)類,缺點(diǎn)是可能會(huì)丟失一些重要信息

    ? ? 方法2:根據(jù)原始樣本,生成新的樣本來(lái)替換多數(shù)類樣本

    c.設(shè)置權(quán)重:對(duì)不同樣本數(shù)量的類別賦予不同的權(quán)重(通常會(huì)設(shè)置為與樣本量成反比)

    d.集成方法:生成多組樣本進(jìn)行訓(xùn)練電每組樣本包含所有少數(shù)類樣本和多數(shù)類樣本的抽樣。例如訓(xùn)練集正例有1000條,反例有100條,則將數(shù)據(jù)分為10組,每組放全部的反例和100個(gè)正例樣本。

  4. 特征處理階段

    4.1特征的類型

    ? ? 數(shù)值類型:連續(xù)型,離散型

    ? ??類別類型:LabelEncoder、one-hot編碼

    ? ? 時(shí)間類型:持續(xù)時(shí)間、時(shí)間間隔

    ? ??文本類型

    ? ??圖形類型

    4.2特征構(gòu)建

    ? ? a.用基因編程創(chuàng)造新特征

    ? ? ? ?轉(zhuǎn)換(transformation) :把已有的特征進(jìn)行組合轉(zhuǎn)換,組合的方式(一元、二元、多元算子)可以由用戶自行定義,也可以使用庫(kù)中自帶的函數(shù)。

    ? ?b.根據(jù)業(yè)務(wù)分析創(chuàng)建特征

    ? ? ? ?例如,原始數(shù)據(jù)是用戶的消費(fèi)記錄,通過(guò)業(yè)務(wù)分析,發(fā)現(xiàn)消費(fèi)類型的多樣性與征信密切相關(guān),就可以提取這個(gè)特征。

    4.3特征選擇

    ? ? a.過(guò)濾式Flitering

    ? ? ? ?根據(jù)特征的方差或相關(guān)系數(shù)對(duì)特征重要程度進(jìn)行排序,方差越大、與目標(biāo)變量相關(guān)系數(shù)越高,則特征越重要。

    ? ? b.包裹式wrapper

    ? ? ?①前向選擇:初始候選特征集為空,每次從原始特征中選擇一個(gè)使效果最好的特征添加到所選特征集中,直到添加任何特征不能明顯提高模型效果。

    ? ? ?②后向選擇:初始候選特征集為所有特征,每次從原始特征集刪除一個(gè)特征使得模型效果 下降最少,直到刪除任何特征都會(huì)使得模型效果明顯下降,所剩的特征就是所選特征集。

    ? ? ?c.嵌入式embedding

    ? ? ? ?①Lasso回歸,通過(guò)L1正則化,對(duì)特征進(jìn)行選擇

    ? ? ? ?②GBDT、Xgboost, 在不同數(shù)據(jù)抽樣、不同樣本抽樣所得到的諸多單棵決策樹(shù)中,重要的特征會(huì)有更高概率出現(xiàn)在樹(shù)中

    ? ? d.SelectKBest

    ? ? ? ?Sklearn有專門用于篩選特征的模塊feature_ selection, 目前主要包括:單變量特征選擇和遞歸特征消除。

  5. 創(chuàng)建模型

    幾種比賽中常用模型:

    ? ?a.LogisticRegregsion()

    ? ?b.GradientBoostingClassifier()

    ? ?c.XGBClassifier()

    ? ?d.lgbm = LGBMClassifier()

  6. 調(diào)參與優(yōu)化

    def ModelOptimization(model, params, train. x,train.y):

  7. 是否滿足要求——模型評(píng)估

    def Model_evaluation(model, train_x. train_y):

    ? ? ? score = -cross.val_score (model,train_x,train_y,scoring="neg_lg_loss",cv=10).mean()

  8. 保存模型

    def Submit(id,pred_y):

    ? ? ? submission = pd.DataFrame(( instance.id”: id," predicted.score" : pred._y))

    ? ? ? submission. to_ csv(".. /Submission/ submission.csv, index = False)

希望能夠給對(duì)此類比賽感興趣的小伙伴有所幫助

如果喜歡的話,請(qǐng)給小薈獻(xiàn)出一條龍,小薈心里暖融融?。。?/span>

數(shù)據(jù)挖掘類比賽經(jīng)驗(yàn)分享的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
巴中市| 三穗县| 白朗县| 额济纳旗| 临江市| 屏东县| 本溪| 咸阳市| 区。| 陆丰市| 修武县| 宁都县| 明光市| 安福县| 色达县| 黄山市| 内江市| 怀来县| 寻乌县| 枣阳市| 新蔡县| 灵石县| 开鲁县| 阳泉市| 嘉峪关市| 墨脱县| 楚雄市| 高密市| 镶黄旗| 台江县| 顺义区| 临安市| 江华| 灯塔市| 上饶县| 荃湾区| 宁化县| 德惠市| 永嘉县| 明光市| 东明县|