散文網(wǎng) » 科技 »學(xué)習(xí) » 機(jī)器學(xué)習(xí)特征處理詳解與 tensorflow feature_column 接口實(shí)戰(zhàn)

機(jī)器學(xué)習(xí)特征處理詳解與 tensorflow feature_column 接口實(shí)戰(zhàn)

2023-02-26 12:00 作者:算法全棧之路 0人讀過 | 我要投稿

書接上文，在 模型手把手系列 的前兩篇文章中，我們已經(jīng) 詳細(xì)介紹了 ?python、spark 和 java 生成TFrecord 和六種方法構(gòu)建讀入batch樣本，按照常規(guī) 機(jī)器學(xué)習(xí)模型 pipline 的流程來說，我們應(yīng)該在使用 dataset 構(gòu)建好的 batch 數(shù)據(jù)上開始分別對(duì) 讀入的各個(gè)特征進(jìn)行處理例如 特征數(shù)值化、取embeding 等操作，然后輸入模型的過程了，那么本文就從這里開始吧～

因?yàn)楸鞠盗?開發(fā)的模型 主要使用的是 tensorflow ，而 tensorflow 官方有著自己實(shí)現(xiàn)的特征處理接口 feature_column ，非常好用且業(yè)界使用的非常廣泛，這里強(qiáng)烈安利下～ ?。本文這里不欲對(duì) feature_column 接口的參數(shù) 做解釋，而是 更側(cè)重于 在每一步得到的數(shù)據(jù)形式做一些說明，方便我們靈活對(duì) 數(shù)據(jù) 輸入 進(jìn)行定制和 debug .

feature_column 接口本來是 Google 為了適配 tensorflow estimator 這個(gè) 模型訓(xùn)練的 高階接口 使用的，但它既然能 方便處理特征 ，并且 特征處理殊途同歸 ，當(dāng)然我們也可以將 feature_column 接口配合 tensorflow keras 開發(fā)模型使用, 親測(cè) 也非常好用哦。這里要 重點(diǎn)推薦 一下 estimator 接口，使用 estimator 開發(fā)的 單機(jī)版模型可以直接適配分布式 模型訓(xùn)練，代碼無需怎么改動(dòng)，非常強(qiáng)大?。?！在本系列后期我們也會(huì)寫幾篇關(guān)于使用 estimator 搭建模型的文章，感興趣得同學(xué)可以關(guān)注下后續(xù)的文章哦～

閑言少敘，下面就讓我們開始本文的 機(jī)器學(xué)習(xí) 特征處理方法 介紹吧～

(1) 特征處理基礎(chǔ)說明

在深入淺出理解word2vec模型 (理論與源碼分析) 文章中，我們說過自從 2013年 embeding 誕生以來就被業(yè)界的 深度學(xué)習(xí)模型 進(jìn)行了深入而廣泛的應(yīng)用，特別是在 高維稀疏的sparse ID 類特征 應(yīng)用特別廣泛。從常規(guī)意義上來說，對(duì)于 推薦系統(tǒng)或廣告算法 系統(tǒng)，百分之80 的特征均是以高維稀疏的 ID類特征的形式出現(xiàn)的。所以我們開發(fā) DNN 模型的時(shí)候，對(duì)于高維稀疏的 ID類特征甚至是 用戶歷史行為序列 特征，我們總是會(huì) 先以某種方式去取得該 ID 的 embeding , 然后進(jìn)行 加減乘或則拼接、求attention 等花樣的騷操作。

在企業(yè)級(jí)機(jī)器學(xué)習(xí) Pipline - 特征feature處理 - part 1 文章中，我們列出了 搜廣推算法 中經(jīng)常用到的一些特征的設(shè)計(jì)方法包括： 交叉特征、序列特征、實(shí)時(shí)特征 等，錯(cuò)過以前文章的同學(xué)，可以戳進(jìn)去看看哦。從上文中我們知道了有哪些特征可以用，但是在模型設(shè)計(jì) 中真正的把 ?數(shù)據(jù) 以合適的格式讀進(jìn)去適配模型設(shè)計(jì) 的需要，則是有著 道與術(shù) 的鴻溝。而其實(shí) 在模型開發(fā) 中，我們大多數(shù) 時(shí)間均是花在了模型的數(shù)據(jù)處理上。

一般意義上來說，對(duì)于 浮點(diǎn)數(shù) 特征，我們可以用一些方式 (例如 log / xgboost ) 進(jìn)行 分桶離散化 然后求 embeding 扔進(jìn) 模型里，或則直接讀入浮點(diǎn)數(shù) 將它和其它特征的 embeding 拼接后傳入網(wǎng)絡(luò) 等。但是目前的實(shí)驗(yàn) 來看，統(tǒng)計(jì)類的浮點(diǎn)數(shù)特征直接扔進(jìn)模型效果提升總是不太明顯。

而在實(shí)際操作中，對(duì)于一些類別類型的 category特征 ，我們通常會(huì) 構(gòu)建特有的 embeding matrix，當(dāng)然我們也可以多個(gè)特征共用一個(gè) embeding matrix, 就像后文要介紹的 tf.feature_column.shared_embeddings。我們可以將用戶剛下載的 Appid 和用戶最近3天打開過的 appid 用一個(gè) embeding 去訓(xùn)練也是一種不錯(cuò)的選擇，其可以 有效緩解因數(shù)據(jù)稀疏導(dǎo)致的訓(xùn)練不充分 的問題。

更細(xì)致的說，要想得到某 ID 的 embeding, 我們通常需要 根據(jù)索引 (ids)去 embeding matrix 中查找(look_up) ，這里我們就需要先有這個(gè) id，一般這個(gè)id是數(shù)值 int型的，而我們常規(guī)使用的高維稀疏特征大多是 字符串類型的sparse ID ，所以 常規(guī)情況 下我們需要去對(duì) 每一列特征對(duì)應(yīng)的去維護(hù) 一個(gè)索引id ，id 和該特征的取值unique 個(gè)數(shù) 一一對(duì)應(yīng)，一般這個(gè) 過程又稱為 特征取值ID化 。我們取出該特征對(duì)應(yīng)的ID 對(duì)應(yīng)的 embeding , 將 高維sparse特征轉(zhuǎn)化為低維的embedding ，則可以進(jìn)行模型數(shù)據(jù) 的 語(yǔ)義計(jì)算 了。

如上文所說，在 特征取值ID化 這一步，如果我們的模型中 特征的取值個(gè)數(shù) 和 特征種類個(gè)數(shù) 非常多的話，我們就需要每天去對(duì) 每列特征的舊的ID集合上加上新增的特征取值并 重新構(gòu)建索引 輸入模型中訓(xùn)練，多個(gè)特征均需要如此，對(duì)于搜廣推模型上 動(dòng)則上億 的稀疏特征來說，可以想象這是一個(gè) 非常復(fù)雜且難以持久維護(hù) 的工程，而早期的很多大廠的 dnn 模型均是如此處理的，可怕～

好在 tensorflow 中提供了 feature_column 接口，它可以支持將每個(gè) 特征hash 后快速得到一定數(shù)值的 索引id , 該特征空間大小可以自行定制。既然是 hash ，肯定 避免不了沖突，這里我們不在展開，自己根據(jù) 業(yè)務(wù) 調(diào)整 hash空間大小即可。類似的特征ID化工具，我知道百度的 paddelpaddle 深度學(xué)習(xí)框架 ?中 也有類似的 hash函數(shù) 的設(shè)計(jì)。

既然是說 feture_column ，我們就不得不祭出這張圖了。

從上圖中我們可以知道，feature column 處理特征可以分為 Categorical Column 和 Dense Column 兩大類，這其實(shí) 和我們前面介紹的特征總共分成 dense 和 sparse 兩類特征是一個(gè)意思。當(dāng)然，圖中的一些接口在某些場(chǎng)景里需要 組合使用 ，也和我們上文介紹的特征處理流程差不太多。而一列特征要想接入DNN模型，則需要 先轉(zhuǎn)化為 DenseColumn 才可以。至于如何組合，在下文我們會(huì) 進(jìn)行一些說明，但是從 數(shù)據(jù)取值類型 和我們自己的 先驗(yàn)知識(shí) ，推斷出來某個(gè)位置取值應(yīng)該是什么類型和形狀也是不難的～

當(dāng)然除了圖中的一些接口之外，feature_column 還有一些以 sequences開頭 的 處理序列特征 的接口，我們的文章中，一直強(qiáng)調(diào)了序列特征的重要性，因?yàn)?序列特征的出現(xiàn) 讓我們不再是孤立的看待用戶的行為，而是在 時(shí)間序列 上連續(xù)的建模用戶的 特性和偏好，用 歷史的、發(fā)展的，普遍聯(lián)系的眼光 來分析用戶，在工業(yè)實(shí)踐中具有舉足輕重的意義。后面我們也會(huì)寫一些介紹序列建模的文章，感興趣的同學(xué)可以持續(xù)關(guān)注下哦。

這里 需要注意 的一點(diǎn)是：feature_column 接口在tensorflow 1.x 系列和 2.x 系列均有支持，但是也有一些細(xì)微的差別。對(duì)于普通特征，在 tensorflow 1.x 中，我們可以通過 tf.feature_column.input_layer 處理 features 得到 dense feature，而序列特征可以使用 tf.feature_column.sequence_input_layer。但是在 2.x 中，該接口 均不在支持 。在2.x 中改為了通過 tf.keras.layers.DenseFeatures ?處理 features 得到 dense feature，序列特征可以通過 tf.keras.experimental.SequenceFeatures 來得到。而我們下文的代碼均是基于 tensorflow 2.x 開發(fā)的。

其實(shí)要想對(duì) tensorflow 的使用與設(shè)計(jì)思想進(jìn)行更深入的了解，我們可以直接去看源碼，源碼的說明非常詳細(xì) ，并且對(duì) 參數(shù)進(jìn)行了 保姆級(jí) 的說明，還列舉出了使用的demo。具體路徑見下面這2個(gè)鏈接：

源碼地址 tensorflow源碼

接口介紹 feature_column接口介紹

好吧，文字部分就這些吧，代碼才是硬通貨，接下來就讓我們一起開始接口的更進(jìn)一步的代碼介紹吧～

(2) 代碼時(shí)光之 feature_column使用說明

我們這里只挑一些常用的接口說明，主要涵蓋 數(shù)值特征處理接口、類別特征hash化 接口、序列特征和dataset結(jié)合使用 方法、特征交叉、embedding共享等，而其他的類似接口則可以常規(guī)類比推算過去哈。

畢竟 萬(wàn)變不離其宗，掌握 數(shù)據(jù)的流程以及各階段數(shù)據(jù)的形式比會(huì)用多少接口更加重要 。我們會(huì)在介紹接口的時(shí)候說明該接口的適用場(chǎng)景，注意看旁白哦～

(2.1)numeric_column

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 import?tensorflow?as?tf number?=?tf.feature_column.numeric_column("price") price_feature_dict?=?{"price":?[[2.0],[3.0],[4.0]]} #?用這種數(shù)據(jù)解析方法來解析dict數(shù)據(jù) #?這里感覺更像是定義了一種數(shù)據(jù)解析方法? output?=?tf.keras.layers.DenseFeatures(number)(price_feature_dict) print(output)

從名字我們就可以 numeric_column 可以讀入數(shù)值類型的特征，我們輸入 統(tǒng)計(jì)類的浮點(diǎn)數(shù) 特征或則其他不需要分桶、且也不需要 embeding 的特征可以使用。

這里我們可以重點(diǎn)看一下：output 返回的就是一個(gè) 浮點(diǎn)數(shù)tensor, 維度沒有改變。

我們使用 tf.feature_column.numeric_column 接口定義了處理 price 列字段的方法，這個(gè)方法 ?返回的值，我們可以通過 ?tf.keras.layers.DenseFeatures 接口( tensorflow 2.x 支持 ) 來查看。而 tf.keras.layers.DenseFeatures(number) 到這里整體( 包括((number)) )其實(shí) 就定義了對(duì) 該列特征的處理方法，后面括號(hào) 里的 (price_feature_dict) 是這個(gè)方法的輸入?yún)?shù) 。

這里我們刻意把分行的寫法合并在了一起，方便理解：注意兩個(gè)括號(hào) 的連接，第一個(gè)括號(hào) 是給方法用的，是處理方法的一部分。第二個(gè)括號(hào) 才是根據(jù)輸入得到具體的值，并用前面定義的方法來處理該輸入值。整體來看就是： 對(duì)輸入特征的某個(gè)字段定義了一種什么處理方法。

因?yàn)?tensorflow 2.x 支持 eager 模式，所以輸出變量取值就和 python一樣，直接打印變量就 OK。

這里 插入一個(gè)深坑, 可能引起 bug 的地方就是：我們使用簡(jiǎn)單自定義數(shù)據(jù) 測(cè)試接口和使用 dataset 數(shù)據(jù) 測(cè)試的時(shí)候，略有不同 。注意看：代碼里的 price_feature_dict 就是我們輸入的特征，這里要注意每一個(gè)元素都是被[]包裹著的([2.0]), 是一個(gè)數(shù)組，而我們上一篇文章 tensorflow 六種方法構(gòu)建讀入batch樣本(含序列特征處理),踩坑經(jīng)驗(yàn)值得收藏介紹的 batch 數(shù)據(jù)里，每一列特征都是僅僅只有數(shù)值，不被 [] 包裹，在 tensor 的世界里也就是 維度上少了一維 。

解決方法 就是：在上一篇文章里介紹的 train_raw_dataset 后面可以接入這段代碼就可以在 dateset 上測(cè)試代碼運(yùn)行通過：

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 final_dataset?=?train_raw_dataset .apply(tf.data.experimental.ignore_errors())? .shuffle(2). .batch(BATCH_SIZE,?drop_remainder=True) .repeat(NUM_EPOCHS) .prefetch(tf.data.experimental.AUTOTUNE)

上面是一個(gè)插曲，僅僅是為了說明批量跑模型的時(shí)候，數(shù)據(jù)格式略有不同而已。如果你不用 dataset 讀入 ?數(shù)據(jù) 來測(cè)試這個(gè)接口 ?則不用關(guān)注。

上面打印的 output 輸出的最后返回?cái)?shù)據(jù) 長(zhǎng)這樣：

(2.2) bucketized_column

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 import?tensorflow?as?tf age_feature_dict?=?{"age":?[[2.0],[3.0],[4.0]]} age_bucket?=?tf.feature_column.bucketized_column( tf.feature_column.numeric_column(key='age',?shape=(1,),default_value=0,dtype=tf.dtypes.float32),boundaries=[20,?40,?50,?60]) feature_layer?=?tf.keras.layers.DenseFeatures(age_bucket) output?=?feature_layer(age_feature_dict) print(output) #?返回的是onehot值，維度改變?

這里的 bucketized_column 接口很好理解，就是根據(jù) 接口限定的邊界(boundaries) 進(jìn)行分桶。對(duì)于浮點(diǎn)數(shù)類型的特征，我們需要分桶的，這里 給定分桶邊界 就可以了。

注意分桶是基于 數(shù)組比較 的，所以這個(gè) 接口需要先將輸入數(shù)據(jù) 確定為數(shù)值才能進(jìn)行比較分桶，所以只能和 2.1 介紹的 numeric_column 一起組合使用。接口一起組合使用在 feature_column 處理接口中是非常常見的。

這里我們要更詳細(xì) 的贅述一下： bucketized_column ?返回的是和 boundaries 維度大小相同的 onehot 數(shù)組。數(shù)值落在哪個(gè)區(qū)間，則那個(gè)維度的取值為 1，其他維度為0 。

拿到了 onehot 之后，當(dāng)然我們后邊也可以在接入 embeding_column 得到 embeding之后，通過 DenseFeatures 將具體的 embeding 展示出來。這里沒有接入 embeding_column 而直接接了 DenseFeatures ，所以返回的是 onehot 。

(2.3) ?categorical_column_with_identity

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 import?tensorflow?as?tf features?=?{'video_id':?tf.sparse.from_dense([[2,?85,?0,?0,?0],[33,78,?2,?73,?1]])} video_id?=?tf.feature_column.categorical_column_with_identity( ??????key='video_id',?num_buckets=100,default_value=0) #?說明?sparse?tensor?可以直接傳入categorical_column_with_identity? #?后面直接接入?embedinig? columns?=?[tf.feature_column.embedding_column(video_id,?9)] input_layer?=?tf.keras.layers.DenseFeatures(columns) dense_tensor?=?input_layer(features) print(dense_tensor)

categorical_column_with_identity 可以返回 onehot 數(shù)據(jù)，我們使用 dd=tf.feature_column.indicator_column(video_id) 將 dd 塞入 DenseFeatures 中查看。這里是序列數(shù)據(jù)，所以返回的是 multI hot 形式 的數(shù)據(jù)。這個(gè) 接口使用的非常廣泛， identity 屬于直接類型，無需映射，直接輸入類別。

這里我們可以看到 tf.sparse.from_dense 是將輸入的 ?dense 數(shù)據(jù) 轉(zhuǎn)成了 sparse tensor 的格式。我們知道：sparse 和 dense 其實(shí)描述的是同一份數(shù)據(jù),只是用的是不同的形式。

從上面的代碼我們也可以看出：sparse tensor 可以直接傳入categorical_column_with_identity 。這就非常強(qiáng)大了，因?yàn)?我們?cè)?很多時(shí)候用 tf.string_split() 返回的就是 sparse tensor 的格式，這樣我們就可以處理 變長(zhǎng)字符串 了。用 tf.string_split() 切割字符串，然后扔進(jìn)categorical_column_with_identity ，后面再接入 embeding_column 拿到 embedinig ，這數(shù)據(jù)不是處理的 一氣呵成，非常絲滑 嗎～

同時(shí) sparse tensor 數(shù)據(jù)也可以直接接入 tf.keras.embeding 哦，非常好用哦?。?！

(2.4) categorical_column_with_hash_bucket

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 hash_word?=?tf.feature_column.embedding_column( ????????tf.feature_column.categorical_column_with_hash_bucket(key='adid', ????????hash_bucket_size=100,?dtype=tf.dtypes.string),4) feature_dict?=?{"adid":?["20",?"127",?"51",?"3"]} feature_layer?=?tf.keras.layers.DenseFeatures(hash_word) output?=?feature_layer(feature_dict) print(output) #?在這里將?embedding_column?換成?indicator_column?列將能看到返回的是?onthot??

這個(gè) 接口 ?應(yīng)該是 算法工程師們 使用的最多的接口了，顧名思義，將類別id類的 特征hash數(shù)值化 。在這里 tf.feature_column.categorical_column_with_hash_bucket 返回的是 onehot 或則 sparse tensor 。onehot 或則 sparse tensor 在這里并沒有嚴(yán)格的區(qū)分，均可以打印出來查看格式。本事例中，output 最后輸出embeding 長(zhǎng)這樣：

這些接口中，不帶 sequences開頭 的接口，一般都是使用單列特征定長(zhǎng) 的使用，并且大多數(shù)時(shí)候 一列特征都是一個(gè)取值。categorical_column_with_hash_bucket 這個(gè)接口比較強(qiáng)大的一個(gè) 功能就是他也可以處理 多個(gè)取值的 multi hot 的類別特征，或則稱為 序列特征。我們可以使用下面的代碼來進(jìn)行驗(yàn)證：

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 hash_word?=?tf.feature_column.indicator_column( ????????tf.feature_column.categorical_column_with_hash_bucket(key='id', ????????hash_bucket_size=10,?dtype=tf.dtypes.string)) feature_dict?=?{"id":?[["20","21"],["127","128"]?,["51",'52'],?["3","4"]]} feature_layer?=?tf.keras.layers.DenseFeatures(hash_word) output?=?feature_layer(feature_dict) print(output) #?在這里將?indicator_column??換成embedding_column??列將能看到返回的是和?onehot?一樣格式embeding?.

這里，我們直接使用 indicator_column 返回了 categorical_column_with_hash_bucket 處理多取值 list 返回的 ?multi hot ，長(zhǎng)這樣：

在這里將 indicator_column ?換成 ?embedding_column ?列將能看到返回的是和上面事例代碼的單列一個(gè)特征的數(shù)據(jù)一樣格式embeding 。

這里明明 id 里輸入了多個(gè)取值，也返回了 multihot , ?為啥最后返回得 embeding 確是和 onehot 維度一樣呢？原來是因?yàn)椋?embedding_column 默認(rèn)對(duì)多個(gè)取值返回的 embeding 進(jìn)行了combine，默認(rèn)的 combine 方式是 mean.

(2.5) categorical_column_with_vocabulary_file

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 import?tensorflow?as?tf features?=?{'sex':?tf.sparse.from_dense([["male"],["female"]])} sex_col?=?tf.feature_column.categorical_column_with_vocabulary_file( ??????key='sex',?vocabulary_file='./voc.txt',?vocabulary_size=2, ????num_oov_buckets=5) sex_emb=tf.feature_column.embedding_column(sex_col,?4) columns?=?[sex_emb] input_layer?=?tf.keras.layers.DenseFeatures(columns) dense_tensor?=?input_layer(features) print(dense_tensor)

這里除了使用 hash 的方式進(jìn)行 特征取值id化 之外，我們也可以使用 categorical_column_with_vocabulary_file 手動(dòng)的維護(hù) 一個(gè) 字典文件 ，達(dá)到和上文最初介紹的手動(dòng)維護(hù) id索引 的 古老做法 類似的功能。在 voc.txt 字典文件中，我們只要 每一行放入一個(gè)特征的原始取值 即可，這個(gè) 接口會(huì) 自動(dòng) 將原始特征的取值映射成 索引ID ，非常強(qiáng)大哦，在某些場(chǎng)景下，我們還是使用的非常多的。

當(dāng)然，這里的文件路徑不僅可以是單機(jī)版本的 pc路徑，也可以是保存在 大數(shù)據(jù)集群 上的 hdfs路徑 哦。

對(duì)于 feature_column 眾多接口中，以 *_with_vocabulary_file 結(jié)尾的接口，均可以使用這里說明的類似的做法進(jìn)行操作，其他的接口我就不在贅述了。

（2.5） sequence_categorical_column_with_hash_bucket

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 import?tensorflow?as?tf #?定義特征列 click_history_feature_col?=?tf.feature_column.sequence_categorical_column_with_hash_bucket('click_list',?hash_bucket_size=100,?dtype=tf.int64) click_history_embedding_col?=?tf.feature_column.embedding_column(click_history_feature_col,?dimension=16) columns?=?[click_history_embedding_col] #?定義特征層? list_layer?=?tf.keras.experimental.SequenceFeatures(columns) max_len=5 #?對(duì)于每個(gè)特征需要構(gòu)建一個(gè)dict list_dict?=?dict() list_dict["click_list"]=tf.keras.Input(shape=(max_len,),?dtype=tf.int64,name="click_list") #?dict里只有一個(gè)元素，然后可以? sequence_input,?sequence_length=list_layer(list_dict) sequence_length_mask?=?tf.sequence_mask(sequence_length) print("sequence_input:",sequence_input.shape) print("sequence_length_mask:",sequence_length_mask) #?reduce_mean?的時(shí)候，要注意考慮?batch_size?的維度為0，后面第一層括號(hào)的維度為1? embeding_mean?=?tf.reduce_mean(sequence_input,1) print("embeding_mean:",embeding_mean) #接一層全鏈接層? den?=?tf.keras.layers.Dense(10,?activation="relu",?name="dense1")(embeding_mean) model_outputs?=?tf.keras.layers.Dense(1,?activation="sigmoid",?name="final_sigmoid")(den) model?=?tf.keras.Model(inputs=[list_dict["click_list"]],outputs=model_outputs) #?model.summary() model.compile(optimizer='adam',loss="binary_crossentropy",metrics=['accuracy']) model.fit(final_dataset,?epochs=2)

顧名思義，這個(gè)接口是以 sequence_categorical_column_* 開頭的,就是 feature_column 提供的眾多 處理序列特征 的接口中的一個(gè)。序列特征表示特征的取值是一個(gè) list或則 數(shù)組 。

上面的代碼是一個(gè) feature_column 和 tensorflow keras 結(jié)合使用 進(jìn)行特征處理和模型開發(fā) 的完美樣例代碼。對(duì)于這個(gè) 事例，我將 keras 的數(shù)據(jù)讀入也接進(jìn)來了。

中間一個(gè)隱藏的深坑是：使用 tf.keras.Input 和 input_layer 結(jié)合將特征數(shù)據(jù) 進(jìn)行固定形式的處理的時(shí)候，要求 input_layer ?后面跟著的 keras_input 數(shù)據(jù) 必須是一個(gè) 字典類型 。按照上面我提供的 demo 的同樣做法，字典里僅僅放入了一個(gè)字段，然后作為參數(shù)傳遞給特征處理輸入層 input_layer , 他大爺?shù)模羁影。。?！?dāng)初花了老大時(shí)間解決這個(gè)問題，寫到這里希望確實(shí) 可以幫到還在困惑中的老哥，覺得有用就幫忙 關(guān)注轉(zhuǎn)發(fā) 一下吧～

demo 里我們直接接入了上面所說的 final_dataset 的 dataset ，是一個(gè) 相對(duì)完整的工程實(shí)例 。我們通過 batch 數(shù)據(jù)來訓(xùn)練模型，在dataset 的 click_list 列，我輸入的是一個(gè)python 數(shù)組。

這里要注意到是： click_list 我是padding 之后的，填充得最大長(zhǎng)度是 5 , 是 定長(zhǎng)的list .所以這里也是5 , 代碼里是 tf.keras.Input(shape=(max_len,)。

中間部分，我們使用了 tf.keras.experimental.SequenceFeatures 來將 embeding_col 接入網(wǎng)絡(luò)，取代了以前 tensorflow 1.x 系列的 tf.feature_column.sequence_input_layer，和前面開篇的時(shí)候說的是一個(gè)意思。

（2.6） shared_embeddings

在某些場(chǎng)景下，我們也許有多列的 field 的特征需要 **共用一個(gè) shared_embeding&& , feature_column接口下的 shared_embeddings 可以幫助我們實(shí)現(xiàn)。

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 #?tf.enable_eager_execution()? #?在tensorflow?2.x?中需要關(guān)閉eager import?tensorflow?as?tf tf.compat.v1.disable_eager_execution() tf.compat.v1.reset_default_graph() #?特征數(shù)據(jù) features?=?{ ????'department':?['sport',?'good',?'drawing',?'gardening',?'travelling'], ????'display':?['sport',?'yellow',?'light',?'sex',?'bad'], } #?特征列 department_hash?=?tf.feature_column.categorical_column_with_hash_bucket('department',?10,?dtype=tf.string) display_hash=tf.feature_column.categorical_column_with_hash_bucket('display',?10,?dtype=tf.string) #?print(department_hash) columns?=?[department_hash,display_hash] share_columns?=?tf.feature_column.shared_embeddings(columns,?dimension=4,shared_embedding_collection_name="share_embeding") #?這里2個(gè)?ids?共同構(gòu)建了一個(gè)?share?embeding?column,?查找的時(shí)候，使用公共的variable?查找值。 share_input_layer?=?tf.keras.layers.DenseFeatures(share_columns) dense_tensor?=?share_input_layer(features) print(dense_tensor)

這里需要注意的 tensorflow 2.x 使用 shared_embeddings 得話，需要 關(guān)閉 eager 模式，源碼里有說明，應(yīng)該是底層有沖突吧。我們可以使用 tf.compat.v1.disable_eager_execution() 方法關(guān)閉eager 模式。

并且需要注意的一點(diǎn) 是：最后返回的 dense_tensor 得維度，在我們的例子中是：Tensor("dense_features/concat:0", shape=(5, 8), dtype=float32)。

對(duì) 組合成共享embeding 集合的每一個(gè)元素，均返回一個(gè)embeding , 因?yàn)?department_hash 和 display_hash 在batch size 一致，這里均是5，而 8 則是因?yàn)?shared_embeddings 得每一條 embeding 是拼接了 2類得2個(gè) dim =4 的embeding . 用源碼里的解釋是：

返回 embeding 順序和輸入的 categorical_column 時(shí)候 順序致 。

（2.7） crossed_column

@?歡迎關(guān)注作者公眾號(hào)?算法全棧之路 #?這里要求我們輸入特征名稱，而不能是categorical_column_with_hash_bucket，官方解釋說是會(huì)增加沖突。 cross_column?=?tf.feature_column.crossed_column(["department","display"],?100) cross_emb=tf.feature_column.embedding_column(cross_column,?4) #?sparsetensor?直接接入?denseFeatures? cross_input_layer?=?tf.keras.layers.DenseFeatures(cross_emb) dense_tensor?=?cross_input_layer(features) print(dense_tensor)

我們知道單列特征僅僅從一個(gè)維度刻畫用戶，而 交叉特征 則是可以從交叉的多列特征中綜合刻畫用戶行為，例如刻畫情人節(jié) 這個(gè)日期和情趣內(nèi)衣褲的購(gòu)買記錄之間的關(guān)系，是不是更能描述和反映某位美女帥哥對(duì) 某件衣服的購(gòu)買意愿呢。

在 搜廣推算法 的實(shí)際使用場(chǎng)景中，我們會(huì) 遇到 大量的交叉特征 。對(duì)于 交叉特征列，我們可以輸入原始單列特征得到 embeding 之后，使用 embeding 相乘或則對(duì)位乘或則別的什么做法達(dá)到綜合兩個(gè)特征建模的目的，我們也可以在離線使用 spark 進(jìn)行簡(jiǎn)單的 字符串拼接 來達(dá)到 高維離散特征特征交叉 的目的。本文這里介紹了 tensorflow 提供的一種新的解決方案。

feature_column 里提供的特征交叉接口 crossed_column ，看官方介紹是將特征取值之間做了笛卡爾積之后在對(duì) ?組合好的字符串進(jìn)行hash操作，將交叉的操作放在了tensorlfow 自己的特征處理過程中，在大數(shù)據(jù)之后，模型之前。

注意，這個(gè)接口返回的是一個(gè) 交叉特征列類 (_CrossedColumn)，后面依然需要接 indicator 或則 embeding 層輸入后面的模型。這個(gè) 接口最后底層調(diào)用的是 sparse_cross_hashed 這個(gè) 方法做的交叉操作，感興趣的可以去前面提供的源碼地址去一層一層點(diǎn)開看看哦。

本文到這里，本文共介紹了 7種 tensorflow ?feature_column 提供的常用接口，中間也穿插介紹了很多特征處理技巧和踩坑經(jīng)驗(yàn)，具有很高的參考價(jià)值哦。如果你還有問題，歡迎關(guān)注作者的公眾號(hào) 留言一起討論哦～

到這里，機(jī)器學(xué)習(xí)特征處理詳解與 tensorflow feature_column 接口實(shí)戰(zhàn) ?的全文就寫完了。本文代碼每個(gè)模塊均可以獨(dú)立跑成功，中間序列特征處理模塊是一個(gè)完整的 feature_column結(jié)合keras 開發(fā)模型 的優(yōu)秀式例，希望可以對(duì) 你有參考作用～

碼字不易，覺得有收獲就動(dòng)動(dòng)小手轉(zhuǎn)載一下吧，你的支持是我寫下去的最大動(dòng)力～

更多更全更新內(nèi)容，歡迎關(guān)注作者的公眾號(hào)：算法全棧之路

- END -

標(biāo)簽：人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)tensorflow feature_column