最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

52 文本預(yù)處理【動手學(xué)深度學(xué)習(xí)v2】

2022-04-12 11:13 作者:如果我是泡橘子  | 我要投稿

文本預(yù)處理


  • 序列數(shù)據(jù)往往存在多種形式,文本是其中常見的形式之一,例如一篇文章可以被簡單地看作是一串單詞序列,甚至是一串字符序列
  • 將文本當(dāng)做時序序列,將文本中的字或者字符、詞當(dāng)成樣本,樣本之間是存在時序信息的,因此文本是一個很長的時序序列
  • 文本預(yù)處理的核心思想是如何將文本中的詞轉(zhuǎn)化成能夠訓(xùn)練的樣本


常見的文本預(yù)處理步驟


1、讀取數(shù)據(jù)集:將文本作為字符串加載到內(nèi)存中


  • 將數(shù)據(jù)集讀取到由多條文本行組成的列表中,其中每一條文本行都是一個字符串
  • 將非大小寫字符全部變成空格(這雖然是一種有損的操作,但是能夠使后續(xù)的操作變得更加簡單)
  • 去掉回車
  • 將所有字母全部變成小寫



2、詞元化:將字符串拆分為詞元(如單詞和字符)


  • tokenize 是 NLP 中一個比較常見的操作:將一個句子或者是一段文字轉(zhuǎn)化成 token(字符串、字符或者是詞)
  • 將文本行列表( lines )作為輸入,列表中的每個元素都是一個文本序列(比如一條文本行)
  • 將每個文本序列拆分成一個詞元列表,詞元( token,英文中 token 一般有兩種表示單元:一種是一個作為一個基本單元,詞相對來說,會讓機(jī)器學(xué)習(xí)的模型更簡單一點;一種是一個字符串作為一個基本單元,好處是樣本數(shù)量比較少,壞處是還需要學(xué)習(xí)字符串的構(gòu)成,字符串是如何由詞構(gòu)成的)是文本的基本單位
  • 中文的話會有所不同,因為在中文的段落中,詞與詞之間的間隔不是使用空格來進(jìn)行間隔的,所以在中文中如果想使用詞來表示 token 的話,還需要對其進(jìn)行分詞,分詞相對來講不是很容易
  • 通過拆分,文本序列就被拆分成了許多 token 列表,這些列表要么是空,要么是有許多 token 在其中
  • 最后返回一個由詞元列表組成的列表,其中每個詞元都是一個字符串( string )



3、建立詞表,將拆分的詞元映射到數(shù)字索引:將文本轉(zhuǎn)換為數(shù)字索引序列,方便模型操作


  • 詞元的類型是字符串,而模型需要的輸入是數(shù)字(模型訓(xùn)練使用的都是 tensor ,而 tensor 都是基于下標(biāo)的),因此這種類型不方便模型使用,所以需要構(gòu)建一個字典,通常也叫做詞匯表(vocabulary),用來將字符串類型的 token (要么是 word ,要么是 char )映射到從 0 開始的數(shù)字索引中
  • 首先將訓(xùn)練集中所有的文檔合并到一起,然后對它們的唯一詞元進(jìn)行統(tǒng)計,得到最終的統(tǒng)計結(jié)果 -- 語料( corpus )
  • 然后根據(jù)每個唯一詞元的出現(xiàn)頻率,為其分配一個數(shù)字索引,對于出現(xiàn)次數(shù)較少的詞元,通常會被移除,以降低復(fù)雜性(min_freq:在 NLP 中,有很多詞是不出現(xiàn)的,如果使用詞的話,這些詞可能在文本中就出現(xiàn)了幾次,在這種情況下如果要進(jìn)行訓(xùn)練的話可能比較困難,這里的 min_freq 指的是一個 token 在文本序列中出現(xiàn)的最少次數(shù),如果少于這個數(shù)字的話,會將這些出現(xiàn)頻率較低的 token 全部視為 “unknown”)
  • 語料庫中不存在或者是已刪除的任何詞元都將映射到一個特定的未知詞元 “<unk>”
  • 還可以選擇增加一個列表,用于保存保留下來的詞元,比如填充詞元( “<pad>” );序列開始詞元( “<bos>” );序列結(jié)束詞元( “<eos>” )



小結(jié)


解析文本的常見預(yù)處理步驟


  1. 將文本作為字符串加載到內(nèi)存中
  2. 將字符串拆分為詞元(如單詞和字符)
  3. 建立一個詞表,將拆分的詞元映射到數(shù)字索引
  4. 將文本轉(zhuǎn)換為數(shù)字索引序列,方便模型操作





總結(jié)


  • 文本是序列數(shù)據(jù)的一種常見的形式之一
  • 問了對文本進(jìn)行預(yù)處理,通常將文本拆分為詞元,構(gòu)建詞表將詞元字符串映射為數(shù)字索引,并將文本數(shù)據(jù)轉(zhuǎn)換為詞元索引以供模型操作





Q&A


  • 1、現(xiàn)在中文分詞有沒有做得比較好的開源的 lib 可以用?
    ?
    QA P2 - 00:01
    ?


  • 2、vocabulary 里對 unique token 按frequency 的排序不是必要的吧?只要保證一個 unique token 對應(yīng)一個 unique index
    ?
    QA P2 - 00:22
    ?





----end----

其他參考

1、https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html

52 文本預(yù)處理【動手學(xué)深度學(xué)習(xí)v2】的評論 (共 條)

分享到微博請遵守國家法律
桦甸市| 育儿| 防城港市| 阿图什市| 平定县| 岫岩| 蒙山县| 安远县| 黄浦区| 偃师市| 民勤县| 博客| 马鞍山市| 台东市| 宁安市| 阜平县| 句容市| 永济市| 彰化县| 乌海市| 博爱县| 安宁市| 航空| 资中县| 白沙| 洛南县| 余干县| 稷山县| 高要市| 商丘市| 黄大仙区| 阳山县| 沂南县| 泰安市| 尉氏县| 右玉县| 育儿| 吉林市| 儋州市| 滕州市| 拉萨市|