最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

千峰HTML5大前端面授2022年9月Vue3.0-不教胡馬度陰山

2022-11-27 22:30 作者:山觀那恭喜囧昂貴的  | 我要投稿


如何在Azure機(jī)器學(xué)習(xí)中使用詞向量進(jìn)行文本分類
什么是詞向量?

千峰HTML5大前端面授2022年9月Vue3.0

download:https://www.zxit666.com/5638/

我們知道,文檔有單詞和句子,對(duì)它們進(jìn)行建模和分析通常是一項(xiàng)復(fù)雜的任務(wù)。因此,需要將這些文檔轉(zhuǎn)換成單詞向量,以便對(duì)它們進(jìn)行建模。
Waikato知識(shí)分析環(huán)境(WEKA)具有豐富的功能來(lái)構(gòu)建文本數(shù)據(jù)的詞向量。本文將使用從WEKA創(chuàng)建的詞向量,并在Azure機(jī)器學(xué)習(xí)中使用它們,以便建立分類模型。
我們選擇了2000個(gè)流行的IMDB審查數(shù)據(jù)集,它們的分?jǐn)?shù)顯示在WEKA的屏幕上。

共有2000條評(píng)論,其中1000條標(biāo)記為正面,其余1000條標(biāo)記為負(fù)面,如下圖截圖所示。

我們的任務(wù)是找出做出正面或負(fù)面評(píng)價(jià)的關(guān)鍵詞。通過(guò)這種建模,我們將能夠?qū)⑽粗u(píng)論分為正面或負(fù)面類別。
文件加載到WEKA后,需要使用一個(gè)濾鏡,Weka->濾鏡->無(wú)監(jiān)督->屬性-> stringtowordvortant,如下圖所示。


選擇所需的過(guò)濾器后,您需要配置所選的過(guò)濾器。

以下是所選StringToWordVector過(guò)濾器的配置,這樣可以得到不同類型的詞向量。

雖然有許多配置的詞向量過(guò)濾,我們將只使用其中的幾個(gè)。首先,我們將研究利益相關(guān)者、停用詞處理程序、標(biāo)記符和保留詞的數(shù)量,如下圖所示。

標(biāo)簽技術(shù)將決定如何選擇關(guān)鍵詞。當(dāng)選擇了字母符號(hào)時(shí),所有數(shù)字和特殊字符都將被刪除。停用詞配置會(huì)放棄沒(méi)有任何語(yǔ)義的詞,如我、我們、你、a、an、the等。通過(guò)使用lovinsStemmer詞干,單詞將被轉(zhuǎn)換為基本形式。請(qǐng)注意,這些是文本挖掘分析中的經(jīng)典技術(shù)。這些是應(yīng)該在文本文件上實(shí)現(xiàn)的強(qiáng)制性技術(shù)。
除了上述技術(shù),還有一些其他技術(shù)將依賴于數(shù)據(jù)集。這四種配置要用WEKA的不同配置來(lái)驗(yàn)證。
字?jǐn)?shù):輸出字?jǐn)?shù)而不是0或1(表示一個(gè)詞的有無(wú))。
術(shù)語(yǔ)頻率(TF):術(shù)語(yǔ)頻率被轉(zhuǎn)換成對(duì)數(shù)(頻率+1)
反向文檔頻率(IDF):如果同一個(gè)詞在多個(gè)文檔中重復(fù)出現(xiàn),IDF會(huì)降低詞頻計(jì)數(shù)的權(quán)重。
文檔規(guī)范化:該參數(shù)將考慮文檔的大小。
通過(guò)四個(gè)參數(shù),有十六種組合,如下表所示。

創(chuàng)建了16個(gè)文件,這些文件上傳到IMDB | Kaggle的word vectors,配置不同。
現(xiàn)在文件已經(jīng)可以在Azure機(jī)器學(xué)習(xí)中進(jìn)行文本分類了。這十六個(gè)文件全部上傳到Azure機(jī)器學(xué)習(xí)供你使用。

在上傳了16個(gè)數(shù)據(jù)集之后,下一步是Azure機(jī)器學(xué)習(xí)中的文本分類。這將與之前涉及的文本分類相同,如下圖所示。


如上圖所示,Azure機(jī)器學(xué)習(xí)中的文本分類使用了第二個(gè)神經(jīng)網(wǎng)絡(luò)。分割數(shù)據(jù)控件用于以70/30的比例對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,其中使用了訓(xùn)練模型和評(píng)分模型。在評(píng)估模型控制之后。然后連接到“轉(zhuǎn)換為數(shù)據(jù)集”控件。每個(gè)數(shù)據(jù)集建立相似的16個(gè)單元,連接相同的兩種神經(jīng)網(wǎng)絡(luò)算法。
多個(gè)SQL轉(zhuǎn)換控件用于組合數(shù)據(jù)集。

盡管我們可以使用Add Rows控件,但是由于100個(gè)控件的限制,我們使用Apply SQL Transformation控件來(lái)減少控件的數(shù)量。添加行控件只有兩個(gè)輸入,而應(yīng)用SQL轉(zhuǎn)換有三個(gè)輸入。通過(guò)聯(lián)合,我們可以減少控件的數(shù)量。
最后,這是Azure機(jī)器學(xué)習(xí)中文本分類的所有數(shù)據(jù)集及其評(píng)價(jià)參數(shù)的輸出。

從這些組合中,您可以選擇具有最高準(zhǔn)確度或精確度或召回率或F1分?jǐn)?shù)的更好組合。如您所見(jiàn),IDF-True、TF-True、Word Count-False和Document Normalization-False是更好的組合,因?yàn)樗哂凶罡叩臏?zhǔn)確性和最高的精度。
您可以參考參考資料部分列出的共享實(shí)驗(yàn)。由于這是一個(gè)繁瑣的實(shí)驗(yàn),有幾件事需要指出。由于這是Azure機(jī)器學(xué)習(xí)的免費(fèi)版本,你不能使用超過(guò)100個(gè)控件。此外,一個(gè)實(shí)驗(yàn)不能包含超過(guò)100MB的數(shù)據(jù)。由于我們有16個(gè)數(shù)據(jù)集,其大小超過(guò)100MB,所以實(shí)驗(yàn)中刪除了一些數(shù)據(jù)集,您可以從共享數(shù)據(jù)集中重新添加它們。另外,對(duì)于超過(guò)1024的列,SQL轉(zhuǎn)換將不起作用,這是Azure機(jī)器學(xué)習(xí)中文本分類的另一個(gè)阻塞問(wèn)題。
正如在上一篇文章中所討論的,我們可以對(duì)各種配置使用集合分類。因?yàn)闇?zhǔn)確率差不多,所以不需要集合分類。
如果需要標(biāo)記未標(biāo)記文檔,首先需要在WEKA中進(jìn)行必要的參數(shù)轉(zhuǎn)換,然后將這些值輸入Azure機(jī)器學(xué)習(xí)中進(jìn)行查找
結(jié)論
本文討論了如何在WEKA中使用詞向量和不同的文本分析參數(shù),如詞頻、逆向文檔頻率、文檔標(biāo)準(zhǔn)化和字?jǐn)?shù)。我們使用了從WEKA創(chuàng)建的單詞vector,并將其加載到Azure機(jī)器學(xué)習(xí)中。使用標(biāo)準(zhǔn)控件,可以在Azure機(jī)器學(xué)習(xí)中對(duì)文本進(jìn)行分類。免費(fèi)Azure機(jī)器賬號(hào)有一些限制,比如控件的最大數(shù)量。

千峰HTML5大前端面授2022年9月Vue3.0-不教胡馬度陰山的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
察哈| 宁武县| 砀山县| 梅河口市| 铜山县| 丹棱县| 嘉黎县| 定日县| 遂昌县| 泰宁县| 宜丰县| 监利县| 错那县| 开原市| 唐山市| 夏河县| 台江县| 湖北省| 江门市| 凌云县| 中江县| 建湖县| 罗城| 綦江县| 清流县| 普兰县| 高青县| 孟连| 无棣县| 寿宁县| 班玛县| 东平县| 泉州市| 丰宁| 高平市| 陆河县| 德化县| 郯城县| 阿荣旗| 莒南县| 临朐县|