最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

還在發(fā)愁無法融入A-soul評論區(qū)嗎?讓AI幫你解決吧!

2021-07-12 19:18 作者:夢或一生  | 我要投稿

女子虛擬偶像團A-soul因為特殊的發(fā)展情況,造就了如今以男性粉絲為核心,多亞文化圈子融合的新類型粉絲群體。所以其評論區(qū)更是被稱為網絡的亞文化巴別塔,在評論區(qū)中的大家雜糅著不同的亞文化梗,網絡新潮詞匯和各種各樣的小作文,對此粉絲將其趣稱為”發(fā)病“,但將這些發(fā)病的評論逐字逐句的拆開,其核心又是對五個女孩子的愛。

作為一個被《嘉然小姐的狗》這篇小作文吸引入坑的au,我一直喜歡asoul評論區(qū)這種神奇有趣的氛圍,所以我產生了利用深度學習模型對asoul進行語言模型構建的想法,計劃利用一個簡化的GPT模型,用asoul評論區(qū)的評論進行語言生成模型的訓練。

評論區(qū)爬取

經過簡單的分析,我初步確定了自己爬取評論區(qū)的思路:先爬取asoul相關的up發(fā)布視頻的bv號,再對每個bv號的評論區(qū)進行評論爬取,數(shù)據(jù)保存。

考慮到評論數(shù)據(jù)的分布特點,在這里我選擇主要爬取A-soul五個女孩子(嘉然,晚晚,乃琳,貝拉,珈樂)和A-soul錄播robot賈布的評論區(qū)。

在爬蟲技術上,由于技術力的限制,所以采用selenium進行數(shù)據(jù)爬取。

利用Edge瀏覽器進行模擬登錄,爬取數(shù)據(jù)

確定up視頻頁面中bv號的位置并進行爬取保存

同時需要進行翻頁以確保所有bv號被爬取

完成bv號的爬取之后,需要對每個視頻下的評論進行爬取,思路與上面相同,需要找到評論的位置,但同時需要注意b站的評論出現(xiàn)機制是需要不斷在頁面下拉然后反饋顯示的,所以需要定義下拉函數(shù)

同時考慮到爬取的效率問題,所以利用multiprocessing進行多線程爬取

經過上述的流程就可以獲得asoul評論區(qū)的一部分評論數(shù)據(jù)總量大概13M,部分數(shù)據(jù)如:

樂華12周年有粉絲錄視頻的活動,長的像個人au速去錄一下
貝極星:高雅這塊贏太多了??拉姐 :勇敢牛牛
拉姐的評論區(qū)太正常了吧,果然貝極星在發(fā)病這塊屁用沒有????
貝極星先看完視頻再評論!拒絕擺爛!??
拉姐??今天在各種地方臊皮影流一天了??容我zqsg一波吧,我真的好喜歡你啊拉姐,要永遠快樂下去????
@柯潔
7.2我認識了一個女孩,我們聊理想,聊未來,從天南海北聊到柴米油鹽,我們聊到很晚,互道晚安之后結束了一天的閑聊。7.3我給她推薦了貝拉的切片,我被拉黑了,我很苦惱,她給我發(fā)的最后一句話是二次元真惡心。7.4她把我加回來,問我還有嗎,我很高興,和她聊了一天的貝拉。7.5她又把我拉黑了說怕貝拉誤會
很奇怪,為什么拉姐才21w關注,另外的14e呢,都不用手機的嗎

數(shù)據(jù)處理與分析

對爬取的評論進行簡單的數(shù)據(jù)清洗(主要去除英文、標點和表情)和簡繁體轉換,之后利用jieba分詞進行分詞,同時添加A-Soul關鍵分詞如:嘉然,然然,鼠鼠,晚晚,嘉心糖,貝極星,頂碗人等。同時創(chuàng)建字典,可以簡單看一下Asoul評論區(qū)的高頻詞:

{'嘉然': 14942, '然然': 12531, '乃琳': 12495, '貝拉': 10340, '晚晚': 8917, '喜歡': 8118, '直播': 7675, '真的': 6892, '向晚': 5417, '珈樂': 4957, '可愛': 4812, '工具人': 4487, '小姐': 4415,'評論': 4197, '拉姐': 3563, '彈幕': 3140, '感覺': 3090, '嘉心糖': 2869, '視頻': 2600, '粉絲': 2353}

ASoul評論區(qū)詞頻統(tǒng)計
200高頻詞詞云

需要說明一下,這個詞頻統(tǒng)計是去除了停用詞和篩選了字數(shù)大于1的詞之后的結果(生成式模型訓練時不能去除停用詞),這是為了去除如:了,的,哈,這樣沒有意義但卻大量出現(xiàn)的干擾項。

確定好數(shù)據(jù)字典后,就可以將原本的評論語句中的詞替換為對應的one-hot向量模式,以便于后續(xù)的模型輸入和訓練。

['別', '勇敢', '牛牛', '了', '求', '你', '了', '拉姐']

[1, 1186, 22, 23, 20, 1627, 52, 20, 21, 2]

最后利用Dataset進行封裝,并將不同長度的評論都對齊到長度為50(電腦性能限制不能設再大了)

深度學習訓練

利用以Transformer的解碼器部分為核心的GPT-2模型為基礎的語言生成模型進行數(shù)據(jù)的訓練。不過受限于電腦GPU性能,所以只能采用更小的參數(shù)進行模型訓練,最終訓練出來的模型大小為147M左右

Loss下降曲線

生成效果

生成部分我采用隨機地在生成概率較大的幾個詞中選擇作為輸出,這樣可以有效的避免出現(xiàn)重復詞的現(xiàn)象。

生成效果較好的句子展示:

以:我喜歡 開頭

生成:我 喜歡 你 不 懂 為什么 為什么 為什么 不是 我 只是 一個 女孩 我 心里 還是 第一次 追星 和 我 真的 是 一個 女孩 琳 卻 無法 擺脫 的 原因 找到 一個 太陽 的 人 因為 你 是 奔 在 路邊 的 光

以:乃琳 開頭

生成: 乃琳 說 乃琳 我 的 我 我 好 我 哭 了 我 喜歡 的 世界 上 最 美好 的 一天 從 看到 我 才 發(fā)現(xiàn) 原來 我 的 眼里 只有 嘉然 她 就 可以 去 了 我 覺得 自己 也 沒有 什么 都 沒 必要 討厭 對線 沒有 我

以: 珈樂 開頭

生成:珈樂 愛情 海里 是 向晚 貝拉

生成:珈樂 紅色 高跟鞋 馬上 溜 一遍

以: 害羞小向晚 開頭

生成:?害羞 小 向晚 貝拉 我 的 樂 你 沒有 你 我 我 可 怎么辦 呀 我 的

生成: 害羞 小 向晚 嘉然 我 的 然然 然然 然然 嘿嘿 嘿嘿 然然 我 的 然然

以: 嘉然 開頭

生成:嘉然 的 名字 不 知道 嗎 我 要 吧 我 要 紫砂 對不起

生成:?嘉然 小姐 對不起 對不起 啊

生成:?嘉然 我 好 喜歡 你 然然 我 走 吧 帶 我們 一起 走

以: 貝拉 開頭

生成:貝拉 我 的 我 真的 好 喜歡 你 啊 你 帶 我們 一起 睡 啊

以: 向晚 開頭

生成:?向晚 是 最 喜歡 我 喜歡?的 然然 然然 我 綠 我 綠 了?


可以看到生成的噪聲較大,無意義的詞生成較多,這個原因來自很多方面,除了基本的數(shù)據(jù)量較小,模型參數(shù)不夠大還有很重要的一點是中文分詞構建詞典存在分詞的數(shù)量太多而造成的數(shù)據(jù)稀疏現(xiàn)象,就比如本次在構建詞典時就存在6w+的詞匯,但其中一大部分的詞僅僅出現(xiàn)幾次,這就造成這部分詞反而更像噪聲。

對此我的一個想法是拋棄word級別的模型,而采用char級別的模型進行訓練,這樣可以有效的較低詞典尺寸的大?。?w到5000左右),但這樣無疑是摒棄了分詞所帶來的信息量,而將其完全扔給模型進行信息提取,之后可能會進一步實現(xiàn)自己的想法。

寫在最后的話

在我看來,A-soul是一個有趣的、高技術力的虛擬偶像企劃,其帶給了我很多歡樂。由衷的希望ASoul可以越辦越好,嘉門。


還在發(fā)愁無法融入A-soul評論區(qū)嗎?讓AI幫你解決吧!的評論 (共 條)

分享到微博請遵守國家法律
长泰县| 夏邑县| 香格里拉县| 安陆市| 临沧市| 祁门县| 龙南县| 天峻县| 黔南| 丰城市| 晋州市| 和林格尔县| 桂阳县| 五台县| 金平| 阿拉善左旗| 汾阳市| 荃湾区| 合江县| 湘潭县| 德安县| 尼玛县| 东兰县| 洪江市| 芦山县| 瑞昌市| 普定县| 高陵县| 沙河市| 鄱阳县| 朝阳市| 阳谷县| 崇明县| 崇左市| 军事| 呼伦贝尔市| 济南市| 彭泽县| 八宿县| 南平市| 蕉岭县|