SCI寫作之text2vec包

一起因
起因其實很簡單,就是有時候進(jìn)行SCI寫作的時候沒有辦法找到合適的語句進(jìn)行模仿,那么尋找一個合適的可以用于語料分析的模塊必然是一件十分重要的事情啦(讀萬卷書形成自己的風(fēng)格也是一種方式)。因此,在筆者的尋尋覓覓之下,找到了一個還不錯的語料分析包,下面也分享給大家。PS:這里只是提供一個思路,但是目前看起來,與專業(yè)的寫作輔助平臺還是有不小的差距。也希望有越來越多的大佬能夠分享深度學(xué)習(xí)或者機(jī)器學(xué)習(xí)的方法來幫助SCI小白進(jìn)行科研寫作。
二詳細(xì)介紹
首先,介紹一個python包:text2vec
官方文檔的介紹: text2vec文本向量表征工具,把文本轉(zhuǎn)化為向量矩陣,是文本進(jìn)行計算機(jī)處理的第一步。text2vec實現(xiàn)了Word2Vec、RankBM25、BERT、Sentence-BERT、CoSENT等多種文本表征、文本相似度計算模型,并在文本語義匹配(相似度計算)任務(wù)上比較了各模型的效果。
那么,接下來,筆者就用最簡單的例子來向讀者示例如何使用這一包進(jìn)行語料分析。2.1 運行代碼
需要注意的是,embedder = SentenceModel()這句代碼需要提前下載語料庫。然而,由于國內(nèi)網(wǎng)絡(luò)的限制,我們其實是沒有辦法下載下來的,因此,這里教給大家一個小tip。
Tips: 我們可以在安裝text2vec的安裝目錄下(如筆者安裝的目錄是F:\Postdoc_analysis\Custom_program),找到sentence_model.py文件,將其中的模型搜索目錄修改,即將shibing624/修改為指定的目錄F:\\Postdoc_analysis\\pretrain_model。具體的修改方式如下
原代碼
修改后的代碼
2.2 下載預(yù)訓(xùn)練模型
然后呢,在指定目錄下載好作者已經(jīng)訓(xùn)練好的模型文件。如本模塊的地址就在:https://huggingface.co/shibing624/text2vec-base-chinese
需要注意的是,在該目錄下的所有文件都需要下載(除了那個.gitattributes和README.md文件外)

2.3 運行
之后,就可以快樂的運行起來啦。官方示例的結(jié)果為
2.4 項目地址
該項目的github地址為:https://github.com/shibing624/text2vec需要注意的是本項目的訓(xùn)練基于PyTorch實現(xiàn)的,所以讀者在使用這一項目的時候最好是有個高性能顯卡,從而可以基于GPU運算,否則,語料太大,在CPU下可能需要數(shù)倍到數(shù)十倍時間才能完成運算。
2.6?同類型項目
現(xiàn)在市面上其實也提供了一些可用的工具,用來輔助我們進(jìn)行寫作,比如最常見的就是你輸入一個句子,然后系統(tǒng)返回一個在其他文章中類似的語句,你再對這個語句進(jìn)行修改,從而實現(xiàn)快速寫作的目的(筆者可可以自行搜索)。
三 慣例小結(jié)
其實,會漸漸有種預(yù)感,以后的科研寫作可能更多的可以靠機(jī)器完成,而真正讓我們需要熟練掌握的是說故事的能力與邏輯,而不是著眼于語法等細(xì)節(jié)。當(dāng)然,現(xiàn)在無論是翻譯還是語義相似度識別,仍然無法做到信達(dá)雅的地步,但是不可否認(rèn),機(jī)器已經(jīng)越來越接近這一步了,就從ChatGPT就能夠看出了。
不過,不管怎樣,不能好高騖遠(yuǎn),該看的文獻(xiàn)還是得看,該熟悉語法還是得熟悉(說不定,機(jī)器翻譯的信達(dá)雅還得十幾二十年才能到來呢,而你苦苦等待,換來的可能是機(jī)會的錯失)。
另外,最近有看到一個UP主認(rèn)為AI只是一種炒作,然后用著非常不合理的解釋去理解這一(炒作)現(xiàn)象,讓我覺得哭笑不得。雖然,我也不認(rèn)為通用AI快到來了,但是錯誤的理解趨勢卻會讓部分看視頻的人看不清未來(當(dāng)然。我也看不清,但是不是錯誤的看不清),無法在可能即將到來的趨勢中押對方法,而這,無疑是可以避免的。
本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。
Multi-omics Hammer軟件下載地址:
https://github.com/wangjun258/Multi-omics-Hammer
Multi-omics Visual軟件下載地址:https://github.com/wangjun258/Multi_omics_Visual/releases/tag/Multi_omics_Visual_v1.03
PS:因為本軟件是用python腳本撰寫,調(diào)用了部分依賴包,用戶首次使用需要安裝python以及對應(yīng)的包,安裝之后便可永久使用。
本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。
簡書:WJ的生信小院
公眾號:生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會;5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會,都可以后臺給筆者留言。希望本平臺在進(jìn)行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。
另外,怎么說呢,投幣也可,不強(qiáng)求,但奢求。
四 每日一圖(源自Stable-diffuse創(chuàng)作)

果然,人工智能目前還脫不開智障的地步


