論文查重系統(tǒng)的技術(shù)原理

目前國(guó)內(nèi)外已有多種論文查重系統(tǒng),這些系統(tǒng)的技術(shù)原理相似,均采用自然語(yǔ)言處理技術(shù),以文本數(shù)據(jù)為處理對(duì)象,通過文本相似度算法可以快速、準(zhǔn)確、高效地檢測(cè)目標(biāo)論文與已有文獻(xiàn)的文字重復(fù)情況,為發(fā)現(xiàn)剽竊、一稿多投等學(xué)術(shù)不端行為提供了線索和依據(jù)。查重系統(tǒng)的技術(shù)流程可以分成2個(gè)階段。
?
第一階段:相似度計(jì)算模型構(gòu)建?
首先,建立文獻(xiàn)數(shù)據(jù)庫(kù);
然后,對(duì)數(shù)據(jù)庫(kù)中的各類數(shù)據(jù)進(jìn)行預(yù)處理;
最后,采用特定的相似度算法,提取文本特征,建立比對(duì)特征庫(kù),從而構(gòu)建相似度計(jì)算模型。
?
第二階段:目標(biāo)論文相似度檢測(cè)
首先,對(duì)于待檢測(cè)的目標(biāo)論文進(jìn)行預(yù)處理;
然后,根據(jù)相似度計(jì)算模型,與比對(duì)特征庫(kù)中的特征 數(shù)據(jù)進(jìn)行相似度計(jì)算;
最后,根據(jù)相似度計(jì)算結(jié)果判別重復(fù)內(nèi)容,輸出查重報(bào)告。
?
其中文獻(xiàn)數(shù)據(jù)庫(kù)建立、預(yù)處理、相似度算法、查重報(bào)告輸出等是查重系統(tǒng)的主要內(nèi)容。
?
1)文獻(xiàn)數(shù)據(jù)庫(kù)建立。文獻(xiàn)數(shù)據(jù)庫(kù)涵蓋的文獻(xiàn)和數(shù)據(jù)資源越全面,查重結(jié)果越全面、準(zhǔn)確。
?
2)預(yù)處理。相似度算法的處理對(duì)象是文本數(shù)據(jù),因此查重系統(tǒng)在構(gòu)建相似度計(jì)算模型或?qū)δ繕?biāo)論文進(jìn)行相似度檢測(cè)前,須將文獻(xiàn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)和目標(biāo)論文進(jìn)行文本格式化、數(shù)據(jù)清理、類型標(biāo)記等處理。
?
3)相似度算法?。相似度算法是查重系統(tǒng)的核心,相似度計(jì)算模型構(gòu)建和目標(biāo)論文相似度檢測(cè)都圍繞該 技術(shù)展開。
文本的相似度可以從文字表達(dá)的形式和內(nèi)容2方面衡 量,分為表面文本相似度和語(yǔ)義相似度
①表面文本相似度:僅以比對(duì)文本的字符匹配程度作為相似度的衡量標(biāo)準(zhǔn) 。表面文本相似度算法較為簡(jiǎn)單, 既不考慮詞語(yǔ)本身的含義,也不考慮這些字詞之間的 關(guān)系及其在句子中真實(shí)的含義,因此查重系統(tǒng)一般 不單獨(dú)使用該類算法計(jì)算文本相似度 。
②語(yǔ)義相似度:主要考慮文本內(nèi)在含義的相似程度,相關(guān)算法有基于字符串的方法、基于語(yǔ)料庫(kù)的方法、基于世界知識(shí)的方 法和句法分析方法等。語(yǔ)義相似度算法主要根據(jù)文本在語(yǔ)義上的某些特征或規(guī)律設(shè)計(jì);單一算法一般只根據(jù)一種特征或規(guī)律衡量相似度,具有一定的局限,因此查重系統(tǒng)通常綜合多種算法來計(jì)算文本相似度。
在目標(biāo)論文相似度檢測(cè)階段,查重系統(tǒng)通過已構(gòu)建的相似度計(jì)算模型,計(jì)算預(yù)處理后的目標(biāo)論文與比 對(duì)特征庫(kù)中的特征數(shù)據(jù)之間的相似程度,得到一個(gè)量化數(shù)值,即相似度。一般只要目標(biāo)論文與比對(duì)文獻(xiàn)的 相似度在句子語(yǔ)義級(jí)別達(dá)到一定閾值,就會(huì)被判別為重復(fù)。
?
4)查重報(bào)告輸出。查重系統(tǒng)對(duì)目標(biāo)論文的所有主體內(nèi)容與比對(duì)特征庫(kù)進(jìn)行相似度計(jì)算,判別重復(fù)內(nèi)容,然后統(tǒng)計(jì)重復(fù)情況,創(chuàng)建查重報(bào)告。
論文查重降重綜合平臺(tái):checkvvip.com?
(checkvvip論文查重系統(tǒng)有萬(wàn)方、維普、源文鑒、Turnitin、iThenticate、早降重等十多個(gè)系統(tǒng),官方授權(quán),權(quán)威檢測(cè)?。?/p>