一種文本相似性比對(duì)方法與流程

文檔序號(hào)：11620541閱讀：345來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)作品比對(duì)技術(shù)領(lǐng)域，尤其涉及一種文本相似性比對(duì)方法。

背景技術(shù)：

目前，隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展，網(wǎng)絡(luò)作品的傳播速度越來(lái)越快，傳播范圍越來(lái)越廣泛，對(duì)網(wǎng)絡(luò)作品的侵權(quán)行為也越來(lái)越多，為了解決通過(guò)網(wǎng)絡(luò)發(fā)生的作品侵權(quán)行為，可以使用網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)對(duì)作品進(jìn)行監(jiān)測(cè)追蹤。

在追蹤的過(guò)程中，主要是使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)，首先從互聯(lián)網(wǎng)上抓取作品，然后與網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)的作品庫(kù)中存儲(chǔ)的作品進(jìn)行內(nèi)容相似性比對(duì)，從而確認(rèn)網(wǎng)絡(luò)作品是否為侵權(quán)作品。

其中，網(wǎng)絡(luò)爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人，在foaf社區(qū)中間，更經(jīng)常被稱(chēng)為網(wǎng)頁(yè)追逐者)，是一種按照一定的規(guī)則，自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本，已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲(chóng)抓取web網(wǎng)頁(yè)、文檔甚至圖片、音頻、視頻等資源，通過(guò)相應(yīng)的索引技術(shù)組織這些信息，提供給搜索用戶進(jìn)行查詢(xún)。隨著網(wǎng)絡(luò)的迅速發(fā)展，不斷優(yōu)化的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)正在有效地應(yīng)對(duì)各種挑戰(zhàn)，為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。網(wǎng)絡(luò)爬蟲(chóng)也為中小站點(diǎn)的推廣提供了有效的途徑。

而在進(jìn)行內(nèi)容相似性比對(duì)時(shí)，由于作品庫(kù)中有上千萬(wàn)的作品，網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)從互聯(lián)網(wǎng)上抓取的作品數(shù)量更是作品庫(kù)中作品數(shù)量的幾百倍以上，因此，兩兩相比的次數(shù)龐大，工作量大，效率及準(zhǔn)確率均比較低。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種文本相似性比對(duì)方法，從而解決現(xiàn)有技術(shù)中存在的前述問(wèn)題。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

一種文本相似性比對(duì)方法，包括如下步驟：

s1，以文檔為粗粒度，根據(jù)詞的淺層次相似度從注冊(cè)作品庫(kù)中篩選出相似度最大的n個(gè)作品形成候選作品集，其中，n為自然數(shù)；

s2，對(duì)所述候選作品集中的每個(gè)作品進(jìn)行文本分段，得到分段文本；

s3，以所述分段文本為細(xì)粒度，進(jìn)行文本細(xì)粒度相似度比對(duì)。

進(jìn)一步地，s1之前還包括步驟s0：對(duì)所述文檔進(jìn)行分詞和詞性標(biāo)注。

進(jìn)一步地，s0和s1之間還包括步驟：對(duì)所述分詞進(jìn)行過(guò)濾處理。

優(yōu)選地，所述對(duì)所述分詞進(jìn)行過(guò)濾處理，采用插件式過(guò)濾鏈，所述插件式過(guò)濾鏈包括停用詞過(guò)濾器和/或同義詞過(guò)濾器。

優(yōu)選地，s1中，所述詞的淺層次相似度，采用如下公式進(jìn)行計(jì)算：

sim(d1,d2)＝count(d1∩d2)/(count(d1)+count(d2))，

式中，

d＝{w1,w2,w3…}表示文檔，

wi表示文檔d中的詞，

d1∩d2表示文檔d1、d2中詞的交集，

count(di)表示文檔di中詞的個(gè)數(shù)。

優(yōu)選地，s2中，所述文本分段包括如下方式：以段落分段、以一定數(shù)量的字詞分段或以句子分段。

優(yōu)選地，s3中所述文本細(xì)粒度相似度由：基于句子的淺層相似度、信息熵相似度和淺語(yǔ)義相似度組成和計(jì)算得到，具體地，

當(dāng)所述基于句子的淺層相似度，采用如下公式進(jìn)行計(jì)算：

simsha(s1，s2)＝count(s1∩s2)/(count(s1)+count(s2))，

式中，

simsha(s1，s2)表示基于句子的淺層相似度，

s＝{w1,w2,w3…}表示句子，

wi表示句子s中的詞，

s1∩s2表示句子s1、s2中詞的交集，

count(si)表示句子si中詞的個(gè)數(shù)；

當(dāng)所述信息熵相似度，采用如下公式進(jìn)行計(jì)算：

siment(s1，s2)＝∑(e(wi)),e(w)＝log(n/n),

式中，

siment(s1，s2)表示信息熵相似度，

s＝{w1,w2,w3…}表示句子，

wi∈s1∩s2，

s1∩s2表示句子s1、s2中詞的交集，

n表示候選文檔集中句子的總數(shù)，

n表示包含詞w的句子數(shù)；

當(dāng)所述淺語(yǔ)義相似度，包括詞義相似度、句子語(yǔ)義相似度和句子細(xì)粒度相似度，

其中，詞義相似度采用如下公式進(jìn)行計(jì)算：

simsemw(w1，w2)＝f(simlex(w1，w2)，simpos(w1，w2)，simcon(w1，w2))＝simlex(w1，w2)·simpos(w1，w2)·simcon(w1，w2)，

式中，

simsemw(w1，w2)表示詞義相似度，

simlex(w1，w2)、simpos(w1，w2)、simcon(w1，w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度，

simlex(w1，w2)是詞w1和w2對(duì)應(yīng)的義原在義原樹(shù)上的距離；

simpos(w1，w2)取值：當(dāng)w1與w2詞性相同時(shí)，取值為1；當(dāng)w1與w2詞性不相同時(shí)，取值為0；

simcon(w1，w2)＝abs(pos1/n1-pos2/n2)，其中，pos1、pos2分別是w1、w2在相應(yīng)句中的位置，n1、n2是w1、w2所在句子的長(zhǎng)度；

句子語(yǔ)義相似度采用如下公式進(jìn)行計(jì)算：

simsems(s1，s2)＝2·∑0≤i＜len(s1)argmax{simsemw(wi，wj):0≤j＜len(s2)}/(len(s1)+len(s2))，

式中，

simsems(s1，s2)表示句子語(yǔ)義相似度，

argmax表示尋找具有最大評(píng)分的參量，函數(shù)argmax{f(x,y):x∈x}，表示x∈x，使f(x,y)達(dá)到最大值時(shí)的取值，

len(s)是句子s的長(zhǎng)度，即詞語(yǔ)個(gè)數(shù)；

則，所述句子細(xì)粒度相似度采用如下公式進(jìn)行計(jì)算：

similarity(s1，s2)

＝α·simsha(s1，s2)+β·siment(s1，s2)+γ·simsems(s1，s2)

式中，

α、β、γ為權(quán)值參數(shù)，且α+β+γ＝1；

假設(shè)所述分段文本為句子，則所述文本細(xì)粒度相似度為：

similarity(d1，d2)＝∑wk·segsimilarity(sk，sj)，

segsimilarity(sk，sj)＝max(similarity(sk，si))，

其中，

similarity(d1，d2)表示文本細(xì)粒度相似度，

similarity(sk，si)表示句子細(xì)粒度相似度，

sk是第一文檔中的句子，si是第二文檔中的句子，1≤i≤n2，n2為第二文檔中中句子數(shù)，j是第二文檔中similarity(sk，si)取得最大值時(shí)的i值，

wk是與sk相關(guān)的權(quán)重，一般可以簡(jiǎn)化為1/n，n是文檔的句子總數(shù)。

本發(fā)明的有益效果是：本發(fā)明實(shí)施例中，文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu)，在比對(duì)算法上采用多粒度分層算法，包括以文檔為粗粒度的相似度比對(duì)，以及以分段文本為細(xì)粒度的相似度比對(duì)，從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡，實(shí)現(xiàn)了如下的性能指標(biāo)：在構(gòu)建的測(cè)試數(shù)據(jù)上，平均漏警率和虛警率≤10％，比對(duì)響應(yīng)時(shí)間≤0.1秒。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例提供的文本相似性比對(duì)方法的流程示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施方式僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)監(jiān)測(cè)追蹤的是文字類(lèi)數(shù)字作品，因此，作品內(nèi)容相似性比對(duì)技術(shù)方案是針對(duì)文本內(nèi)容的。文本比對(duì)是針對(duì)數(shù)據(jù)處理后的純文本內(nèi)容進(jìn)行。比對(duì)系統(tǒng)的架構(gòu)設(shè)計(jì)和比對(duì)算法的設(shè)計(jì)對(duì)整個(gè)追蹤平臺(tái)的效率有很大影響。

本發(fā)明實(shí)施例中，文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu)，在比對(duì)算法上采用多粒度分層算法。

具體地，首先使用文本分析調(diào)度器將需要做文本內(nèi)容相似度分析的網(wǎng)絡(luò)作品比對(duì)任務(wù)均衡地分配給多個(gè)文本分析器，并監(jiān)測(cè)文本分析器的狀態(tài)；然后，在文本分析器中，采用多粒度分層算法進(jìn)行文檔內(nèi)容相似性比對(duì)。

如圖1所示，本發(fā)明實(shí)施例提供了一種文本相似性比對(duì)方法，包括如下步驟：

s1，以文檔為粗粒度，根據(jù)詞的淺層次相似度從注冊(cè)作品庫(kù)中篩選出相似度最大的n個(gè)作品形成候選作品集，其中，n為自然數(shù)；

s2，對(duì)所述候選作品集中的每個(gè)作品進(jìn)行文本分段，得到分段文本；

s3，以所述分段文本為細(xì)粒度，進(jìn)行文本細(xì)粒度相似度比對(duì)。

其中，粗粒度相似度比對(duì)是以整個(gè)文檔為單位，基于詞的表層特征來(lái)進(jìn)行相似度計(jì)算，從海量的注冊(cè)作品庫(kù)中篩選出最相似的n個(gè)作品來(lái)做后續(xù)細(xì)粒度的比對(duì)。

文本分段是在更小粒度上進(jìn)行相似度比對(duì)的前提，因此，在進(jìn)行細(xì)粒度相似度比對(duì)之前，首先需要對(duì)文本進(jìn)行分段，將分段文本作為細(xì)粒度。

細(xì)粒度相似度的比對(duì)，采用基于句子的淺層相似度(segshallowsimilarity)、信息熵相似度(segentropysimilarity)和淺語(yǔ)義相似度(segsemanticsimilarity)組合而成。

在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，s1之前還可以包括步驟s0：對(duì)所述文檔進(jìn)行分詞和詞性標(biāo)注。

s0和s1之間還包括步驟：對(duì)所述分詞進(jìn)行過(guò)濾處理。

所述對(duì)所述分詞進(jìn)行過(guò)濾處理，采用插件式過(guò)濾鏈，所述插件式過(guò)濾鏈包括停用詞過(guò)濾器和/或同義詞過(guò)濾器。

算法是以詞為文本的特征表示項(xiàng)，因此對(duì)于中文文本需要對(duì)內(nèi)容進(jìn)行分詞和詞性標(biāo)注；為了減少不重要詞對(duì)準(zhǔn)確性和系統(tǒng)性能的影響，可以對(duì)這些分詞進(jìn)行過(guò)濾處理，系統(tǒng)對(duì)分詞進(jìn)行過(guò)濾處理可以采用插件式的過(guò)濾鏈，所述插件式過(guò)濾鏈可以包括停用詞過(guò)濾器和/或同義詞過(guò)濾器

本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，s1中，所述詞的淺層次相似度，可以采用如下公式進(jìn)行計(jì)算：

sim(d1,d2)＝count(d1∩d2)/(count(d1)+count(d2))，

式中，

d＝{w1,w2,w3…}表示文檔，

wi表示文檔d中的詞，

d1∩d2表示文檔d1、d2中詞的交集，

count(di)表示文檔di中詞的個(gè)數(shù)。

在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，s2中，所述文本分段包括如下方式：以段落分段、以一定數(shù)量的字詞分段或以句子分段。

分段方式不一樣，其分段的粒度也不一樣，可以以文檔的段落分段，也可以按一定數(shù)量的字詞固定分段，也可以句子分段。

在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，可以以句子(以句號(hào)作為句子結(jié)束標(biāo)志)為分段單位，也就是說(shuō)，細(xì)粒度的相似度比對(duì)是以句子為單位，以詞為特征表示。

在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，s3中所述文本細(xì)粒度相似度由：基于句子的淺層相似度、信息熵相似度和淺語(yǔ)義相似度組成和計(jì)算得到，具體地，

當(dāng)所述基于句子的淺層相似度，采用如下公式進(jìn)行計(jì)算：

simsha(s1，s2)＝count(s1∩s2)/(count(s1)+count(s2))，

式中，

simsha(s1，s2)表示基于句子的淺層相似度，

s＝{w1,w2,w3…}表示句子，

wi表示句子s中的詞，

s1∩s2表示句子s1、s2中詞的交集，

count(si)表示句子si中詞的個(gè)數(shù)；

當(dāng)所述信息熵相似度，采用如下公式進(jìn)行計(jì)算：

siment(s1，s2)＝∑(e(wi)),e(w)＝log(n/n),

式中，

siment(s1，s2)表示信息熵相似度，

s＝{w1,w2,w3…}表示句子，

wi∈s1∩s2，

s1∩s2表示句子s1、s2中詞的交集，

n表示候選文檔集中句子的總數(shù)，

n表示包含詞w的句子數(shù)；

當(dāng)所述淺語(yǔ)義相似度，包括詞義相似度、句子語(yǔ)義相似度和句子細(xì)粒度相似度，

其中，詞義相似度采用如下公式進(jìn)行計(jì)算：

simsemw(w1，w2)＝f(simlex(w1，w2)，simpos(w1，w2)，simcon(w1，w2))＝simlex(w1，w2)·simpos(w1，w2)·simcon(w1，w2)，式中，

simsemw(w1，w2)表示詞義相似度，

simlex(w1，w2)、simpos(w1，w2)、simcon(w1，w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度，

simlex(w1，w2)是詞w1和w2對(duì)應(yīng)的義原在義原樹(shù)上的距離；

simpos(w1，w2)取值：當(dāng)w1與w2詞性相同時(shí)，取值為1；當(dāng)w1與w2詞性不相同時(shí)，取值為0；

simcon(w1，w2)＝abs(pos1/n1-pos2/n2)，其中，pos1、pos2分別是w1、w2在相應(yīng)句中的位置，n1、n2是w1、w2所在句子的長(zhǎng)度；

句子語(yǔ)義相似度采用如下公式進(jìn)行計(jì)算：

simsems(s1，s2)＝2·∑0≤i＜len(s1)argmax{simsemw(wi，wj):0≤j＜len(s2)}/(len(s1)+len(s2))，

式中，

simsems(s1，s2)表示句子語(yǔ)義相似度，

argmax表示尋找具有最大評(píng)分的參量，函數(shù)argmax{f(x,y):x∈x}，表示x∈x，使f(x,y)達(dá)到最大值時(shí)的取值，

len(s)是句子s的長(zhǎng)度，即詞語(yǔ)個(gè)數(shù)；

則，所述句子細(xì)粒度相似度采用如下公式進(jìn)行計(jì)算：

similarity(s1，s2)

＝α·simsha(s1，s2)+β·siment(s1，s2)+γ·simsems(s1，s2)

式中，

α、β、γ為權(quán)值參數(shù)，且α+β+γ＝1；

假設(shè)所述分段文本為句子，則所述文本細(xì)粒度相似度為：

similarity(d1，d2)＝∑wk·segsimilarity(sk，sj)，

segsimilarity(sk，sj)＝max(similarity(sk，si))，

其中，

similarity(d1，d2)表示文本細(xì)粒度相似度，

similarity(sk，si)表示句子細(xì)粒度相似度，

sk是第一文檔中的句子，si是第二文檔中的句子，1≤i≤n2，n2為第二文檔中中句子數(shù)，j是第二文檔中similarity(sk，si)取得最大值時(shí)的i值，

wk是與sk相關(guān)的權(quán)重，一般可以簡(jiǎn)化為1/n，n是文檔的句子總數(shù)。

采用上述本發(fā)明實(shí)施例提供的技術(shù)方案，在構(gòu)建的測(cè)試數(shù)據(jù)上，平均漏警率和虛警率≤10％，比對(duì)響應(yīng)時(shí)間≤0.1秒。

通過(guò)采用本發(fā)明公開(kāi)的上述技術(shù)方案，得到了如下有益的效果：本發(fā)明實(shí)施例中，文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu)，在比對(duì)算法上采用多粒度分層算法，包括以文檔為粗粒度的相似度比對(duì)，以及以分段文本為細(xì)粒度的相似度比對(duì)，從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡，實(shí)現(xiàn)了如下的性能指標(biāo)：在構(gòu)建的測(cè)試數(shù)據(jù)上，平均漏警率和虛警率≤10％，比對(duì)響應(yīng)時(shí)間≤0.1秒。

本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。

本領(lǐng)域人員應(yīng)該理解的是，上述實(shí)施例提供的方法步驟的時(shí)序可根據(jù)實(shí)際情況進(jìn)行適應(yīng)性調(diào)整，也可根據(jù)實(shí)際情況并發(fā)進(jìn)行。

上述實(shí)施例涉及的方法中的全部或部分步驟可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成，所述的程序可以存儲(chǔ)于計(jì)算機(jī)設(shè)備可讀取的存儲(chǔ)介質(zhì)中，用于執(zhí)行上述各實(shí)施例方法所述的全部或部分步驟。所述計(jì)算機(jī)設(shè)備，例如：個(gè)人計(jì)算機(jī)、服務(wù)器、網(wǎng)絡(luò)設(shè)備、智能移動(dòng)終端、智能家居設(shè)備、穿戴式智能設(shè)備、車(chē)載智能設(shè)備等；所述的存儲(chǔ)介質(zhì)，例如：ram、rom、磁碟、磁帶、光盤(pán)、閃存、u盤(pán)、移動(dòng)硬盤(pán)、存儲(chǔ)卡、記憶棒、網(wǎng)絡(luò)服務(wù)器存儲(chǔ)、網(wǎng)絡(luò)云存儲(chǔ)等。

最后，還需要說(shuō)明的是，在本文中，諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái)，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素，而且還包括沒(méi)有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張國(guó)文
技術(shù)所有人：中文在線數(shù)字出版集團(tuán)股份有限公司;中國(guó)新聞出版研究院
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

序列相似性比對(duì)相關(guān)技術(shù)

文本相似性相關(guān)技術(shù)

文本相似性計(jì)算相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

文本相似性算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本相似性比對(duì)方法與流程