国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于上下文的抽象樣本信息檢索系統(tǒng)及其抽象樣本特征化表示方法

      文檔序號(hào):10724920閱讀:275來(lái)源:國(guó)知局
      一種基于上下文的抽象樣本信息檢索系統(tǒng)及其抽象樣本特征化表示方法
      【專(zhuān)利摘要】本發(fā)明提出了一種基于上下文的抽象樣本信息檢索系統(tǒng)。該系統(tǒng)中抽象樣本特征化表示方法利用Word2vector提取詞義特征,獲得抽象詞的詞向量;而后,對(duì)抽象詞的詞向量進(jìn)行“最優(yōu)適應(yīng)度劃分”的聚類(lèi),并根據(jù)聚類(lèi)結(jié)果將抽象詞替代表示為聚類(lèi)質(zhì)心;最后,根據(jù)質(zhì)心及其所代表的抽象詞的詞頻,構(gòu)成詞向量聚類(lèi)質(zhì)心頻率模型(ST?IDF),用于特征化表示抽象樣本。本發(fā)明降低了聚類(lèi)及適應(yīng)度計(jì)算的執(zhí)行次數(shù),提高了抽象樣本相似性分析的性能,提升了樣本分類(lèi)準(zhǔn)確率。
      【專(zhuān)利說(shuō)明】
      一種基于上下文的抽象樣本信息檢索系統(tǒng)及其抽象樣本特征 化表示方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及數(shù)據(jù)鏈報(bào)文、半結(jié)構(gòu)化文本或普通文本的信息檢索領(lǐng)域,特別涉及基 于詞向量(Word2vector)的樣本相似性分析及分類(lèi)。
      【背景技術(shù)】
      [0002] 抽象詞是指信息檢索樣本中無(wú)法被語(yǔ)言直接解讀的特殊詞語(yǔ),即,無(wú)已知語(yǔ)言規(guī) 貝1J(詞義、語(yǔ)法、語(yǔ)序)可直接地識(shí)別其實(shí)際語(yǔ)義。大量的抽象詞不同程度地存在于信息檢索 的樣本中,例如軍用數(shù)據(jù)鏈報(bào)文(Link-16、Link-22)、用于數(shù)據(jù)交換的半結(jié)構(gòu)化文本(XML) 或普通文本。同時(shí),存在大量的數(shù)據(jù)鏈報(bào)文、半結(jié)構(gòu)化文本或普通文本完全采用抽象詞記錄 信息。針對(duì)該情況,我們將信息檢索任務(wù)中此類(lèi)報(bào)文或文本稱(chēng)為抽象樣本。
      [0003] 目前,針對(duì)信息檢索任務(wù)中的抽象樣本,在無(wú)法直接識(shí)別其抽象詞語(yǔ)義的情況下, 多采用基于詞語(yǔ)統(tǒng)計(jì)的樣本特征化表示方法?,F(xiàn)行的基于詞語(yǔ)統(tǒng)計(jì)的特征化表示方法無(wú)法 有效地提取其詞語(yǔ)語(yǔ)義(詞義)特征,例如TF_IDF(TermFrequency-Inverse Document Frequency)模型與B0W(Bag of words)模型。
      [0004] Word2vector是一種依據(jù)上下文關(guān)系的詞語(yǔ)語(yǔ)義(詞義)特征提取方法,最先由 Mikolov等于2013年初在谷歌公司的開(kāi)源項(xiàng)目中提出。當(dāng)文檔作為信息檢索的樣本時(shí),針對(duì) 在不同文檔中的每個(gè)詞語(yǔ),W 〇rd2vect〇r可依據(jù)其上下文關(guān)系有效地提取其語(yǔ)義(即詞義特 征),并以詞向量的形式給出。必須注意的是,Word2vector的詞義特征提取機(jī)制使得不同文 檔中相同的詞所對(duì)應(yīng)的詞向量并不相同。所以,導(dǎo)致難以根據(jù)W 〇rd2vect〇r的詞向量形成信 息檢索樣本的特征化表示,特別是難以形成VSM(向量空間模型)形式的樣本特征化表示。
      [0005] 目前,抽象樣本征化表示需要采用Word2vector作為基于上下文的詞義特征提取 方法,并使自身適用于現(xiàn)行的基于樣本特征向量的信息檢索算法。但是,尚未出現(xiàn)受明確認(rèn) 可的方法能夠根據(jù)Word2vector詞義特征提取形成VSM形式的抽象樣本特征化表示。
      [0006] 因此急需提出一種基于上下文的抽象樣本信息檢索系統(tǒng)及相應(yīng)的抽象樣本特征 化表示方法,解決上述問(wèn)題。

      【發(fā)明內(nèi)容】

      [0007] 在信息檢索應(yīng)用領(lǐng)域中,本發(fā)明提供了一種基于上下文的抽象樣本信息檢索系 統(tǒng),并詳闡述了其特征化表示方法。本發(fā)明的目的在于,克服現(xiàn)有技術(shù)中難以根據(jù) Word2vector的詞向量形成樣本的特征化表示的情況,解決抽象樣本特征化表示中詞義特 征提取的問(wèn)題。
      [0008] -種基于上下文的抽象樣本信息檢索系統(tǒng),包括分詞功能模塊、詞義特征提取模 塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類(lèi)模塊,所述抽象樣本信息檢索系統(tǒng)的抽 象樣本特征化表示方法包括以下步驟:
      [0009] 步驟1、利用分詞功能模塊對(duì)樣本進(jìn)行抽象詞的分詞:當(dāng)樣本是數(shù)據(jù)鏈報(bào)文時(shí),可 根據(jù)數(shù)據(jù)鏈報(bào)文的格式與字長(zhǎng)劃分每個(gè)抽象詞;當(dāng)樣本是文本時(shí),可根據(jù)空格及特定分詞 規(guī)則劃分每個(gè)抽象詞。
      [0010] 步驟2、利用詞義特征提取模塊提取抽象詞的詞語(yǔ)語(yǔ)義特征:針對(duì)由步驟1得到的 抽象詞,采用W〇rd2 vect〇r方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并以詞向量形 式表不。
      [0011] 步驟3、利用抽象詞特征替代表示模塊對(duì)抽象詞特征進(jìn)行替代表示:首先,采用最 優(yōu)聚類(lèi)效果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量,對(duì)由步驟2得到的詞向量進(jìn)行K-means算法聚類(lèi),即 實(shí)現(xiàn)對(duì)抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類(lèi)。其中,詞向量聚類(lèi)劃分的質(zhì)心稱(chēng)為S(表 示為詞向量空間中的向量),S的數(shù)量k即是聚類(lèi)劃分個(gè)數(shù),所有樣本中抽象詞的數(shù)量為N,已 知的樣本分類(lèi)數(shù)量為C,f(k)為體現(xiàn)聚類(lèi)效果適應(yīng)度的函數(shù),
      [0013] α為k個(gè)S向量間的平均余弦距離,β為k個(gè)聚類(lèi)劃分內(nèi)的詞向量間平均余弦距離的 均值,令正整數(shù)ke[N,NXC];當(dāng)f(k)=max(f(k))時(shí),令最優(yōu)聚類(lèi)效果適應(yīng)度下的聚類(lèi)劃分 數(shù)量K = k,質(zhì)心S的數(shù)量最終確定為K。然后,根據(jù)最終的聚類(lèi)結(jié)果將抽象詞替代表示為其詞 向量所屬聚類(lèi)劃分的質(zhì)心S,或稱(chēng)為用質(zhì)心S代表其聚類(lèi)劃分內(nèi)的抽象詞,即將抽象詞的特 征近似認(rèn)同為所屬聚類(lèi)劃分的質(zhì)心。
      [0014]步驟4、利用ST-IDF模塊輸出抽象樣本特征化表示:首先,統(tǒng)計(jì)每個(gè)抽象詞在一個(gè) 樣本中出現(xiàn)的頻率,根據(jù)步驟3給出的替代表示關(guān)系,將質(zhì)心S所代表的抽象詞在該樣本中 的出現(xiàn)頻率計(jì)為質(zhì)心S的頻率;并統(tǒng)計(jì)詞向量聚類(lèi)質(zhì)心的逆向文件頻率;而后,參照TF-IDF 模型構(gòu)成詞向量聚類(lèi)質(zhì)心頻率模型--ST-IDF,ST-IDF模型屬于VSM形式,用于特征化表示 一個(gè)抽象樣本。
      [0015] 步驟5、相似度計(jì)算,實(shí)現(xiàn)抽象樣本的相似性分析:根據(jù)步驟4所提供的特征化表 示,計(jì)算兩個(gè)抽象樣本間的相似度,并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類(lèi)算法的執(zhí)行。
      [0016] 步驟6、利用分類(lèi)模塊對(duì)特征化表示后的抽象樣本進(jìn)行類(lèi)別判定:根據(jù)相似度,采 用NWKNN算法對(duì)抽象樣本進(jìn)行類(lèi)別判定。
      [0017] 本發(fā)明的有益效果如下:
      [0018] 本發(fā)明提出了一種基于上下文的信息檢索系統(tǒng)及其抽象樣本特征化表示方法,它 包括兩個(gè)方面的改進(jìn):(1)提出了最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法,并根據(jù)在最優(yōu)聚類(lèi)效果適 應(yīng)度下的詞向量聚類(lèi),進(jìn)行了抽象詞特征替代表示;(2)提出了用于抽象樣本特征化表示的 詞向量聚類(lèi)質(zhì)心頻率模型--ST-IDF。
      [0019] 本發(fā)明首先利用W〇rd2VeCt〇r提取詞義特征,獲得樣本中所有抽象詞的詞向量;而 后,提出了最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法,并根據(jù)最優(yōu)聚類(lèi)效果適應(yīng)度對(duì)抽象詞的詞向量 進(jìn)行K-means聚類(lèi),并根據(jù)聚類(lèi)結(jié)果將抽象詞替代表示為其詞向量所屬聚類(lèi)劃分的質(zhì)心(記 為S);最后,將質(zhì)心所代表的抽象詞在樣本中的出現(xiàn)頻率計(jì)為質(zhì)心S的頻率,并構(gòu)成詞向量 聚類(lèi)質(zhì)心頻率模型--ST-IDF,用于特征化表示抽象樣本。與傳統(tǒng)的基于詞語(yǔ)統(tǒng)計(jì)的樣本 特征化表示方法相比,ST-IDF模型包含抽象詞的詞義特征,且屬于VSM(向量空間模型)形 式,可適用于現(xiàn)行的基于特征向量的信息檢索算法(如分類(lèi)、回歸、聚類(lèi))。
      [0020] 從實(shí)證的角度,采用信息檢索領(lǐng)域經(jīng)典樣本分類(lèi)算法NWKNN,在公用數(shù)據(jù)集 Reuter-21758、Wikipedia XML之上,將ST-IDF模型與TF-IDF模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果 客觀地展示了本發(fā)明所述方法的明顯優(yōu)勢(shì),提高了抽象樣本相似度計(jì)算的準(zhǔn)確性,提升了 抽象樣本分類(lèi)準(zhǔn)確度,并有效拓展了信息檢索領(lǐng)域中向量空間模型的構(gòu)建方法。
      【附圖說(shuō)明】
      [0021] 圖1為本發(fā)明所述抽象樣本信息檢索系統(tǒng)的數(shù)據(jù)與模塊圖。
      [0022] 圖2為本發(fā)明所述信息檢索方法的流程圖。
      [0023] 圖3為Word2vector方法基本原理示意圖。
      [0024] 圖4為聚類(lèi)效果適應(yīng)度函數(shù)圖。
      [0025] 圖5為詞向量空間中根據(jù)聚類(lèi)的替代表示關(guān)系示意圖。
      【具體實(shí)施方式】
      [0026] 下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步的說(shuō)明。
      [0027]如圖1所示,其中內(nèi)容為本發(fā)明一種基于上下文的抽象樣本信息檢索系統(tǒng),包括分 詞功能模塊、詞義特征提取模塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類(lèi)模塊。
      [0028] 所述抽象樣本信息檢索系統(tǒng)的抽象樣本特征化表示方法包括以下步驟:
      [0029] 步驟1:利用分詞功能模塊對(duì)樣本進(jìn)行抽象詞的分詞。當(dāng)樣本完全采用抽象詞記錄 信息時(shí),無(wú)法根據(jù)字典或詞庫(kù)進(jìn)行樣本中抽象詞的分詞。所以,本步驟僅將抽象詞視為 ASCII字符的字符串。當(dāng)樣本是數(shù)據(jù)鏈報(bào)文時(shí),根據(jù)數(shù)據(jù)鏈報(bào)文的格式與字長(zhǎng)劃分每個(gè)抽象 詞;當(dāng)樣本是文本時(shí),根據(jù)空格及特定分詞規(guī)則劃分每個(gè)抽象詞。將抽象詞的分詞記為 wordi, t,詞語(yǔ)wordi, t表示第i個(gè)樣本中的第t種抽象詞的分詞,有i = {1,2,…,| D | },| D |為數(shù) 據(jù)集中〇的樣本數(shù)4={1,2,"_,11},11為抽象詞種類(lèi)數(shù),所有樣本中抽象詞¥(^(1^的數(shù)量為 N〇
      [0030] 步驟2:利用詞義特征提取模塊,提取抽象詞的詞語(yǔ)語(yǔ)義特征。針對(duì)由步驟1得到的 抽象詞,采用W〇rd2 vect〇r方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并以詞向量形 式表示。本步驟運(yùn)用Word2vec工具,可獲得抽象詞的詞向量。
      [0031 ] Word2vec是Word2vector方法的模型實(shí)現(xiàn),可基于詞語(yǔ)的上下文關(guān)系,快速有效地 訓(xùn)練并生成詞向量。它包含了兩種訓(xùn)練模型,CB0W與Skip_gram。作為用于訓(xùn)練生成詞向量 的軟件工具,W〇rd2ve C中訓(xùn)練模型的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNLM,其基本原理如圖2所 不。
      [0032] 根據(jù)由步驟1得到的抽象詞,NNLM可計(jì)算某一個(gè)上下文的下一個(gè)詞語(yǔ)為wordi, t的 概率,即p(wordi,t = t | context),詞向量是其訓(xùn)練的副產(chǎn)物。NNLM根據(jù)數(shù)據(jù)集D生成一個(gè)對(duì) 應(yīng)的詞匯表VJ中的每一個(gè)詞語(yǔ)都對(duì)應(yīng)著一個(gè)標(biāo)記worcU.t。為了確定神經(jīng)網(wǎng)絡(luò)的參數(shù),需要 通過(guò)數(shù)據(jù)集來(lái)構(gòu)建訓(xùn)練樣本并作為神經(jīng)網(wǎng)絡(luò)的輸入。NNLM詞語(yǔ)上下文樣本的構(gòu)建過(guò)程為: 對(duì)于D中的任意一個(gè)詞wordi, t,獲取其上下文context (wordi, t)(例如前η-I個(gè)詞),從而得到 一個(gè)元組(context(wordi,t),wordi,t)。以該元組作為神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練。NNLM的輸 入層和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型有所不同,輸入的每一個(gè)節(jié)點(diǎn)單元不再是一個(gè)標(biāo)量值,而是一 個(gè)向量,向量的每一個(gè)值為變量,訓(xùn)練過(guò)程中要對(duì)其進(jìn)行更新,這個(gè)向量就是詞向量。由圖2 可知,對(duì)于每一個(gè)詞wordi, t,NNLM都將其映射成一個(gè)向量wi, t,即為詞向量。
      [0033]運(yùn)用Word2VeC工具獲得的詞向量Wl,t具體表示第i個(gè)樣本中的第t種抽象詞分詞的 詞義特征,有i = {1,2,…,| D |},| D |為樣本數(shù),所有樣本中抽象詞的詞向量wi, t的數(shù)量為N。 [0034]步驟3:利用抽象詞特征替代表示模塊,用詞向量聚類(lèi)質(zhì)心代表其聚類(lèi)劃分內(nèi)的抽 象詞。首先,采用最優(yōu)聚類(lèi)效果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量,對(duì)由步驟2得到的詞向量進(jìn)行K-means算法聚類(lèi),即實(shí)現(xiàn)對(duì)抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類(lèi)。詞向量的K-means聚 類(lèi)中,采用兩詞向量夾角的余弦值計(jì)算二者間的距離。
      [0035] 根據(jù)步驟2所得,所有樣本中抽象詞的詞向量wi, t的數(shù)量為N,詞向量wi, t具體表示 第i個(gè)樣本中的第t種抽象詞分詞的詞義特征。已知的樣本分類(lèi)數(shù)量為C,而樣本數(shù)量為Μ。本 步驟中,將詞向量聚類(lèi)劃分的質(zhì)心稱(chēng)為S(表示為詞向量空間中的向量),S的數(shù)量k即是聚類(lèi) 劃分個(gè)數(shù)。
      [0036] 為體現(xiàn)詞向量空間中的K-means聚類(lèi)效果,本發(fā)明給出聚類(lèi)劃分?jǐn)?shù)量適應(yīng)性的計(jì) 算。為表示聚類(lèi)劃分?jǐn)?shù)量適應(yīng)性,令f (k)為體現(xiàn)聚類(lèi)效果適應(yīng)度的函數(shù),
      [0038] α為k個(gè)S向量間的平均余弦距離,β為k個(gè)聚類(lèi)劃分內(nèi)的詞向量間平均余弦距離的 均值,具體地有:
      [0041] 其中,S與f為不同聚類(lèi)劃分的質(zhì)心向量,《^與/1>t是類(lèi)屬于第b個(gè)聚類(lèi)劃分中的 不同抽象詞分詞的詞向量。
      [0042] 設(shè)聚類(lèi)劃分個(gè)數(shù)ke[N,NXC],且為正整數(shù),當(dāng)f(k)=max(f(k))時(shí),令最優(yōu)聚類(lèi)效 果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量K = k,f(K)是聚類(lèi)效果適應(yīng)度的最大值。經(jīng)計(jì)算可知,函數(shù)f(k) 在N到K的區(qū)間是單調(diào)遞增的,在K到NXC的區(qū)間是單調(diào)遞減的,函數(shù)f(k)的圖像如圖3所示。 [00 43] 所以,當(dāng)f (k)=max(f (k))時(shí),K = k,f (K)是聚類(lèi)效果適應(yīng)度函數(shù)的極值,即最優(yōu)聚 類(lèi)效果適應(yīng)度,K-means聚類(lèi)質(zhì)心S的數(shù)量最終確定為K。在確定max(f (k))、K與f (K)的過(guò)程 中,為減少K-means聚類(lèi)及f(k)計(jì)算的執(zhí)行次數(shù),本發(fā)明提出最優(yōu)聚類(lèi)效果適應(yīng)度劃分算 法,算法中每進(jìn)行一次f(k)計(jì)算則需預(yù)先執(zhí)行一次質(zhì)心數(shù)量為k的K-means聚類(lèi),具體如下:
      [0044]最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法
      [0046] 最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法分析:根據(jù)算法的遞歸運(yùn)算特點(diǎn),其時(shí)間復(fù)雜度為 〇 (l〇g2[(NXC-N)/4],所以本步驟中實(shí)際執(zhí)行的K-means聚類(lèi)次數(shù)與f (k)計(jì)算次數(shù)小于等 于log2[(NXC-N)/4]次;而當(dāng)不采用最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法時(shí),有k={N,N+l,N+ 1,…,NXC},確定max(f (k))、K與f (K)的過(guò)程中所需執(zhí)行的K-means聚類(lèi)與f (k)計(jì)算的平均 次數(shù)為(NXC-N)/2。所以,本步驟中的最優(yōu)聚類(lèi)效果適應(yīng)度劃分算法降低了聚類(lèi)及適應(yīng)度 計(jì)算的執(zhí)行次數(shù)。
      [0047] 最后,根據(jù)最終的聚類(lèi)結(jié)果將抽象詞替代表示為其詞向量所屬聚類(lèi)劃分的質(zhì)心S。 具體地,當(dāng)f(k)=max(f(k))時(shí),最優(yōu)聚類(lèi)效果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量K = k,將任意抽象 詞w1>t替代表示為其詞向量所屬聚類(lèi)劃分的質(zhì)心S,即將抽象詞的特征近似認(rèn)同為所屬聚類(lèi) 劃分的質(zhì)心。在任意局部詞向量空間中,用質(zhì)心S代表其聚類(lèi)劃分內(nèi)的抽象詞,其對(duì)應(yīng)關(guān)系 如圖4所示。具體替代表示關(guān)系如下式所述:
      [0049] 其中,第b個(gè)聚類(lèi)質(zhì)心Sb所代表的抽象詞wordi,t構(gòu)成一個(gè)抽象詞集合,Wi,t是抽象 詞wordi, t的詞向量,Wb是類(lèi)屬于質(zhì)心Sb所在聚類(lèi)劃分的詞向量所對(duì)應(yīng)的抽象詞的集合。
      [0050] 步驟4:利用ST-IDF模塊,輸出抽象樣本特征化表示。首先,統(tǒng)計(jì)每個(gè)抽象詞在一個(gè) 樣本中出現(xiàn)的頻率,根據(jù)步驟3給出的質(zhì)心S與抽象詞的替代表示關(guān)系,將第b個(gè)質(zhì)心Sb所代 表的抽象詞在該樣本中的出現(xiàn)頻率計(jì)為質(zhì)心Sb的頻率;并統(tǒng)計(jì)詞向量聚類(lèi)質(zhì)心Sb的逆向文 件頻率,有b = {1,2,…,K}。而后,參照TF-IDF模型構(gòu)成詞向量聚類(lèi)質(zhì)心頻率模型--ST-IDF,具體構(gòu)成方式將進(jìn)一步詳細(xì)闡述。
      [0051 ] TF-IDF模型中,樣本doci的特征化表示由特征向量di實(shí)現(xiàn),
      [0052] di= (di(i) ,di(2),......,di(n))
      [0053] 向量di中第t維元素 di(t)計(jì)算方式如下:
      [0054] di(t) = TF(wordt,doCi) · IDF(wordt),
      [0055] TF(wordt, doci)是詞語(yǔ)wordt在樣本doci中的頻率,有其計(jì)算方式
      [0057]中分子是該詞語(yǔ)在樣本中的出現(xiàn)次數(shù),而分母則是在文件中所有詞語(yǔ)的出現(xiàn)次數(shù) 之和,
      [0058] IDF( wordt)為詞語(yǔ)wordt的逆向文件頻率,有其計(jì)算方式
      [0060]其中,D為樣本doci的構(gòu)成數(shù)據(jù)集,|D|為數(shù)據(jù)集D中樣本的總數(shù),I {doci|wordte doci} |為包含詞語(yǔ)wordt的樣本數(shù)量。
      [0061 ] 參照TF-IDF模型,ST-IDF模型具體構(gòu)成如下:
      [0062] SF( Sb,doci)是詞向量聚類(lèi)質(zhì)心Sb在抽象樣本doci中的頻率,有其計(jì)算方式
      [0064]其中,Wb是類(lèi)屬于質(zhì)心Sb所在聚類(lèi)劃分的詞向量所對(duì)應(yīng)的抽象詞的集合,TF( Wi,t) 表示抽象詞wi,t在抽象樣本doci中出現(xiàn)的頻率,SF(Sb,doci)僅累計(jì)抽象樣本doci中由質(zhì)心Sb 所代表的抽象詞的頻率。
      [0065] IDF(Sb)為詞向量聚類(lèi)質(zhì)心Sb的逆向文件頻率,有其計(jì)算方式
      [0067]其中,D為抽象樣本doc 4勺構(gòu)成數(shù)據(jù)集,|D |為數(shù)據(jù)集D中樣本的總數(shù), I 丨u. e I為包含由質(zhì)心sb所代表的抽象詞的樣本的數(shù)量。
      [0068] ST-IDF模型中,抽象樣本doci的特征化表示由特征向量#實(shí)現(xiàn),
      [0070] 向量鄉(xiāng)中第b維元素#(&)計(jì)算方式如下:
      [0071] di[h) = SFiS^doc^· lDF(Sh),
      [0072] 本步驟所提出的ST-IDF模型屬于VSM(向量空間模型)形式,用于特征化表示一個(gè) 抽象樣本。
      [0073] 步驟5:相似度計(jì)算,實(shí)現(xiàn)抽象樣本的相似性分析。根據(jù)步驟4所提供的特征化表 示,計(jì)算兩個(gè)抽象樣本間的相似度;并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類(lèi)算法的執(zhí)行。
      [0074] -種基于上下文的信息檢索抽象樣本特征化表示方法采用步驟4所提出的ST-IDF 模型進(jìn)行抽象樣本特征化表示。任意兩抽象樣本間相似性由相似度函數(shù)Sim (doci,doc/ )表示,其具體計(jì)算方式如下:
      [0075] Sim(cIoc,,cIoc·) = cos{i/(,i//),
      [0076] cos(K)為ST-IDF向量空間中特征向景4與#間夾角的余弦值。
      [0077]步驟6:利用分類(lèi)模塊,對(duì)特征化表示后的抽象樣本進(jìn)行類(lèi)別判定。根據(jù)相似度,采 用NWKNN算法對(duì)抽象樣本進(jìn)行類(lèi)別判定。
      [0078]根據(jù)相似度函數(shù)SinKdoc^doc/),采用信息檢索領(lǐng)域中的經(jīng)典樣本分類(lèi)算法一一 NWKNN執(zhí)行抽象樣本分類(lèi)。NWKNN是權(quán)重鄰居KNN算法,用于不均衡分類(lèi)樣本集的樣本分類(lèi)判 另IJ,其公式如下:
      [0080] 其中,函數(shù)score (doc, Ci)計(jì)算得出將文檔doc歸于分類(lèi)Ci的評(píng)估值;函數(shù)Sim(doc, docj)表示樣本doc與已知類(lèi)別樣本docj的相似度,采用向量余弦距離計(jì)算;Weighti為分類(lèi) 權(quán)重設(shè)定值,賦值為3.5;函數(shù)5((1〇(^,(^)表示樣本(1〇(^是否屬于類(lèi)別(^,若樣本(1〇(^屬于類(lèi) 另lJ Cl,則該函數(shù)取值為1,否則,該函數(shù)取值為0。
      [0081 ] 樣本分類(lèi)的性能評(píng)估采用Fl-measure標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)結(jié)合召回率Recall和準(zhǔn)確率 Precision的評(píng)估度量F1如下:
      [0083]運(yùn)用Fl-measure標(biāo)準(zhǔn),可觀察到一個(gè)樣本分類(lèi)系統(tǒng)針對(duì)數(shù)據(jù)集的分類(lèi)效果。為便 于比較,將總結(jié)抽象樣本分類(lèi)結(jié)果的宏觀F1度量值Macro-Fl,同時(shí),可以得到抽象樣本分類(lèi) 結(jié)果的Average precision。
      [0084]以維基百科XML數(shù)據(jù)Wikipedia XML為數(shù)據(jù)交換半結(jié)構(gòu)化文本的數(shù)據(jù)集,以路透社 文檔集Reuter-21578為普通文本的數(shù)據(jù)集,采用NWKNN算法進(jìn)行抽象樣本分類(lèi)實(shí)驗(yàn),并采用 Fl-measure標(biāo)準(zhǔn)進(jìn)行樣本分類(lèi)的效果評(píng)估,本發(fā)明提出的SF-IDF向量與現(xiàn)有技術(shù)中TF-IDF 向量的分類(lèi)效果對(duì)比見(jiàn)表1、表2:
      [0085] 表lWikipedia XML數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類(lèi)效果比較
      [0087] 表2Reuter-21578數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類(lèi)效果比較
      [0089]根據(jù)表1、表2所述,可見(jiàn)本發(fā)明提出的SF-IDF向量的分類(lèi)效果明顯優(yōu)于現(xiàn)有技術(shù) 中TF-IDF向量,尤其是在Wikipedia XML數(shù)據(jù)集上平均準(zhǔn)確率由原有的48.7 %提高到 59.2%,在Reuter-21578數(shù)據(jù)集上平均準(zhǔn)確率由原有的57.1 %提高到63.3%。實(shí)驗(yàn)結(jié)果顯 示,針對(duì)抽象樣本相似性分類(lèi)的信息檢索任務(wù),本發(fā)明所提出的ST-IDF模型相較TF-IDF模 型擁有更優(yōu)良的Fl-measure評(píng)估結(jié)果,證明本發(fā)明所提供的特征化表示方法具備抽象樣本 詞義特征提取的優(yōu)勢(shì)。
      【主權(quán)項(xiàng)】
      1. 一種基于上下文的抽象樣本信息檢索系統(tǒng),其特征在于:它包括分詞功能模塊、詞義 特征提取模塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類(lèi)模塊,所述抽象樣本信息檢索 系統(tǒng)的抽象樣本特征化表示方法包括W下步驟: 步驟1、利用分詞功能模塊對(duì)樣本進(jìn)行抽象詞的分詞:當(dāng)樣本是數(shù)據(jù)鏈報(bào)文時(shí),可根據(jù) 數(shù)據(jù)鏈報(bào)文的格式與字長(zhǎng)劃分每個(gè)抽象詞;當(dāng)樣本是文本時(shí),可根據(jù)空格及特定分詞規(guī)則 劃分每個(gè)抽象詞; 步驟2、利用詞義特征提取模塊提取抽象詞的詞語(yǔ)語(yǔ)義特征:針對(duì)由步驟1得到的抽象 詞,采用Word2vector方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并W詞向量形式表 示; 步驟3、利用抽象詞特征替代表示模塊對(duì)抽象詞特征進(jìn)行替代表示:首先,采用最優(yōu)聚 類(lèi)效果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量,對(duì)由步驟2得到的詞向量進(jìn)行K-means算法聚類(lèi),即實(shí)現(xiàn) 對(duì)抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類(lèi),其中,詞向量聚類(lèi)劃分的質(zhì)屯、稱(chēng)為S(表示為 詞向量空間中的向量),S的數(shù)量k即是聚類(lèi)劃分個(gè)數(shù),所有樣本中抽象詞的數(shù)量為N,已知的 樣本分類(lèi)數(shù)量為C,fXk)為體現(xiàn)聚類(lèi)效果適應(yīng)度的函數(shù),α為k個(gè)S向量間的平均余弦距離,β為k個(gè)聚類(lèi)劃分內(nèi)的詞向量間平均余弦距離的均值, 令正整數(shù)ke陽(yáng),NXC];當(dāng)fXk)=max(fXk))時(shí),令最優(yōu)聚類(lèi)效果適應(yīng)度下的聚類(lèi)劃分?jǐn)?shù)量K =k,質(zhì)屯、S的數(shù)量最終確定為K;然后,根據(jù)最終的聚類(lèi)結(jié)果將抽象詞替代表示為其詞向量 所屬聚類(lèi)劃分的質(zhì)屯、S,或稱(chēng)為用質(zhì)屯、S代表其聚類(lèi)劃分內(nèi)的抽象詞,即將抽象詞的特征近 似認(rèn)同為所屬聚類(lèi)劃分的質(zhì)屯、; 步驟4、利用ST-IDF模塊輸出抽象樣本特征化表示:首先,統(tǒng)計(jì)每個(gè)抽象詞在一個(gè)樣本 中出現(xiàn)的頻率,根據(jù)步驟3給出的替代表示關(guān)系,將質(zhì)屯、S所代表的抽象詞在該樣本中的出 現(xiàn)頻率計(jì)為質(zhì)屯、S的頻率;并統(tǒng)計(jì)詞向量聚類(lèi)質(zhì)屯、的逆向文件頻率;而后,參照TF-IDF模型 構(gòu)成詞向量聚類(lèi)質(zhì)屯、頻率模型一一ST-IDF,ST-IDF模型屬于VSM形式,用于特征化表示一個(gè) 抽象樣本; 步驟5、相似度計(jì)算,實(shí)現(xiàn)抽象樣本的相似性分析:根據(jù)步驟4所提供的特征化表示,計(jì) 算兩個(gè)抽象樣本間的相似度,并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類(lèi)算法的執(zhí)行; 步驟6、利用分類(lèi)模塊對(duì)特征化表示后的抽象樣本進(jìn)行類(lèi)別判定:根據(jù)相似度,采用 NWK順?biāo)惴▽?duì)抽象樣本進(jìn)行類(lèi)別判定。
      【文檔編號(hào)】G06F17/30GK106095791SQ201610369833
      【公開(kāi)日】2016年11月9日
      【申請(qǐng)日】2016年5月29日
      【發(fā)明人】吳 琳, 韓廣, 袁鑫攀, 李亞楠
      【申請(qǐng)人】長(zhǎng)源動(dòng)力(山東)智能科技有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1