国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      商品屬性特征詞聚類方法

      文檔序號(hào):9489491閱讀:1118來源:國知局
      商品屬性特征詞聚類方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理和數(shù)據(jù)挖掘領(lǐng)域,尤其是一種商品屬性特征詞聚類方 法。
      【背景技術(shù)】
      [0002] 商品評(píng)論數(shù)據(jù)的挖掘?qū)儆谟?jì)算機(jī)文本處理與挖掘領(lǐng)域,對(duì)于分析目標(biāo)商品的特 征、分析市場(chǎng)對(duì)目標(biāo)商品的需求、獲取用戶的個(gè)性化偏好、對(duì)用戶進(jìn)行商品推薦等方面有著 很直接的應(yīng)用。用戶對(duì)商品的評(píng)價(jià)文本蘊(yùn)涵著豐富的信息,現(xiàn)在很多研究人員也開始著眼 于利用評(píng)論文本來提升商品推薦系統(tǒng)的性能。用戶評(píng)論文本中最重要的兩個(gè)信息就是:用 戶所關(guān)注的商品屬性,以及用戶對(duì)于目標(biāo)商品在自己所關(guān)注屬性上的表現(xiàn)評(píng)價(jià)。因此對(duì)于 商品屬性特征詞的獲取與處理,是對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行挖掘和利用的關(guān)鍵步驟。
      [0003] 對(duì)于商品屬性特征詞的獲取當(dāng)前已經(jīng)有很多方法,如基于語法規(guī)則擴(kuò)展的詞性模 板匹配法、基于詞語序列標(biāo)注的隱馬爾科夫以及條件隨機(jī)場(chǎng)。這些方法可以初步獲取評(píng)論 文本中的商品屬性特征詞。
      [0004] 但是,在商品評(píng)論文本中我們會(huì)發(fā)現(xiàn),同一種商品的同一種屬性,會(huì)被具有不同教 育程度、文化背景、風(fēng)俗習(xí)慣的用戶采取不同的表述方式。同一種屬性的不同表達(dá)方式,一 方面增加了商品屬性特征的維度,同時(shí)也就是增加了數(shù)據(jù)特征的稀疏程度,增加了問題的 求解復(fù)雜度;另一方面也不利于刻畫商品的屬性,從而不利于刻畫用戶對(duì)商品屬性偏好和 評(píng)價(jià)。
      [0005] 采用聚類方法,將實(shí)際表達(dá)商品同一屬性的特征詞聚類在一起,可以有效解決上 面提出的問題。但是目前對(duì)于商品屬性特征詞聚類,還很少有人提出有效方法。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明所要解決的技術(shù)問題是:彌補(bǔ)上述現(xiàn)有技術(shù)的不足,提出一種商品屬性特 征詞聚類方法,以減少商品屬性特征詞數(shù)目,降低特征維度以及特征稀疏性,使所設(shè)計(jì)的推 薦系統(tǒng)具有更加快速和準(zhǔn)確的性能。
      [0007] 為此,本發(fā)明提出的商品屬性特征詞聚類方法包括如下步驟:。
      [0008] 優(yōu)選地,本發(fā)明還包括如下特征:
      [0009] 本發(fā)明與現(xiàn)有技術(shù)對(duì)比的有益效果是:本發(fā)明提出了一種基于詞語向量表示的商 品屬性特征詞聚類方法,研究表明,將詞語表示成較低維度的連續(xù)值向量的形式,通過大量 的數(shù)據(jù)進(jìn)行訓(xùn)練,可以得到具有很強(qiáng)表示能力的詞語向量。這種詞語向量具有很強(qiáng)的語義 表示能力,語義上相近的詞語,在映射后的向量空間中的距離也會(huì)很相近。本發(fā)明基于詞語 向量表示這一方法,進(jìn)一步改進(jìn)使得利用本發(fā)明可以得到自動(dòng)匹配評(píng)論文本中商品屬性特 征詞的詞性模板,進(jìn)而獲取指定商品的屬性特征詞;可以通過訓(xùn)練語言模型得到低維度、具 有豐富語義信息的詞語向量;可以根據(jù)實(shí)際需要進(jìn)行屬性特征詞的聚類,從而減少商品屬 性特征詞數(shù)目,降低特征維度以及特征稀疏性,使所設(shè)計(jì)的推薦系統(tǒng)具有更加快速和準(zhǔn)確 的性能。
      【附圖說明】
      [0010] 圖1是本發(fā)明【具體實(shí)施方式】中的商品屬性特征詞聚類方法的流程示意圖。
      【具體實(shí)施方式】
      [0011] 下面結(jié)合【具體實(shí)施方式】并對(duì)照附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
      [0012] 如圖1所示,為本【具體實(shí)施方式】中的商品屬性特征詞聚類方法的流程圖。
      [0013] 本發(fā)明實(shí)施例針對(duì)商品評(píng)論文本,提出了一種基于詞語向量表示的商品屬性特征 詞聚類方法。首先確定需要研究和分析的目標(biāo)商品,進(jìn)行數(shù)據(jù)的準(zhǔn)備:從相關(guān)電商網(wǎng)站獲取 目標(biāo)商品的評(píng)論文本,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括詞語切分、詞性標(biāo)注、詞頻統(tǒng)計(jì)、停用詞過 濾以及低頻詞語過濾;在獲取的商品評(píng)論文本中選取若干含有商品屬性特征詞語的評(píng)論文 本,對(duì)商品屬性特征詞進(jìn)行人工標(biāo)注,作為獲取詞性模板的訓(xùn)練數(shù)據(jù)。然后進(jìn)一步的加工數(shù) 據(jù):根據(jù)人工標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行詞性模板訓(xùn)練,得到可以自動(dòng)匹配商品屬性特征詞語的 詞性模板,然后在全部數(shù)據(jù)上進(jìn)行匹配,獲取商品屬性特征詞語的候選集合,并設(shè)定規(guī)則對(duì) 候選集合進(jìn)行過濾;使用現(xiàn)有工具W〇rd2VeC或者自己設(shè)定模型進(jìn)行訓(xùn)練,獲得詞語的向量 表示。最后使用候選集合中屬性特征詞的向量表示作為輸入,進(jìn)行商品屬性特征詞聚類,得 到目標(biāo)商品的最終屬性特征詞集合。使用詞語的向量表示,可以使在語義上接近的詞語,在 向量空間上的分布也很接近,也就是描述同一個(gè)屬性的特征詞語可以分布在一起,這樣聚 類得到的類比較符合真實(shí)的特征詞聚集情況。此外,詞語的向量表示維度較低,在進(jìn)行聚類 時(shí)的計(jì)算復(fù)雜度很低。
      [0014] 本實(shí)施例提出的一種基于詞語向量表示的商品屬性特征詞聚類方法包括如下步 驟:
      [0015] A1 :從相關(guān)電商網(wǎng)站獲取目標(biāo)商品的評(píng)論文本,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括詞語切 分、詞性標(biāo)注、詞頻統(tǒng)計(jì)、停用詞過濾以及低頻詞語過濾;
      [0016] A2 :選取含有商品屬性特征詞語的評(píng)論文本,對(duì)商品屬性特征詞進(jìn)行人工標(biāo)注,作 為獲取詞性模板的訓(xùn)練樣本;
      [0017] A3 :根據(jù)A2中人工標(biāo)注的數(shù)據(jù)進(jìn)行詞性模板訓(xùn)練,得到可以自動(dòng)匹配商品屬性特 征詞語的詞性模板,然后在全部數(shù)據(jù)上進(jìn)行匹配,獲取商品屬性特征詞語的候選集合,并對(duì) 候選集合按照設(shè)定規(guī)則進(jìn)行過濾;
      [0018] A4 :利用A1中得到的數(shù)據(jù)訓(xùn)練語言模型,獲得詞語的向量表示;
      [0019] A5 :利用A4中得到的詞語向量,對(duì)A3中得到的商品屬性特征詞進(jìn)行聚類,得到目 標(biāo)商品的最終屬性特征詞集合。
      [0020] 本實(shí)施例的最終重點(diǎn)環(huán)節(jié)是步驟A5,而步驟A1中文本的獲取與預(yù)處理為A2中的 屬性特征詞標(biāo)注以及A4中詞語向量的學(xué)習(xí)提供了數(shù)據(jù)準(zhǔn)備和基礎(chǔ),A3中根據(jù)模板進(jìn)行特 征詞的匹配和過濾以及A4中詞語向量的學(xué)習(xí)是獲取最終商品屬性特征詞的關(guān)鍵環(huán)節(jié)。
      [0021] 在具體的實(shí)施方案中,可按下面方式操作(在下面的操作表述中,我們將以對(duì)淘 寶網(wǎng)站中某件服裝商品的特征屬性詞的抽取與聚類為例,在每個(gè)操作步驟后,給出具體示 例):
      [0022] A1 :對(duì)于數(shù)據(jù)的獲取,由于本步驟中預(yù)處理后的數(shù)據(jù)將用于A4步驟中的語言模 型訓(xùn)練,而訓(xùn)練語言模型需要大量的數(shù)據(jù),因此可以獲取目標(biāo)商品的評(píng)論文本越多越好,為 了較好的效果,文本的大小大于10MB(也即將所有評(píng)論文本放在一個(gè)文件中,該文件大小 大于10MB)為宜。對(duì)于數(shù)據(jù)準(zhǔn)備階段的數(shù)據(jù)預(yù)處理,主要包括詞語切分、詞性標(biāo)注、詞頻統(tǒng) 計(jì)、停用詞過濾以及低頻詞語過濾等步驟。具體可以如下進(jìn)行:a)詞語切分與詞性標(biāo)注:對(duì) 于中文文本,由于詞語之間沒有形式的分界,在進(jìn)行相關(guān)問題處理時(shí),需要首先對(duì)文本進(jìn)行 詞語切分,也即找出詞語之間的界限,將文本表示成詞語序列;而詞性標(biāo)注則指,對(duì)于上述 切分出來的每一個(gè)獨(dú)立的詞語,給予它們?cè)~性標(biāo)簽(主要的詞性有名詞、動(dòng)詞、形容詞、副 詞、標(biāo)點(diǎn)符號(hào),其他具體可以參見http://blog.sina.com.cn/s/blog_4a95553b0100068w. html)。我們使用"結(jié)巴"中文分詞工具(工具網(wǎng)站:http://www.oschina.net/p/iieba)進(jìn) 行詞語切分和詞性標(biāo)注的舉例,此外中科院的ICTCLAS系統(tǒng)(官方網(wǎng)站:http://ictclas. nlpir.org/)也是一款優(yōu)秀的中文分詞與詞性標(biāo)注工具,具體用法請(qǐng)參見其網(wǎng)站;b)詞頻 統(tǒng)計(jì)可以很方便的進(jìn)行,這里建議先對(duì)所得文本進(jìn)行切分后的詞語進(jìn)行哈希編碼,我們可 以根據(jù)詞語的Unicode值,利用哈希函數(shù)將詞語重新編碼,這樣每次訪問該詞語時(shí)可以做 到瞬時(shí)訪問,然后就可以快速的進(jìn)行詞頻統(tǒng)計(jì);c)有很多詞
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1