一種基于層疊條件隨機(jī)場的產(chǎn)品名識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)處理與分析領(lǐng)域,設(shè)及一種基于層疊條件隨機(jī)場的上下文 相關(guān)產(chǎn)品名識別方法及裝置。
【背景技術(shù)】
[0002] Web2.0時(shí)代,隨著微博等社交網(wǎng)絡(luò)平臺的興起,每個(gè)互聯(lián)網(wǎng)用戶不再僅僅是信息 的瀏覽者,同時(shí)也成為信息的發(fā)布者,互聯(lián)網(wǎng)已經(jīng)從一個(gè)信息發(fā)布平臺轉(zhuǎn)變?yōu)榛咏涣鞯?平臺。在過去的十年里,我國的電子商務(wù)產(chǎn)業(yè)不斷發(fā)展壯大,越來越多的公司在互聯(lián)網(wǎng)上開 展業(yè)務(wù),通過網(wǎng)絡(luò)推廣銷售產(chǎn)品。截至2013年12月,全國開展在線銷售的企業(yè)比例達(dá)到 23.5 %,通過互聯(lián)網(wǎng)進(jìn)行營銷推廣的企業(yè)也占到了 20.9 %。越來越多的人習(xí)慣網(wǎng)絡(luò)購物,在 互聯(lián)網(wǎng)上討論自己購買的產(chǎn)品,在論壇、微博、購物網(wǎng)站等地方評論自己用過和買過的產(chǎn)品 的優(yōu)點(diǎn)和不足,人們習(xí)慣在購買商品之前通過捜索引擎查看自己要買的商品的用戶評價(jià), 而網(wǎng)友對某一商品的評價(jià)好壞則會影響自己的購買決策。各類企業(yè)也紛紛開通了自己的官 方微博,開始在微博運(yùn)一個(gè)新的媒體中推廣自己的產(chǎn)品。目前不僅政府開始關(guān)注互聯(lián)網(wǎng)的 話題傳播,各類商業(yè)企業(yè)也開始關(guān)注并分析各類論壇、微博、博客等網(wǎng)絡(luò)信息,希望從中掌 握公司產(chǎn)品的市場口碑,了解廣大網(wǎng)民對公司產(chǎn)品的意見和建議,時(shí)刻監(jiān)測本公司產(chǎn)品的 負(fù)面評論W及時(shí)的進(jìn)行危機(jī)公關(guān),保護(hù)公司的聲譽(yù)?;ヂ?lián)網(wǎng)已經(jīng)成為各行各業(yè)的公司從公 開途徑獲取本行業(yè)競爭情報(bào)的重要方式,各類公司都在密切關(guān)注競爭對手的產(chǎn)品的市場表 現(xiàn)、新產(chǎn)品的發(fā)布W期及時(shí)作出合適的決策。對于各類企業(yè),其關(guān)注互聯(lián)網(wǎng)信息最根本的就 是關(guān)注其所屬行業(yè)和自己生產(chǎn)的產(chǎn)品,因此從互聯(lián)網(wǎng)上海量的數(shù)據(jù)中準(zhǔn)確的識別出產(chǎn)品名 是進(jìn)行行業(yè)輿情監(jiān)控、口碑營銷W及商務(wù)智能的基礎(chǔ)和前提。
[0003] 產(chǎn)品名識別是要在文本中識別出產(chǎn)品名稱實(shí)體,產(chǎn)品名識別是信息抽取中的專有 名詞識別的一個(gè)細(xì)分領(lǐng)域,旨在將文本中表示產(chǎn)品名稱的實(shí)體識別出來W便為商務(wù)智能等 上層應(yīng)用提供支撐。目前針對專有名詞識別的研究主要針對人名、地名、組織機(jī)構(gòu)名等傳統(tǒng) 的命名實(shí)體進(jìn)行識別,隨著互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展針對產(chǎn)品名稱的識別工作也越來越重 要,目前關(guān)于產(chǎn)品名稱的識別還相對較少。與傳統(tǒng)命名實(shí)體不同,產(chǎn)品名通常結(jié)構(gòu)比較復(fù) 雜,通常包含數(shù)字、字母、特殊字符、漢字等,而且長度相對較長嵌套現(xiàn)象比較嚴(yán)重;另外, Web2.0時(shí)代互聯(lián)網(wǎng)上充斥著大量的用戶生成文本,由于用戶的文字功底不同、表達(dá)習(xí)慣各 異其處理難度遠(yuǎn)高于新聞等傳統(tǒng)媒體,其應(yīng)用價(jià)值也比傳統(tǒng)的新聞媒體要高的多。為了更 好的從互聯(lián)網(wǎng)海量信息中準(zhǔn)確的識別出產(chǎn)品名,需要綜合考慮局部和全局上下文信息,對 產(chǎn)品名識別的方法進(jìn)行改進(jìn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于著重考慮產(chǎn)品名的嵌套問題,同時(shí)綜合利用上下文信息進(jìn)行產(chǎn) 品名識別方法的改進(jìn),提出一種基于層疊條件隨機(jī)場的上下文相關(guān)產(chǎn)品名識別方法,有效 的解決產(chǎn)品名中存在的嵌套問題,同時(shí)充分利用局部和全局上下文信息來進(jìn)行特征的改 進(jìn),提升產(chǎn)品名識別的性能。
[0005] 本發(fā)明的思想是采用詞向量模型和詞聚類融合全局上下文信息,補(bǔ)充局部上下文 信息的不足,同時(shí)采用層疊條件隨機(jī)場模型進(jìn)行具有嵌套結(jié)構(gòu)的產(chǎn)品名的識別。
[0006] 本發(fā)明的目的是通過W下技術(shù)方案實(shí)現(xiàn)的:
[0007] -種基于層疊條件隨機(jī)場的上下文相關(guān)產(chǎn)品名識別方法,包括W下步驟:
[0008] 步驟1:對語料文本進(jìn)行分詞和詞性標(biāo)注預(yù)處理;
[0009] 步驟2:對語料文本W(wǎng)詞為單位進(jìn)行一次特征表示;
[0010] 步驟3:對當(dāng)前詞W已訓(xùn)練的低層條件隨機(jī)場模型要求的特征模板表示后利用已 訓(xùn)練的低層條件隨機(jī)場模型進(jìn)行識別得到初步識別結(jié)果,記為標(biāo)記1;
[0011] 步驟4:將用一次特征表示的詞加上標(biāo)記1作為二次特征表示;
[0012] 步驟5:對當(dāng)前詞W已訓(xùn)練的低層條件隨機(jī)場模型要求的特征模板表示后利用已 訓(xùn)練的高層條件隨機(jī)場模型進(jìn)行識別獲得最終識別結(jié)果,記為標(biāo)記2;
[0013] 步驟6:將語料文本中被識別出是產(chǎn)品實(shí)體的詞增加其對應(yīng)的標(biāo)記后輸出。
[0014] 作為優(yōu)選,所述一次特征包括基礎(chǔ)特征、領(lǐng)域特征、類別特征,所述基礎(chǔ)特征用于 表示詞所具有的特征,包括詞本身、詞性、是否包含字母、是否包含數(shù)字、是否包含特殊字 符;領(lǐng)域特征用于表示詞所屬領(lǐng)域的特征,包括當(dāng)前詞是否品牌名、是否系列名、是否型號 名、是否產(chǎn)品屬性;類別特征用于表示詞所屬的類別特征。
[0015] 作為優(yōu)選,所述領(lǐng)域特征基于領(lǐng)域產(chǎn)品知識庫通過字符串匹配方式確定,所述領(lǐng) 域產(chǎn)品知識庫通過W下過程構(gòu)建:
[0016] 從領(lǐng)域相關(guān)網(wǎng)站抓取產(chǎn)品相關(guān)數(shù)據(jù);
[0017] 對抓取到的數(shù)據(jù)進(jìn)行解析得到初步的產(chǎn)品實(shí)體列表;
[0018] 對初步的產(chǎn)品實(shí)體列表進(jìn)行人工修正,明確產(chǎn)品實(shí)體所屬品牌、系列W及型號,構(gòu) 建包括產(chǎn)品實(shí)體及其所屬品牌、系列W及型號在內(nèi)的產(chǎn)品實(shí)體列表并存儲;
[0019] 參考抓取得到的數(shù)據(jù)人工整理一個(gè)領(lǐng)域產(chǎn)品的常見屬性列表并存儲。
[0020] 作為優(yōu)選,所述當(dāng)前詞所屬的類別特征通過W下過程確定:
[0021] 基于詞向量模型,對其中的詞根據(jù)彼此之間的相似度進(jìn)行聚類,兩個(gè)詞A和B對應(yīng) 的詞向量
么間的相似度通過W下公式計(jì)算:
[0022]
[0023] 聚類完成后為每一個(gè)類別設(shè)置一個(gè)唯一的類別編號;
[0024] 將當(dāng)前詞所屬的類別的類別編號輸出。
[0025] 作為優(yōu)選,所述詞向量模型通過W下過程獲得:
[0026] 下載領(lǐng)域相關(guān)的網(wǎng)頁并解析成純文本;
[0027] 對下載得到的文本進(jìn)行分詞處理;
[002引使用分好詞的文本訓(xùn)練詞向量模型。
[0029] 作為優(yōu)選,所述標(biāo)記1和標(biāo)記2采用BI0方式進(jìn)行標(biāo)注,B表示實(shí)體開始,I表示實(shí)體 中除開始之外的部分,0表示非實(shí)體部分,由此方式得到的標(biāo)記1為下述之一:
[0030] B-BRA:表示品牌名的開始元素;
[0031] I-BRA:表示品牌名的除開始元素 W外的其它元素;
[0032] B-SER:表示系列名的開始元素;
[0033] I-SER:表示系列名的除開始元素 W外的其它元素;
[0034] B-TYP:表示型號名的開始元素;
[0035] I-TYP:表示型號名的除開始元素 W外的其它元素;
[0036] B-C0M:表示公司名的開始元素;
[0037] I-C0M:表示公司名的除開始元素 W外的其它元素;
[0038] B-PR0:表示產(chǎn)品名的開始元素;
[0039] I-PR0:表示產(chǎn)品名的除開始元素 W外的其它元素;
[0040] 0:表示非實(shí)體元素。
[0041] 作為優(yōu)選,所述已訓(xùn)練的低層條件隨機(jī)場模型和高層條件隨機(jī)場模型通過如下過 程得到:
[0042] 收集產(chǎn)品相關(guān)的文本作為訓(xùn)練語料;
[0043] 對訓(xùn)練語料進(jìn)行分詞和詞性標(biāo)注;
[0044] 標(biāo)記分詞后的文本中出現(xiàn)的品牌、系列、型號、公司、產(chǎn)品名等實(shí)體,得到包含產(chǎn)品 實(shí)體的句子;
[0045] 對產(chǎn)品實(shí)體進(jìn)行一次特征、標(biāo)記1和標(biāo)記2表示;
[0046] 將W-次特征、標(biāo)記1表示的產(chǎn)品實(shí)體用于條件隨機(jī)場模型的訓(xùn)練得到已訓(xùn)練的 低層條件隨機(jī)場模型,其特征模板應(yīng)包括上一個(gè)詞、當(dāng)前詞和下一個(gè)詞的特征;
當(dāng)前第1頁
1 
2 
3 
4