專利名稱:電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法及識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理中的命名實體識別系統(tǒng)的構(gòu)建方法和識別方法,屬于從 相關(guān)信息中把電子產(chǎn)品的名稱進(jìn)行自動識別的技術(shù)。
背景技術(shù):
客觀存在并可相互區(qū)別的事物稱之為實體。實體可以是具體的人、事和物,也可以 是抽象的概念或聯(lián)系。命名實體識別任務(wù)是指識別文本中具有特定意義的實體。隨著人類 社會步入數(shù)字時代,越來越多的電子產(chǎn)品進(jìn)入到了人們的生活中。關(guān)于電子產(chǎn)品的各種報 道大量出現(xiàn)在電子文檔中。互聯(lián)網(wǎng)上更是充滿了關(guān)于電子產(chǎn)品的廣告、使用方法和用戶評 論。電子產(chǎn)品命名實體識別技術(shù)可以幫助人們更好的查詢和管理自己感興趣的電子產(chǎn)品信 息,幫助企業(yè)更快地發(fā)現(xiàn)互聯(lián)網(wǎng)上用戶對自己產(chǎn)品的反饋以及更準(zhǔn)確地投遞廣告,因此這 項技術(shù)越來越受到工業(yè)界和學(xué)術(shù)界的關(guān)注。
目前的命名實體識別技術(shù)主要針對新聞?wù)Z料中的人名、地名、機(jī)構(gòu)名等這些傳統(tǒng) 命名實體。主要的技術(shù)可以分為兩類基于規(guī)則的技術(shù)和基于機(jī)器學(xué)習(xí)的技術(shù)。基于規(guī)則 的技術(shù)主要利用命名實體的構(gòu)成規(guī)則,采用人工構(gòu)建知識庫和規(guī)則庫的方式來進(jìn)行實體識 別,這種技術(shù)準(zhǔn)確率較高,但是召回率較低,而且很難移植?;跈C(jī)器學(xué)習(xí)的技術(shù)主要采用 機(jī)器學(xué)習(xí)算法和上下文特征來進(jìn)行實體識別,其中比較重要的識別算法包括隱馬爾科夫模 型、最大熵模型、支持向量機(jī)模型、決策樹模型等。這類方法需要人工標(biāo)注大量訓(xùn)練語料,對 于缺少標(biāo)注語料的電子產(chǎn)品命名實體通常效果很差。
與傳統(tǒng)的命名實體相比,電子產(chǎn)品命名實體具有如下特點1)更新變化更快;2) 構(gòu)成復(fù)雜,并且通?;祀s有大量的數(shù)字與跨語言字符;3)缺乏規(guī)范和標(biāo)注語料。目前國內(nèi) 外對于電子產(chǎn)品命名實體識別的研究尚處于起步階段,對電子產(chǎn)品命名實體的定義各執(zhí)一 詞。而相應(yīng)的識別方法也主要集中于直接套用傳統(tǒng)的命名實體識別技術(shù),缺乏針對性,因此 識別準(zhǔn)確率和召回率都難以達(dá)到實用水平。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法,以解決基 于規(guī)則的識別系統(tǒng)在識別時召回率較低,而基于機(jī)器學(xué)習(xí)的識別系統(tǒng)識別時需要人工標(biāo)注 大量訓(xùn)練語料的問題。
它包括下述步驟一、利用下載軟件從互聯(lián)網(wǎng)中收集多種體裁的電子產(chǎn)品網(wǎng)頁信 息,提取出網(wǎng)頁信息的正文,從而形成原始語料的知識庫;使用分詞詞性標(biāo)注工具,對原始 語料進(jìn)行分詞和詞性標(biāo)注處理,之后按照電子產(chǎn)品命名實體的定義,對分詞和詞性標(biāo)注后 的語料進(jìn)行實體標(biāo)注,構(gòu)建一個標(biāo)注語料庫;所述對電子產(chǎn)品命名實體的定義是指按照一 個電子產(chǎn)品命名實體的品牌名、系列名和型號三部分區(qū)分出電子產(chǎn)品命名實體;二、基于條 件隨機(jī)域方法,定義多個特征模板,特征模板利用標(biāo)注語料和知識庫具體化出特征,條件隨 機(jī)域方法在標(biāo)注語料庫上的運算結(jié)果可以為每個特征賦予一定的權(quán)重,特征和其對應(yīng)的權(quán)3重構(gòu)成的條件隨機(jī)域模型就能用來進(jìn)行電子產(chǎn)品命名實體識別。
本發(fā)明還提供基于上述電子產(chǎn)品命名實體自動識別系統(tǒng)的識別方法,它包括下述 步驟一、把用于識別的自由文本輸入所述電子產(chǎn)品命名實體自動識別系統(tǒng);二、系統(tǒng)首先 利用特征模板提取特征,然后利用條件隨機(jī)域模型得到每個特征對應(yīng)的權(quán)重,把這些權(quán)重 利用條件隨機(jī)域方法進(jìn)行運算就得到最終的識別結(jié)果。
本發(fā)明的方法使用分詞詞性標(biāo)注工具來對互聯(lián)網(wǎng)中收集的電子產(chǎn)品網(wǎng)頁信息進(jìn) 行處理,避免了由人工標(biāo)注大量訓(xùn)練語料,基于條件隨機(jī)域方法和知識庫、標(biāo)注語料庫來處 理自由文本,因此識別系統(tǒng)在識別時召回率高。本發(fā)明的方法可以有效地管理和組織互聯(lián) 網(wǎng)上海量的商務(wù)信息,提高人們查找、管理和利用信息的效率。本發(fā)明利用電子產(chǎn)品命名實 體的構(gòu)成規(guī)律,針對產(chǎn)品類命名實體變化快、形式多樣化的特點,提出了基于知識庫的條件 隨機(jī)域模型的電子產(chǎn)品命名實體識別方法,并實現(xiàn)了相應(yīng)的系統(tǒng),系統(tǒng)識別的準(zhǔn)確率和召 回率均達(dá)到86%以上。
圖1是本發(fā)明實施方式五的流程示意圖,圖2是實施方式五中一個識別的舉例示 意圖。
具體實施方式
具體實施方式
一本實施方式的電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法包括 下述步驟一、利用下載軟件從互聯(lián)網(wǎng)中收集多種體裁的電子產(chǎn)品網(wǎng)頁信息,提取出網(wǎng)頁信 息的正文,從而形成原始語料的知識庫;使用分詞詞性標(biāo)注工具,對原始語料進(jìn)行分詞(把 句子中的詞與詞間拆分開)和詞性標(biāo)注處理(標(biāo)注每個詞的詞性),之后按照電子產(chǎn)品命名 實體的定義,對分詞和詞性標(biāo)注后的語料進(jìn)行實體標(biāo)注,構(gòu)建一個標(biāo)注語料庫;所述對電子 產(chǎn)品命名實體的定義是指按照一個電子產(chǎn)品命名實體的品牌名、系列名和型號三部分區(qū)分 出電子產(chǎn)品命名實體;二、基于條件隨機(jī)域方法,定義多個特征模板,特征模板利用標(biāo)注語 料和知識庫具體化出特征,條件隨機(jī)域方法在標(biāo)注語料庫上的運算結(jié)果可以為每個特征賦 予一定的權(quán)重,特征和其對應(yīng)的權(quán)重構(gòu)成的條件隨機(jī)域模型就可以用來進(jìn)行電子產(chǎn)品命名 實體識別。
具體實施方式
二 本實施方式與實施方式一的不同點是知識庫中的資源均是利 用網(wǎng)絡(luò)爬蟲技術(shù)和信息抽取技術(shù)從互聯(lián)網(wǎng)上自動獲取的;所述知識庫包括針對電子產(chǎn)品 具有品牌信息特性所構(gòu)造的品牌名詞典;針對一個品牌下的電子產(chǎn)品有系列之分所構(gòu)造的 系列名詞典;或針對一些具有特定意義的短語所構(gòu)造的特定詞語知識庫。
具體實施方式
三本實施方式的基于實施方式一的電子產(chǎn)品命名實體自動識別系 統(tǒng)的識別方法,它包括下述步驟一、把用于識別的自由文本輸入所述電子產(chǎn)品命名實體自 動識別系統(tǒng);二、系統(tǒng)首先利用特征模板提取特征,然后利用條件隨機(jī)域模型得到每個特征 對應(yīng)的權(quán)重,把這些權(quán)重利用條件隨機(jī)域方法進(jìn)行運算就得到最終的識別結(jié)果。
具體實施方式
四本實施方式與實施方式三的不同點是它還包括步驟三、采用 規(guī)則修正方法對識別后的電子產(chǎn)品命名實體進(jìn)行修正,所述修正規(guī)則是通過基于錯誤驅(qū)動 的方法獲得的。
具體實施方式
五下面結(jié)合圖1和圖2,對本發(fā)明技術(shù)方案進(jìn)行清楚、完整地描述, 顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的 實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都 屬于本發(fā)明保護(hù)的范圍。
本實施例提供一種電子產(chǎn)品命名實體自動識別的方法,能夠自動發(fā)現(xiàn)和識別網(wǎng)絡(luò) 自由文本中的相關(guān)電子產(chǎn)品命名實體。下面結(jié)合圖1具體說明本發(fā)明的實施方式。本實施 方式包括1)語料庫及知識庫的構(gòu)建;2)特征提取及特征模板的構(gòu)建;3)將基于知識庫的 機(jī)器學(xué)習(xí)和規(guī)則修正的方法應(yīng)用于電子產(chǎn)品命名實體識別中。
(一)電子產(chǎn)品命名實體定義及語料庫構(gòu)建。
在本發(fā)明中,根據(jù)產(chǎn)品組件更新頻率的不同,將產(chǎn)品命名實體劃分為三個部分,即 產(chǎn)品的品牌(BRA)、系列(SER)、型號(TYP),而產(chǎn)品命名實體由這個三個組件及一些描述屬 性組成。其中,品牌指的是固有的名詞——產(chǎn)品的商標(biāo),例如“諾基亞”;系列名是指一個品 牌下的一系列,例如“fesya^re”就是柯達(dá)數(shù)碼相機(jī)品牌下的一個系列;型號名指的是品 牌或系列下的版本信息,由字母、數(shù)字及一些符號組成,例如“Nokia N70”中N70就是Nokia 產(chǎn)品品牌下的一個型號。通常,在數(shù)碼產(chǎn)品領(lǐng)域更新頻率最高的部分為產(chǎn)品型號,而在本發(fā) 明的定義中,型號名將作為單獨的一個類別進(jìn)行識別,在結(jié)合了統(tǒng)計與規(guī)則的方法之后,該 類別可以被有效識別,并具有較高的更新容忍度與識別精度。
此外,在實際應(yīng)用中,品牌名與公司名重名,這可能會產(chǎn)生歧義。例如“諾基亞公司 最近推出了一款新型時尚的手機(jī)——諾基亞N70?!?。語句中第一個“諾基亞”指的是諾基亞 公司,而第二個“諾基亞”則代表品牌。還有的品牌名不僅會和公司名重名,在特定的環(huán)境 下,它代表其他類別,例如“蘋果”,可以為品牌名、公司名,也可以是水果,這就需要通過上 下文的環(huán)境確定該類詞正確的含義。也就是說,只有當(dāng)一個名詞性結(jié)構(gòu)含有以下確定性產(chǎn) 品信息,才可以構(gòu)成產(chǎn)品命名實體。
1)含有產(chǎn)品品牌、系列或者型號實體任何一個、兩個或三個,如“諾基亞5800”、 "6300手機(jī)”是一個產(chǎn)品名實體,“諾基亞”是品牌名實體,“6300”是型號名實體,而“數(shù)碼 相機(jī)”則不是一個產(chǎn)品名實體;
2)盡管沒有含有品牌、系列或者型號信息,但是含有某種品牌所特有的產(chǎn)品別稱 或者版本信息,如“小黑筆記本”是一個產(chǎn)品名實體,因為“小黑”是聯(lián)想旗下Thinkpad系 列的別稱。而在“智能型手機(jī)”中“智能型”是所有品牌可共有的屬性信息,所以它不是一 個產(chǎn)品名實體。
在上述電子產(chǎn)品命名實體定義的基礎(chǔ)上,利用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中收集多種體裁 的電子產(chǎn)品網(wǎng)絡(luò)信息,提取出網(wǎng)頁信息的正文構(gòu)建成原始的語料庫。然后利用品牌、系列知 識庫和分詞詞性標(biāo)注工具,對原始語料進(jìn)行分詞和詞性標(biāo)注處理,之后按照電子產(chǎn)品命名 實體的定義,對分詞和詞性標(biāo)注后的語料進(jìn)行實體標(biāo)注。對原始語料庫加工處理完之后,再 運用相關(guān)方法對加工語料庫進(jìn)行一致性評測,對不達(dá)標(biāo)的語料重新進(jìn)行標(biāo)注,直到評測指 標(biāo)達(dá)到一定程度。經(jīng)過上述步驟,構(gòu)建了一個信息量大、文本體裁多樣的規(guī)范語料庫。
( 二)基于知識庫的條件隨機(jī)域模型的電子產(chǎn)品命名實體識別方法。
命名實體識別對于文本信息的后處理非常重要。在命名實體識別中,最常用的機(jī) 器學(xué)習(xí)方法有最大熵模型、最大熵隱馬可夫模型和條件隨機(jī)域模型。這三類模型有非常相似的共同點,同屬于判別式模型。本發(fā)明中運用了效果最好的條件隨機(jī)域模型。機(jī)器學(xué)習(xí) 模型都需要構(gòu)建一個特征模板,用于在識別當(dāng)前詞時提取該詞的上下文特征。因此,特征模 板的構(gòu)建尤為重要。
在本發(fā)明中,把產(chǎn)品名實體識別的過程看作為一個多分類的過程,其中需要識別 的目標(biāo)類別包括產(chǎn)品品牌名、系列名、型號名、及公司名和產(chǎn)品實體,把每一種類別的名實 體又細(xì)分為開始部分、中間部分、和整體三種情況,把不屬于以上類別中任何一種的詞語都 歸為一類。為了解決產(chǎn)品命名實體識別中候選實體難觸發(fā)的問題,引入了產(chǎn)品品牌庫和系 列庫作為品牌實體和系列實體的觸發(fā)條件,同時它們也可以變相的觸發(fā)型號名實體的識 別。模型中的特征由一系列的特征模板產(chǎn)生。定義了一共13個一元特征模板,然后利用這 定義好的13個一元特征模板通過兩兩組合的方式,構(gòu)建成二元特征模板集合,然后用信息 增益進(jìn)行二元特征模板的篩選。篩選完成之后,用一元特征模板和二元特征模板進(jìn)行兩兩 組合,構(gòu)建成三元特征模板,再用同樣的方法進(jìn)行篩選,最后篩選了 40多個特征模板構(gòu)建 特征模板集。
在建立特征模板集合之后,從標(biāo)注的規(guī)范語料庫中隨機(jī)選出一定比例的語料構(gòu)成 訓(xùn)練集合,運用特征模板集和機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,通過對訓(xùn)練次數(shù)的調(diào)整,使訓(xùn)練出的 模型能很好的擬合實際文本。再用規(guī)則學(xué)習(xí)算法,分析實驗結(jié)果錯誤,提取出修正錯誤的規(guī) 則,改進(jìn)系統(tǒng)對電子產(chǎn)品命名實體識別的性能。
以上對本發(fā)明實施例所提供的電子產(chǎn)品命名實體自動識別方法及系統(tǒng)進(jìn)行了詳 細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說 明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù) 本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不 應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法,其特征在于它包括下述步驟一、利 用下載軟件從互聯(lián)網(wǎng)中收集多種體裁的電子產(chǎn)品網(wǎng)頁信息,提取出網(wǎng)頁信息的正文,從而 形成原始語料的知識庫;使用分詞詞性標(biāo)注工具,對原始語料進(jìn)行分詞和詞性標(biāo)注處理,之 后按照電子產(chǎn)品命名實體的定義,對分詞和詞性標(biāo)注后的語料進(jìn)行實體標(biāo)注,構(gòu)建一個標(biāo) 注語料庫;所述對電子產(chǎn)品命名實體的定義是指按照一個電子產(chǎn)品命名實體的品牌名、系 列名和型號三部分區(qū)分出電子產(chǎn)品命名實體;二、基于條件隨機(jī)域方法,定義多個特征模 板,特征模板利用標(biāo)注語料和知識庫具體化出特征,條件隨機(jī)域方法在標(biāo)注語料庫上的運 算結(jié)果可以為每個特征賦予一定的權(quán)重,特征和其對應(yīng)的權(quán)重構(gòu)成的條件隨機(jī)域模型就能 用來進(jìn)行電子產(chǎn)品命名實體識別。
2.根據(jù)權(quán)利要求1所述的電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法,其特征在于知 識庫中的資源均是利用網(wǎng)絡(luò)爬蟲技術(shù)和信息抽取技術(shù)從互聯(lián)網(wǎng)上自動獲取的;所述知識庫 包括針對電子產(chǎn)品具有品牌信息特性所構(gòu)造的品牌名詞典;針對一個品牌下的電子產(chǎn)品 有系列之分所構(gòu)造的系列名詞典;或針對一些具有特定意義的短語所構(gòu)造的特定詞語知識 庫。
3.基于權(quán)利要求1所述方法構(gòu)建的電子產(chǎn)品命名實體自動識別系統(tǒng)的識別方法,其特 征在于它包括下述步驟一、把用于識別的自由文本輸入所述電子產(chǎn)品命名實體自動識別 系統(tǒng);二、系統(tǒng)首先利用特征模板提取特征,然后利用條件隨機(jī)域模型得到每個特征對應(yīng)的 權(quán)重,把這些權(quán)重利用條件隨機(jī)域方法進(jìn)行運算就得到最終的識別結(jié)果。
4.根據(jù)權(quán)利要求3所述的電子產(chǎn)品命名實體自動識別方法,其特征在于它還包括步驟 三、采用規(guī)則修正方法對識別后的電子產(chǎn)品命名實體進(jìn)行修正,所述修正規(guī)則是通過基于 錯誤驅(qū)動的方法獲得的。
全文摘要
電子產(chǎn)品命名實體自動識別系統(tǒng)的構(gòu)建方法及識別方法,本發(fā)明涉及自然語言處理中的命名實體識別系統(tǒng)的構(gòu)建方法和識別方法,屬于從相關(guān)信息中把電子產(chǎn)品的名稱進(jìn)行自動識別的技術(shù)。用于電子產(chǎn)品的名稱識別。它解決了基于規(guī)則的識別系統(tǒng)在識別時召回率較低,而基于機(jī)器學(xué)習(xí)的識別系統(tǒng)識別時需要人工標(biāo)注大量訓(xùn)練語料的問題。構(gòu)建方法包括下述步驟形成原始語料的知識庫;構(gòu)建一個標(biāo)注語料庫;基于條件隨機(jī)域方法進(jìn)行電子產(chǎn)品命名實體識別。識別方法包括下述步驟把自由文本輸入電子產(chǎn)品命名實體自動識別系統(tǒng);系統(tǒng)首先利用特征模板提取特征,然后利用條件隨機(jī)域模型得到每個特征對應(yīng)的權(quán)重,把這些權(quán)重利用條件隨機(jī)域方法進(jìn)行運算得到識別結(jié)果。
文檔編號G06F17/30GK102033950SQ20101060277
公開日2011年4月27日 申請日期2010年12月23日 優(yōu)先權(quán)日2010年12月23日
發(fā)明者劉秉權(quán), 劉遠(yuǎn)超, 孫承杰, 林磊, 梅豐, 王曉龍 申請人:哈爾濱工業(yè)大學(xué)