本發(fā)明涉及計算機以及信息處理領(lǐng)域,特別涉及一種目標屬性抽取的方法和設備。
背景技術(shù):
在現(xiàn)有技術(shù)中,已有的目標屬性抽取的方法,是基于人工確定的抽取規(guī)則來進行抽取的,其中,具體的基于人工確定的抽取規(guī)則進行抽取的基本思路為:人工制定一些抽取規(guī)則,然后符合抽取規(guī)則的句子直接抽取得到目標屬性。
由此,基于人工確定的抽取規(guī)則方法中,所有的抽取知識都需要人工進行指定,十分依賴人工,如此這種方法的可移植性以及召回性是極其不夠的。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提出了一種目標屬性抽取的方法和設備,用以克服現(xiàn)有技術(shù)中的缺陷,以實現(xiàn)更好地對目標屬性的抽取。
具體的,本發(fā)明提出了以下具體的實施例:
本發(fā)明實施例提出了一種目標屬性抽取的方法,包括:
根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;
基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;
基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。
在一個具體的實施例中,所述文本信息是基于搜索引擎對所述目標進行搜索得到的。
在一個具體的實施例中,所述根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型,包括:
根據(jù)與目標相關(guān)的文本信息進行word2vec的詞向量表達訓練,生成語義擴展模型;
先對所述文本信息進行文字轉(zhuǎn)拼音處理,生成拼音文本;針對所述拼音文本進行HMM訓練,以生成拼音語義擴展模型。
在一個具體的實施例中,所述基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型,包括:
獲取與已知目標及已知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成訓練語料;
基于所述訓練語料進行目標屬性的標注以及CRF參數(shù)訓練,生成標注模型。
在一個具體的實施例中,所述基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性,包括:
獲取與未知目標及未知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成待標注語料;
利用所述標注模型對所述待標注語料進行處理,生成已標注語料;
從所述已標注語料中抽取所述未知目標的目標屬性信息。
本發(fā)明還提出了一種目標屬性抽取的設備,包括:
第一生成模塊,用以根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;
第二生成模塊,用以基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;
抽取模塊,用以基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。
在一個具體的實施例中,所述文本信息是基于搜索引擎對所述目標進行搜索得到的。
在一個具體的實施例中,所述第一生成模塊,用于:
根據(jù)與目標相關(guān)的文本信息進行word2vec的詞向量表達訓練,生成語義擴展模型;
先對所述文本信息進行文字轉(zhuǎn)拼音處理,生成拼音文本;針對所述拼音文本進行HMM訓練,以生成拼音語義擴展模型。
在一個具體的實施例中,所述第二生成模塊,用于:
獲取與已知目標及已知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成訓練語料;
基于所述訓練語料進行目標屬性的標注以及CRF參數(shù)訓練,生成標注模型。
在一個具體的實施例中,所述抽取模塊,用于:
獲取與未知目標及未知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成待標注語料;
利用所述標注模型對所述待標注語料進行處理,生成已標注語料;
從所述已標注語料中抽取所述未知目標的目標屬性信息。
與現(xiàn)有技術(shù)相比,本發(fā)明提出了一種目標屬性抽取的方法和設備,其中該方法,包括:根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。以此,實現(xiàn)了對目標屬性更好地抽取,且具有很好的可移植性以及召回的多樣性。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實施例提出的一種標屬性抽取的方法的流程示意圖;
圖2為本發(fā)明實施例提出的一種生成標注模型的方法的流程示意圖;
圖3為本發(fā)明實施例提出的一種目標屬性抽取的方法的流程示意圖;
圖4為本發(fā)明實施例提出的一種目標屬性抽取的設備的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和出示的本發(fā)明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
具體的,本發(fā)明提出了以下具體的實施例:
實施例1
本發(fā)明實施例1提出了一種目標屬性抽取的方法,如圖1所示,包括:
步驟101、根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;
步驟102、基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;
步驟103、基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。
在一個具體的實施例中,步驟101中的所述文本信息是基于搜索引擎對所述目標進行搜索得到的。
具體的,例如可以有百度,bing,谷歌等等搜索引擎。
此外,具體的步驟101,也即所述根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型,包括:
根據(jù)與目標相關(guān)的文本信息進行word2vec的詞向量表達訓練,生成語義擴展模型;
先對所述文本信息進行文字轉(zhuǎn)拼音處理,生成拼音文本;針對所述拼音文本進行HMM訓練,以生成拼音語義擴展模型。
具體的,word2vec的模型可以參考論文:Distributed Representations of Words and Phrases and their Compositionality;具體的,Word2vec為用來產(chǎn)生詞嵌入的模型。這些模型為淺層和雙層神經(jīng)網(wǎng)絡,用來訓練以重新建構(gòu)語言學之詞文本,網(wǎng)絡以詞表現(xiàn),并且需猜測相鄰位置的輸入詞,在word2vec中bag-of-words假設下,詞的順序是不重要的;訓練完成之后,word2vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關(guān)系。
而HMM為隱馬爾可夫模型,人工智能中一種決策模型。用于語音識別,行為識別,文字識別以及故障診斷等領(lǐng)域。
具體通過生成的語義擴展模型,目的在于充分利用待標注文本的語義信息,這樣能夠更加充分的理解待標注文本的意圖,而不是僅僅依賴文本本身所有的詞信息。另外,在面對有文本拼寫錯誤的情況下,基于拼音語義擴展模型,可以對拼音進行語義召回,保證文本拼寫錯誤的識別準確性。
在一個具體的實施例中,步驟102,也即所述基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型,如圖2所示,包括:
步驟1021、獲取與已知目標及已知目標的目標屬性相關(guān)的文本信息;
步驟1022、對所獲取的文本信息進行切詞處理;
步驟1023、對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
步驟1024、利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
步驟1025、利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;具體的,例如召回的詞1的分值可以為0.35,召回的詞2的分值為0.34等等。
步驟1026、對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成訓練語料;
具體的,比如召回來的詞的分值是0.34,需要進行離散化處理,以均衡的按照10份離散化為例來進行說明,則在離散化后是4。同理,若召回分值為0.5,離散化后則為5。
步驟1027、基于所述訓練語料進行目標屬性的標注以及CRF參數(shù)訓練,生成標注模型。
在一個具體的實施例中,步驟103,也即所述基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性,包括:
獲取與未知目標及未知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成待標注語料;
利用所述標注模型對所述待標注語料進行處理,生成已標注語料;
從所述已標注語料中抽取所述未知目標的目標屬性信息。
具體的,在對未知目標的上述操作中,執(zhí)行了與已知目標相似的步驟1021-步驟1026,后利用
本方案利用了統(tǒng)計模型,保證在目標屬性抽取中能夠得到擴展性以及高召回率,且本方案不僅對句子本身進行了強分析,還對句子中的關(guān)鍵詞(名詞、形容詞)進行了語義召回,這樣就能夠保證了對句子的本身語義信息進行更全面的采集。而且還對句子進行了拼音的語義召回,保證了在句子存在一定錯誤的情況下,依然能夠?qū)渥舆M行正確的解析以及分析。最后,還利用CRF(conditional random field,條件隨機場)進行了所有特征信息的匯總,并進行了模型的學習,充分利用所有特征信息。其中,整個過程可以如圖3所示。
實施例2
本發(fā)明實施例還提出了一種目標屬性抽取的設備,如圖4所示,包括:
第一生成模塊201,用以根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;
第二生成模塊202,用以基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;
抽取模塊203,用以基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。
具體的,所述文本信息是基于搜索引擎對所述目標進行搜索得到的。
具體的,所述第一生成模塊201,用于:
根據(jù)與目標相關(guān)的文本信息進行word2vec的詞向量表達訓練,生成語義擴展模型;
先對所述文本信息進行文字轉(zhuǎn)拼音處理,生成拼音文本;針對所述拼音文本進行HMM訓練,以生成拼音語義擴展模型。
具體的,所述第二生成模塊202,用于:
獲取與已知目標及已知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成訓練語料;
基于所述訓練語料進行目標屬性的標注以及CRF參數(shù)訓練,生成標注模型。
具體的,所述抽取模塊203,用于:
獲取與未知目標及未知目標的目標屬性相關(guān)的文本信息;
對所獲取的文本信息進行切詞處理;
對進行了切詞處理后的文本信息進行詞性標注處理,獲取對應的名詞以及形容詞;
利用語義擴展模型對所獲取的名詞以及形容詞進行語義召回,獲取語義召回的詞;
利用拼音語義擴展模型對所獲取的名詞以及形容詞進行拼音召回,獲取拼音召回的詞;其中,語義召回的詞和拼音召回的詞都對應有分值;
對語義召回的詞的分值和拼音召回的詞的分值進行均衡的離散化處理,生成待標注語料;
利用所述標注模型對所述待標注語料進行處理,生成已標注語料;
從所述已標注語料中抽取所述未知目標的目標屬性信息。
與現(xiàn)有技術(shù)相比,本發(fā)明提出了一種目標屬性抽取的方法和設備,其中該方法,包括:根據(jù)與目標相關(guān)的文本信息生成語義擴展模型和拼音語義擴展模型;其中,所述目標包括已知目標和未知目標;基于所述語義擴展模型和拼音語義擴展模型對已知目標進行處理,生成標注模型;基于所述標注模型以及所述語義擴展模型和拼音語義擴展模型對所述未知目標進行處理,以抽取所述未知目標的目標屬性。以此,實現(xiàn)了對目標屬性更好地抽取,且具有很好的可移植性以及高召回性。此外,對句子語義有深度理解,對句子有誤的高容忍性。
附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,該模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
在本申請所提供的幾個實施例中,應該理解到,所揭露的方法、系統(tǒng)或裝置,可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,該模塊的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,又例如,多個模塊或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明的保護范圍應以所附權(quán)利要求為準。