本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種獲取詞語(yǔ)的方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)信息的規(guī)模越來(lái)越龐大,要從中獲取到有用的數(shù)據(jù)信息就需要更加有效的文本分類技術(shù)。而現(xiàn)有的一些成熟文本分類技術(shù)對(duì)于英文文本的應(yīng)用效果相對(duì)理想,而對(duì)于中文文本的分類效果并不理想。究其原因,其中中文文本中的語(yǔ)義因素的作用是不容忽視的。最為基礎(chǔ)的語(yǔ)義關(guān)系有兩類:1、上位概念和下位概念之間的關(guān)系,下位概念的出現(xiàn)僅僅是為了限定上位概念的外延;2、述謂關(guān)系,這是最多也最基礎(chǔ)的關(guān)系。一個(gè)基本詞匯單位對(duì)另一個(gè)基本詞匯單位的陳述。而語(yǔ)法形式則大部分是為了表達(dá)這些關(guān)系而產(chǎn)生的。
在上位和下位概念的關(guān)系中,最為常見(jiàn)的就是整體與部分的關(guān)系:整體通常有一個(gè)結(jié)構(gòu),它們的組成部分是可分離的并且有特定的功能。目前的分本分類處理中,提取整體與部分關(guān)系詞語(yǔ)的方式一般都是基于一些固定的模式,包括詞匯、句法模式來(lái)確定詞語(yǔ)間的整體與部分關(guān)系。例如,基于并列結(jié)構(gòu)的從網(wǎng)頁(yè)中獲取部分整體關(guān)系的方法,利用整體與部分關(guān)系模式從Google獲取語(yǔ)料,匹配出具有并列結(jié)構(gòu)的句子,從中獲取出給定的整體概念的部分概念,用層次聚類算法對(duì)候選的部分概念進(jìn)行自動(dòng)聚類,以確定具有整體與部分關(guān)系的詞語(yǔ)。但是,這種并列結(jié)構(gòu)的方式所能夠匹配出的語(yǔ)料數(shù)據(jù)只是在形式上與模板的結(jié)構(gòu)相匹配,而在實(shí)際的內(nèi)容上并非是整體與部分的關(guān)系,因此該方式的提取準(zhǔn)確率相對(duì)較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種獲取詞語(yǔ)的方法及裝置,主要目的在于通過(guò)詞語(yǔ)標(biāo)注領(lǐng)域信息來(lái)提高語(yǔ)料詞語(yǔ)間整體與部分關(guān)系的提取準(zhǔn)確率。
為達(dá)到上述目的,本發(fā)明主要提供如下技術(shù)方案:
一方面,本發(fā)明提供了一種獲取詞語(yǔ)的方法,該方法包括:
對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,得到帶有分詞信息的獨(dú)立語(yǔ)句;
在所述獨(dú)立語(yǔ)句中,利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的候選語(yǔ)句;
利用領(lǐng)域詞典以及所述候選語(yǔ)句中的分詞信息,確定所述候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞,所述領(lǐng)域詞典是記錄有相同領(lǐng)域分詞的詞典;
根據(jù)所述領(lǐng)域分詞的位置特征,輸出具有整體與部分關(guān)系的領(lǐng)域分詞集合。
另一方面,本發(fā)明提供了一種獲取詞語(yǔ)的裝置,該裝置包括:
預(yù)處理單元,用于對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,得到帶有分詞信息的獨(dú)立語(yǔ)句;
篩選單元,用于在所述預(yù)處理單元得到的獨(dú)立語(yǔ)句中,利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的候選語(yǔ)句;
確定單元,用于利用領(lǐng)域詞典以及所述候選語(yǔ)句中的分詞信息,確定所述篩選單元選擇的候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞;
輸出單元,用于根據(jù)所述確定單元確定的領(lǐng)域分詞的位置特征,輸出具有整體與部分關(guān)系的領(lǐng)域分詞集合。
依據(jù)上述本發(fā)明所提出的一種獲取詞語(yǔ)的方法及裝置,通過(guò)對(duì)文本語(yǔ)料進(jìn)行的分詞、分句處理,并利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的獲選語(yǔ)句。就可以初步選定在給文本語(yǔ)料中為并列結(jié)構(gòu)可能是具有整體與部分關(guān)系的候選語(yǔ)句。在利用該候選語(yǔ)句中的分詞信息,以及選定的領(lǐng)域詞典,判斷出具有并列結(jié)構(gòu)的分詞是否屬于相同的領(lǐng)域,若是,則可以根據(jù)分詞在句中的位置來(lái)確定各個(gè)分詞之間的整體與部分關(guān)系,同時(shí)以相對(duì)應(yīng)的關(guān)系加以輸出顯示。相對(duì)于現(xiàn)有的判斷整體與部分關(guān)系所采用的固定模板的比對(duì)方式而言,本發(fā)明所采用的方法通過(guò)對(duì)句子中的分詞加入進(jìn)一步的判斷,確定具有并列結(jié)構(gòu)的分詞是屬于同一類領(lǐng)域中的分詞,從而能夠根據(jù)分詞的具體內(nèi)容避免分詞提取的形式化。再根據(jù)分詞之間的位置關(guān)系判斷哪些分詞屬于整體領(lǐng)域分詞,哪些屬于部分領(lǐng)域分詞。從而進(jìn)一步提高分詞整體與部分關(guān)系的提取準(zhǔn)確性。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提出的一種獲取詞語(yǔ)的方法的流程圖;
圖2示出了本發(fā)明實(shí)施例提出的另一種獲取詞語(yǔ)的方法的流程圖;
圖3示出了本發(fā)明實(shí)施例提出的一種獲取詞語(yǔ)的裝置的組成框圖;
圖4示出了本發(fā)明實(shí)施例提出的另一種獲取詞語(yǔ)的裝置的組成框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本發(fā)明的示例性實(shí)施例。雖然附圖中顯示了本發(fā)明的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本發(fā)明而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本發(fā)明,并且能夠?qū)⒈景l(fā)明的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供了一種獲取詞語(yǔ)的方法,如圖1所示,該方法用于獲取文本語(yǔ)料中具有整體與部分關(guān)系的詞語(yǔ),具體步驟包括:
101、對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,得到帶有分詞信息的獨(dú)立語(yǔ)句。
在本發(fā)明實(shí)施例中,獲取的文本數(shù)據(jù)是指用于提取具有整體與部分關(guān)系詞語(yǔ)的語(yǔ)料數(shù)據(jù),具體獲取的來(lái)源可以從不同的語(yǔ)料庫(kù)選取不容領(lǐng)域或主題的文本數(shù)據(jù)。而預(yù)處理則是指對(duì)大段或整篇的文本進(jìn)行分割處理,得到便于處理的句子或詞組等簡(jiǎn)短的文本數(shù)據(jù)。具體的可以是通過(guò)分詞、分句的文本處理技術(shù)進(jìn)行文本的細(xì)分,由于分詞、分句技術(shù)已經(jīng)是廣泛使用的文本處理技術(shù),因此,本發(fā)明實(shí)施例對(duì)此不做具體說(shuō)明,同時(shí)也不限定具體的分詞方式或分句方式。其目的是得到帶有分詞信息的獨(dú)立語(yǔ)句。其中,獨(dú)立語(yǔ)句是具有完成結(jié)構(gòu)或形式的單句,而分詞信息則是將該單句進(jìn)行分詞處理后所得到的分詞結(jié)果,如該單句中有哪些分詞,各分詞在句中 的位置等信息。
102、利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的候選語(yǔ)句。
在步驟101所得到的獨(dú)立語(yǔ)句中,使用結(jié)構(gòu)模板進(jìn)行篩選,選出具有并列結(jié)構(gòu)的獨(dú)立語(yǔ)句。其中,結(jié)構(gòu)模板是預(yù)置在系統(tǒng)中用于判斷句子結(jié)構(gòu)的模板,在本實(shí)施例中,所使用的結(jié)構(gòu)模板是用于判斷獨(dú)立語(yǔ)句中是否具有并列結(jié)構(gòu)的模板。而在一個(gè)獨(dú)立語(yǔ)句中并列結(jié)構(gòu)還包括詞的并列和詞組的并列,對(duì)于具體的并列結(jié)構(gòu)本發(fā)明實(shí)施例也不做具體限定。只是根據(jù)獨(dú)立語(yǔ)句的句式結(jié)構(gòu)進(jìn)行判斷,將符合并列結(jié)構(gòu)的獨(dú)立語(yǔ)句確定為候選語(yǔ)句。
103、利用領(lǐng)域詞典以及候選語(yǔ)句中的分詞信息,確定該候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞。
領(lǐng)域詞典是記錄有相同領(lǐng)域分詞的詞典,由于具有整體與部分關(guān)系的分詞或詞組必然是屬于相同的領(lǐng)域,因此,通過(guò)判斷候選語(yǔ)句中具有并列結(jié)構(gòu)的分詞是否屬于相同的領(lǐng)域就成為判斷這些分詞是否能構(gòu)成整體與部分關(guān)系的前提。也就是說(shuō),如果兩個(gè)具有并列結(jié)構(gòu)的分詞并不屬于同一個(gè)領(lǐng)域,則這兩個(gè)詞也不可能具有或與該局中其他分詞具有整體與部分的關(guān)系。在本步驟中,除了要確定候選語(yǔ)句中具有別列結(jié)構(gòu)的分詞所屬領(lǐng)域外,還需要確定該局中其他的分詞是否屬于該領(lǐng)域詞典,以便后續(xù)根據(jù)分詞具體的位置信息確定分詞之間是否具有整體與部分的關(guān)系。
104、根據(jù)領(lǐng)域分詞的位置特征,輸出具有整體與部分關(guān)系的領(lǐng)域分詞集合。
領(lǐng)域分詞的位置特征是在上述分詞過(guò)程中記錄的分詞在獨(dú)立語(yǔ)句中的位置信息,根據(jù)不同的位置信息來(lái)判斷分詞之間的整體與部分關(guān)系。例如,汽車包括發(fā)動(dòng)機(jī)、變速箱和輪胎等,其中,“發(fā)動(dòng)機(jī)”、“變速箱”、“輪胎”就是具有并列結(jié)構(gòu)的分詞,且這些分詞同屬于汽車領(lǐng)域,所以,通過(guò)判斷“汽車”與“發(fā)動(dòng)機(jī)”、“變速箱”、“輪胎”的位置關(guān)系,可以判斷出“汽車”與“發(fā)動(dòng)機(jī)”、“變速箱”、“輪胎”是具有整體與部分關(guān)系的分詞。
在得到文本中所有整體與部分關(guān)系的分詞組合后,輸出包含所有具備整體與部分關(guān)系的領(lǐng)域分詞集合。
結(jié)合上述的實(shí)現(xiàn)方式可以看出,本發(fā)明實(shí)施例所采用的獲取詞語(yǔ)的方 法,通過(guò)對(duì)文本語(yǔ)料進(jìn)行的分詞、分句處理,并利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的獲選語(yǔ)句。就可以初步選定在給文本語(yǔ)料中為并列結(jié)構(gòu)可能是具有整體與部分關(guān)系的候選語(yǔ)句。在利用該候選語(yǔ)句中的分詞信息,以及選定的領(lǐng)域詞典,判斷出具有并列結(jié)構(gòu)的分詞是否屬于相同的領(lǐng)域,若是,則可以根據(jù)分詞在句中的位置來(lái)確定各個(gè)分詞之間的整體與部分關(guān)系,同時(shí)以相對(duì)應(yīng)的關(guān)系加以輸出顯示。相對(duì)于現(xiàn)有的判斷整體與部分關(guān)系所采用的固定模板的比對(duì)方式而言,本發(fā)明實(shí)施例所采用的方法通過(guò)對(duì)句子中的分詞加入進(jìn)一步的判斷,確定具有并列結(jié)構(gòu)的分詞是屬于同一類領(lǐng)域中的分詞,從而能夠根據(jù)分詞的具體內(nèi)容避免分詞提取的形式化。再根據(jù)分詞之間的位置關(guān)系判斷哪些分詞屬于整體領(lǐng)域分詞,哪些屬于部分領(lǐng)域分詞。從而進(jìn)一步提高分詞整體與部分關(guān)系的提取準(zhǔn)確性。
為了更加詳細(xì)地說(shuō)明本發(fā)明提出的上述獲取詞語(yǔ)的方法,本發(fā)明實(shí)施例還提出了一種獲取詞語(yǔ)的方法,如圖2所示,該方法在提取詞語(yǔ)時(shí)所包括步驟為:
201、對(duì)獲取的文本數(shù)據(jù)進(jìn)行分句處理,得到所述獨(dú)立語(yǔ)句。
對(duì)所獲取的文本數(shù)據(jù)進(jìn)行分句處理。最簡(jiǎn)單的方式就是判斷文本中的標(biāo)點(diǎn)符號(hào),將句號(hào)、感嘆號(hào)、問(wèn)號(hào)等能夠表示獨(dú)立語(yǔ)句的符號(hào)作為分句的標(biāo)準(zhǔn),而不能以逗號(hào)、頓號(hào)、分號(hào)等符號(hào)進(jìn)行分句。以此完成對(duì)文本的分句處理過(guò)程。
202、對(duì)獨(dú)立語(yǔ)句進(jìn)行分詞處理,并將得到的分詞信息標(biāo)記在該獨(dú)立語(yǔ)句中。
在完成分句處理后,還需要進(jìn)一步對(duì)所得到獨(dú)立語(yǔ)句進(jìn)行分詞處理,并將分詞的結(jié)果標(biāo)記在該獨(dú)立語(yǔ)句中,以便后續(xù)處理的讀取調(diào)用。其中,分詞的結(jié)果包括具體的分詞以及該分詞在獨(dú)立語(yǔ)句的位置信息。
203、利用特征符號(hào)提取具有并列結(jié)構(gòu)的獨(dú)立語(yǔ)句。
特征符號(hào)在本實(shí)施例中用于表示獨(dú)立語(yǔ)句中存在有并列結(jié)構(gòu),其中該特征符號(hào),可以至少包含下述之一:頓號(hào)、邏輯關(guān)系符號(hào);例如,頓號(hào)可以用“、”表示、邏輯關(guān)系符號(hào)可以為并列關(guān)系符號(hào)(可以用“&”表示)、選擇關(guān)系符號(hào)(可以用“‖”表示)等標(biāo)點(diǎn)或字符。利用特征符號(hào)能夠?qū)? 具有并列結(jié)構(gòu)的獨(dú)立語(yǔ)句篩選出來(lái)。具體的特征符號(hào)本發(fā)明可以根據(jù)實(shí)際應(yīng)用情況選擇,對(duì)此本發(fā)明不進(jìn)行限定。
204、利用肯定模板篩選出具有整體與部分關(guān)系的候選語(yǔ)句。
在具有并列結(jié)構(gòu)的獨(dú)立語(yǔ)句中,通過(guò)肯定模板再選出具有整體與部分關(guān)系的獨(dú)立語(yǔ)句,并定義為候選語(yǔ)句。其中,肯定模板是用于判斷獨(dú)立語(yǔ)句具有整體與部分關(guān)系的語(yǔ)句結(jié)構(gòu)。并且,肯定模板中可以包括有多種的語(yǔ)句結(jié)構(gòu),例如,^(.*?)包括(.*?)、(.*?)、(.*?)$的結(jié)構(gòu)(如手機(jī)包括處理器、內(nèi)存、屏幕、外殼等部件),(.*?)由(.*?)、(.*?)、(.*?)等組成$的結(jié)構(gòu)(如電腦由主機(jī)、顯示器、鼠標(biāo)、鍵盤等組成),(.*?)(為|作為|有|分為)(.*?)、(.*?)、(.*?)$的結(jié)構(gòu)(如汽車分為客車、貨車)等等。
該肯定模板中的語(yǔ)句結(jié)構(gòu)可根據(jù)需要進(jìn)行增加或刪減。因此,具體模板中的語(yǔ)句結(jié)構(gòu)在本發(fā)明實(shí)施例中并不做限定。
進(jìn)一步的,為了提高判斷整體與部分關(guān)系的準(zhǔn)確率,還可以將符合肯定模板的候選語(yǔ)句再利用否定模板進(jìn)行復(fù)核匹配,從而將具有并列結(jié)構(gòu)但不具有整體與部分關(guān)系的語(yǔ)句進(jìn)行排除。例如,手機(jī)是通信工具、智能設(shè)備、電子設(shè)備。該句中的“通信工具”、“智能設(shè)備”、“電子設(shè)備”具有并列結(jié)構(gòu)但與“手機(jī)”并非是整體與部分關(guān)系。因此,要將具有這類語(yǔ)句結(jié)構(gòu)的獲選語(yǔ)句加以排除。具體的否定模板中的語(yǔ)句結(jié)構(gòu)還包括有:^如(.*?)、(.*?)、(.*?)$的結(jié)構(gòu),^(.*?)是(.*?)、(.*?)、(.*?)$的結(jié)構(gòu),(.*?)、(.*?)、(.*?)(為|作為|有|分為)(.*?)$的結(jié)構(gòu)。將不符合否定模板的候選語(yǔ)句保留并進(jìn)行后續(xù)的處理。
205、利用領(lǐng)域詞典以及候選語(yǔ)句中的分詞信息,確定該候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞。
在確定領(lǐng)域分詞之前,首先是要選定領(lǐng)域詞典,而領(lǐng)域詞典的選取一般是在獲取該文本時(shí)根據(jù)該文本的內(nèi)容所確定的,也可以是通過(guò)提供可選的領(lǐng)域詞典表進(jìn)行選擇。該領(lǐng)域詞典是具有該文本所屬技術(shù)領(lǐng)域的所有分詞的詞典。通過(guò)將候選語(yǔ)句中的分詞信息與領(lǐng)域詞典中的分詞進(jìn)行匹配,就可以判斷出該候選語(yǔ)句中的哪些分詞是相同領(lǐng)域的分詞,尤其是判斷該候選語(yǔ)句中具有并列結(jié)構(gòu)的分詞是否為相同領(lǐng)域的分詞,若相同,則將這些分詞定義為領(lǐng)域分詞。
206、利用位置模板確定候選語(yǔ)句中的整體領(lǐng)域分詞與部分領(lǐng)域分詞。
位置模板類似于上述的肯定模板,用于根據(jù)分詞在句子中的位置來(lái)判斷分詞的具體屬性,即該分詞是整體領(lǐng)域分詞或是部分領(lǐng)域分詞。大多數(shù)情況下,具有并列結(jié)構(gòu)的分詞都屬于部分領(lǐng)域分詞。而整體領(lǐng)域分詞與部分領(lǐng)域分詞的關(guān)系是上位概念與下位概念的關(guān)系。
207、提取具有整體與部分關(guān)系的領(lǐng)域分詞。
確定了候選語(yǔ)句中的整體領(lǐng)域分詞與部分領(lǐng)域分詞后,就可以將分詞從候選語(yǔ)句中提取出來(lái)。進(jìn)一步的,還可以對(duì)所提取出來(lái)的分詞進(jìn)行詞語(yǔ)的修正,去除一些分詞中不必要的修飾詞,如去除數(shù)詞、量詞或尾詞后綴等修飾詞。
208、將具有整體與部分關(guān)系的領(lǐng)域分詞集合以列表的形式輸出。
最后,將修正后的整體領(lǐng)域分詞與部分領(lǐng)域添加到相應(yīng)的表格中以列表的形式加以輸出。需要說(shuō)明的是,在該列表中,包括有該文本中從所有分句提取出來(lái)的具有整體與部分關(guān)系的領(lǐng)域分詞,因此,該列表也可以視為一個(gè)領(lǐng)域分詞集合,且為具有整體與部分對(duì)應(yīng)關(guān)系的領(lǐng)域分詞集合。
進(jìn)一步的,作為對(duì)上述方法的實(shí)現(xiàn),本發(fā)明實(shí)施例提供了一種獲取詞語(yǔ)的裝置,該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。該裝置設(shè)置在用于文本語(yǔ)料分析的設(shè)備中,特別是提取具有整體與部分關(guān)系的詞語(yǔ)的計(jì)算設(shè)備,如圖3所示,該裝置包括:
預(yù)處理單元31,用于對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,得到帶有分詞信息的獨(dú)立語(yǔ)句;
篩選單元32,用于在所述預(yù)處理單元31得到的獨(dú)立語(yǔ)句中,利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的候選語(yǔ)句;
確定單元33,用于利用領(lǐng)域詞典以及所述候選語(yǔ)句中的分詞信息,確定所述篩選單元32選擇的候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞,所述領(lǐng)域詞典是記錄有相同領(lǐng)域分詞的詞典;
輸出單元34,用于根據(jù)所述確定單元33確定的領(lǐng)域分詞的位置特征, 輸出具有整體與部分關(guān)系的領(lǐng)域分詞集合。
進(jìn)一步的,如圖4所示,所述預(yù)處理單元31包括:
分句模塊311,用于對(duì)所述文本數(shù)據(jù)進(jìn)行分句處理,得到所述獨(dú)立語(yǔ)句;
分詞模塊312,用于對(duì)所述分句模塊311得到的獨(dú)立語(yǔ)句進(jìn)行分詞處理,得到所述獨(dú)立語(yǔ)句的分詞信息;
標(biāo)記模塊,用于將所述分詞模塊312得到的分詞信息標(biāo)記在所述獨(dú)立語(yǔ)句中。
進(jìn)一步的,如圖4所示,所述篩選單元32包括:
提取模塊321,用于利用特征符號(hào)提取具有并列結(jié)構(gòu)的獨(dú)立語(yǔ)句,其中,所述特征符號(hào)至少包含下述之一:頓號(hào)、邏輯關(guān)系符號(hào);
篩選模塊322,用于在所述提取模塊321提取的并列結(jié)構(gòu)的獨(dú)立語(yǔ)句中,利用肯定模板篩選出具有整體與部分關(guān)系的候選語(yǔ)句,所述肯定模板用于判斷所述獨(dú)立語(yǔ)句中具有整體與部分關(guān)系的語(yǔ)句結(jié)構(gòu)。
進(jìn)一步的,如圖4所示,所述篩選模塊322包括:
篩選子模塊3221,用于利用否定模板篩選符合所述肯定模塊的獨(dú)立語(yǔ)句,所述否定模板用于判斷所述獨(dú)立語(yǔ)句中具有非整體與部分關(guān)系的語(yǔ)句結(jié)構(gòu);
確定子模塊3222,用于確定不符合所述篩選子模塊3221使用的否定模板的獨(dú)立語(yǔ)句為所述候選語(yǔ)句。
進(jìn)一步的,如圖4所示,所述確定單元33包括:
選擇模塊331,用于選取領(lǐng)域詞典;
判斷模塊332,用于根據(jù)所述候選語(yǔ)句中的分詞信息,判斷所述候選語(yǔ)句中具有并列結(jié)構(gòu)的分詞是否為所述選擇模塊331選取的領(lǐng)域詞典中的領(lǐng)域分詞;
確定模塊333,用于當(dāng)所述判斷模塊332判斷分詞在所述領(lǐng)域詞典中時(shí),確定所述分詞為領(lǐng)域分詞。
進(jìn)一步的,如圖4所示,所述輸出單元34包括:
確定模塊341,用于利用位置模板確定所述候選語(yǔ)句中的整體領(lǐng)域分詞與部分領(lǐng)域分詞,所述整體領(lǐng)域分詞與部分領(lǐng)域分詞的關(guān)系是上位概念與 下位概念的關(guān)系;
提取模塊342,用于提取所述確定模塊341所確定的具有整體與部分關(guān)系的領(lǐng)域分詞;
輸出模塊343,用于將所述提取模塊342所提取的具有整體與部分關(guān)系的領(lǐng)域分詞集合以列表的形式輸出。
進(jìn)一步的,如圖4所示,所述提取模塊342包括:
修正子模塊3421,用于對(duì)所述整體領(lǐng)域分詞與部分領(lǐng)域分詞進(jìn)行修正處理,所述修正處理包括:去除數(shù)詞、去除量詞和/或去除尾詞后綴;
提取子模塊3422,用于提取所述修正子模塊3421經(jīng)修正處理后的整體領(lǐng)域分詞與部分領(lǐng)域分詞。
綜上所述,本發(fā)明實(shí)施例所采用的獲取詞語(yǔ)的方法及裝置,通過(guò)對(duì)文本語(yǔ)料進(jìn)行的分詞、分句處理,并利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的獲選語(yǔ)句。就可以初步選定在給文本語(yǔ)料中為并列結(jié)構(gòu)可能是具有整體與部分關(guān)系的候選語(yǔ)句。在利用該候選語(yǔ)句中的分詞信息,以及選定的領(lǐng)域詞典,判斷出具有并列結(jié)構(gòu)的分詞是否屬于相同的領(lǐng)域,若是,則可以根據(jù)分詞在句中的位置來(lái)確定各個(gè)分詞之間的整體與部分關(guān)系,同時(shí)以相對(duì)應(yīng)的關(guān)系加以輸出顯示。相對(duì)于現(xiàn)有的判斷整體與部分關(guān)系所采用的固定模板的比對(duì)方式而言,本發(fā)明實(shí)施例所采用的方法通過(guò)對(duì)句子中的分詞加入進(jìn)一步的判斷,確定具有并列結(jié)構(gòu)的分詞是屬于同一類領(lǐng)域中的分詞,從而能夠根據(jù)分詞的具體內(nèi)容避免分詞提取的形式化。再根據(jù)分詞之間的位置關(guān)系判斷哪些分詞屬于整體領(lǐng)域分詞,哪些屬于部分領(lǐng)域分詞。從而進(jìn)一步提高分詞整體與部分關(guān)系的提取準(zhǔn)確性。
所述獲取詞語(yǔ)的裝置包括處理器和存儲(chǔ)器,上述預(yù)處理單元、篩選單元、確定單元和輸出單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)提高語(yǔ)料詞語(yǔ)間整體與部分關(guān)系的提取準(zhǔn)確率。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ) 器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,得到帶有分詞信息的獨(dú)立語(yǔ)句;在所述獨(dú)立語(yǔ)句中,利用結(jié)構(gòu)模板篩選出具有并列結(jié)構(gòu)的候選語(yǔ)句;利用領(lǐng)域詞典以及所述候選語(yǔ)句中的分詞信息,確定所述候選語(yǔ)句中具有并列結(jié)構(gòu)的領(lǐng)域分詞,所述領(lǐng)域詞典是記錄有相同領(lǐng)域分詞的詞典;根據(jù)所述領(lǐng)域分詞的位置特征,輸出具有整體與部分關(guān)系的領(lǐng)域分詞集合。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī) 實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤 存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。