專利名稱:通配符類模板泛化方法和裝置、通用模板泛化方法和系統(tǒng)的制作方法
通配符類模板泛化方法和裝置、通用模板泛化方法和系統(tǒng)
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種通配符類模板泛化方法和裝置、通用模板泛化方法和系統(tǒng)。
背景技術(shù):
所謂模板泛化指的是從大量的文本對象中抽象出相似的模板,并用該模板反應(yīng)一類文本對象的表述方式的過程。模板泛化在搜索需求識別、網(wǎng)頁類型識別以及主題識別等技術(shù)中都是十分重要的組成部分,例如在搜索需求識別中,利用大量具有某類需求的搜索項(query)進行模板泛化,從而利用泛化得到的模板進行該類需求的query識別。其中模板可以包含通配符槽、詞典槽、函數(shù)槽以及固定詞語中的至少一種構(gòu)成,例如模板“ [D:明星][D:電視劇][ff:0-6]劇照[F:數(shù)字]”,其中,[D:明星]和[D:電視劇]屬于詞典槽,分別表示可匹配明星名和電視劇名,[W:0-6]為通配符槽,表示可匹配長度為O至6的任意詞語,“劇照”是固定詞語,[F:數(shù)字]為函數(shù)槽,表示可匹配識別為數(shù)字的詞語。
基于上述模板的構(gòu)成,模板泛化的方式可以包括:詞典類泛化、函數(shù)類泛化以及通配符類泛化。其中通配符類泛化時將query的修飾限定詞泛化為通配符槽,保留主干詞,得到帶有通配符槽的模板。通配符類泛化過程中首先分別針對各文本對象進行分詞處理,然后基于分詞處理后得到的各詞項的概率確定通配符槽和固定詞語。然而在現(xiàn)有的通配符類泛化過程中存在如下問題:在分詞處理過程可能將某些應(yīng)該是一個詞項的切分為多個詞項,例如對于“百度公司招聘”這一文本對象,如果分詞處理過程所使用的詞典中不存在“百度”和“百度公司”這兩個詞語,則可能被切分為“百/度/公司/招聘”,其中“/”用于標(biāo)識切分位置,在本發(fā)明的后續(xù)實施例中均采用這種標(biāo)識方式?;谠摲衷~結(jié)果的通配符類泛化顯然不能得到準(zhǔn)確的模板,例如可能得到[W:0_2]度公司招聘,這就大大降低了模板的召回率和識別準(zhǔn)確性。
發(fā)明內(nèi)容本發(fā)明提供了一種通配符類模板泛化方法和裝置、通用模板泛化方法和系統(tǒng),以便于提高泛化得到的模板的召回率和識別準(zhǔn)確性。具體技術(shù)方案如下:—種通配符類模板泛化方法,對模板泛化所采用語料中的各文本對象分別執(zhí)行以下步驟:S11、對當(dāng)前文本對象進行分詞處理;S12、利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中包含所述分詞結(jié)果;S13、分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率;
S14、基于概率最大的粘接結(jié)果確定通配符槽和固定詞語,得到當(dāng)前文本對象的通配符類模板。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S12中參與粘接的相鄰詞項為:字與字之間,和/或,字與詞之間。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S13中,如果相鄰詞項分別為A和B,則A和B的粘接概率P (A+B)和拆分概率P' (A-B)分別為:P(A+B) = P(A|B) XP' (B|A)P(A-B) = (1-P(AlB))Xd-Pi (B | A))其中,P(A|B)為A出現(xiàn)在B前面的次數(shù)與B出現(xiàn)且B之前有詞項的次數(shù)的比值,P' (B|A)為A出現(xiàn)在B前面的次數(shù)與A出現(xiàn)且A之后有詞項的次數(shù)的比值。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S14具體為:將所述概率最大的粘接結(jié)果中,詞頻tf-逆向文檔頻率idf值小于預(yù)設(shè)閾值的詞項,或者tf-1df值小于預(yù)設(shè)閾值且排在后N個的詞項替換為通配符槽,其余詞項作為固定詞語,所述通配符槽指示的通配符長度為被替換詞項的長度,所述N為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,該方法還包括:對所述語料中的各文本對象的通配符類模板進行整合,具體為:將僅通配符槽指示通配符長度不同的通配符類模板整合為一個模板,整合后的模板中通配符槽指示的通配符長度為被整合通配符類模板中指示的最大通配符長度。一種通用模板泛化方法,該方法包括上述的通配符類模板泛化方法,以及,S2、對模板泛化所采用語料中的各文本對象進行詞典類模板泛化,得到各文本對象的詞典類模板;和/或,對模板泛化所采用語料中的各文本對象進行函數(shù)類模板泛化,得到各文本對象的函數(shù)類模板;S4、對同一文本對象得到的各模板進行合并處理。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S4中采用以下策略中的至少一種進行所述合并處理:策略一、如果同一個文本對象泛化出的模板中,同一個詞項被泛化成多種類型的槽,則按照預(yù)設(shè)的槽類型優(yōu)先級順序保留其中一種類型的槽;策略二、如果同一個文本對象泛化出的模板中,詞典槽包含通配符槽或函數(shù)槽,則保留詞典槽;策略三、如果同一個文本對象泛化出的模板中各槽均沒有相互覆蓋,則在合并結(jié)果中保留所有槽。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S4之后還包括:S5、合并重復(fù)的模板;S6、統(tǒng)計各模板所來源的文本對象數(shù)量,選擇所來源的文本對象數(shù)量滿足預(yù)設(shè)要求的模板作為最終的泛化結(jié)果;其中所述預(yù)設(shè)要求為:所來源的文本對象數(shù)量排在前M個,M為預(yù)設(shè)的正整數(shù),或者,所來源的文本對象數(shù)量大于預(yù)設(shè)的數(shù)量閾值。一種通配符類模板泛化裝置,該裝置包括:分詞處理單元,用于分別獲取模板泛化所采用語料中的各文本對象,對獲取的當(dāng)前文本對象進行分詞處理;粘接處理單元,用于利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中包含所述分詞結(jié)果;概率計算單元,用于分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率;模板產(chǎn)生單元,用于基于概率最大的粘接結(jié)果確定通配符槽和固定詞語,得到所述當(dāng)前文本對象的通配符類模板。根據(jù)本發(fā)明一優(yōu)選實施例,所述粘接處理單元在確定粘接結(jié)果時,參與粘接的相鄰詞項為:字與字之間,和/或,字與詞之間。根據(jù)本發(fā)明一優(yōu)選實施例,如果相鄰詞項分別為A和B,則所述概率計算單元采用以下公式計算A和B的粘接概率P (A+B)和拆分概率P/ (A-B):P (A+B) = P (AI B) X P' (B | A)P(A-B) = (1-P(AlB))XQ-P' (B | A))其中,P(A|B)為A出現(xiàn)在B前面的次數(shù)與B出現(xiàn)且B之前有詞項的次數(shù)的比值,P' (B|A)為A出現(xiàn)在B前面的次數(shù)與A出現(xiàn)且A之后有詞項的次數(shù)的比值。根據(jù)本發(fā)明一優(yōu)選實施例,所述模板產(chǎn)生單元具體將所述概率最大的粘接結(jié)果中,詞頻tf_逆向文檔頻率idf值小于預(yù)設(shè)閾值的詞項,或者tf-1df值小于預(yù)設(shè)閾值且排在后N個的詞項替換為通配符槽,其余詞項作為固定詞語,所述通配符槽指示的通配符長度為被替換詞項的長度,所述N為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括:模板整合單元,用于對所述語料中的各文本對象的通配符類模板進行整合,具體為:將僅通配符槽指示通配符長度不同的通配符類模板整合為一個模板,整合后的模板中通配符槽指示的通配符長度為被整合通配符類模板中指示的最大通配符長度。一種通用模板泛化系統(tǒng),該系統(tǒng)包括:上述的通配符類模板泛化裝置,以及,詞典類模板泛化裝置,用于對模板泛化所采用語料中的各文本對象進行詞典類模板泛化,得到各文本對象的詞典類模板;函數(shù)類模板泛化裝置,用于對模板泛化所采用語料中的各文本對象進行函數(shù)類模板泛化,得到各文本對象的函數(shù)類模板;模板合并單元,用于對同一文本對象得到的各模板進行合并處理。根據(jù)本發(fā)明一優(yōu)選實施例,所述模板合并單元采用以下策略中的至少一種進行所述合并處理:策略一、如果同一個文本對象泛化出的模板中,同一個詞項被泛化成多種類型的槽,則按照預(yù)設(shè)的槽類型優(yōu)先級順序保留其中一種類型的槽;策略二、如果同一個文本對象泛化出的模板中,詞典槽包含通配符槽或函數(shù)槽,則保留詞典槽;策略三、如果同一個文本對象泛化出的模板中各槽均沒有相互覆蓋,則在合并結(jié)果中保留所有槽。根據(jù)本發(fā)明一優(yōu)選實施例,該系統(tǒng)還包括:模板去重單元,用于在所述模板合并單元進行合并處理后的各模板中,合并重復(fù)的模板;結(jié)果產(chǎn)生單元,用于統(tǒng)計所述模板去重單元處理后的各模板所來源的文本對象數(shù)量,選擇所來源的文本對象數(shù)量滿足預(yù)設(shè)要求的模板作為最終的泛化結(jié)果;其中所述預(yù)設(shè)要求為:所來源的文本對象數(shù)量排在前M個,M為預(yù)設(shè)的正整數(shù),或者,所來源的文本對象數(shù)量大于預(yù)設(shè)的數(shù)量閾值。由以上技術(shù)方案可以看出,本發(fā)明在傳統(tǒng)分詞的基礎(chǔ)上,通過將相鄰詞項進行粘接的所有可能的組合,確定各粘接結(jié)果,并將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率,基于概率最大的粘接結(jié)果來得到通配符類模板。由于本發(fā)明中粘接結(jié)果的概率體現(xiàn)了這種詞項的構(gòu)成所具有的覆蓋率,因此基于最高概率的粘接結(jié)果所得到的通配符類模板具有較高的召回率和識別準(zhǔn)確性。另外基于此通配符類模板泛化方法結(jié)合詞典類模板泛化方法和函數(shù)類模板泛化方法構(gòu)成的通用模板泛化方法,最終泛化得到的模板同樣具有較高的召回率和識別準(zhǔn)確性。
圖1為本發(fā)明實施例一提供的通配符類模板泛化的方法流程圖;圖2為本發(fā)明實施例二提供的通用模板泛化方法的流程圖;圖3為本發(fā)明實施例三提供的通配符類模板泛化裝置的結(jié)構(gòu)圖;圖4為本發(fā)明實施例四提供的通用模板泛化系統(tǒng)的結(jié)構(gòu)圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)描述。本發(fā)明的核心思想是在分詞處理之后,增加一個對分詞處理得到各詞項的“粘接”處理,將可能構(gòu)成一個詞項的多個詞項粘接起來,再基于粘接后的結(jié)果確定通配符槽和固定詞語,從而彌補對于分詞所使用詞典之外的詞語會被切分開的缺陷。下面結(jié)合實施例一對該方法進行詳細(xì)描述。實施例一、圖1為本發(fā)明實施例一提供的通配符類模板泛化的方法流程圖,如圖1所示,對模板泛化所采用語料中的各文本對象分別執(zhí)行以下步驟:步驟101:對文本對象進行分詞處理。通常使用已有的詞典對文本對象進行匹配,對于匹配到該詞典的作為一個詞項,沒有匹配到詞典的分別保留各字作為一個詞項,此處的詞項包括字、詞、短語等,是個廣義的概念。分詞處理為現(xiàn)有技術(shù),在此不再贅述。仍以“百度公司招聘”為例,假設(shè)分詞處理所采用的詞典中存在“公司”和“招聘”,
則得到的分詞結(jié)果為“百/度/公司/招聘”。步驟102:利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中也包含分詞結(jié)果。由于通常詞與詞之間進行粘接構(gòu)成一個詞項的可能性較小,因此本作為一種優(yōu)選的實施方式,參與粘接的相鄰詞項通常為:字與字之間、字與詞之間。例如,分詞結(jié)果“百/度/公司/招聘”得到的各粘接結(jié)果為:“百/度/公司/招聘”、“百度/公司/招聘”、“百/度公司/招聘”以及“百度公司/招聘”,由于“公司”和“招聘”都是詞語,在例子中不進行粘接。步驟103:分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率進行相乘得到粘接結(jié)果的概率。 如果相鄰詞項分別為A和B,則A和B的粘接概率P (A+B)和拆分概率P丨(A-B)分別為:P (A+B) = P (AI B) X P' (B | A)P(A-B) = (1-P(AlB))Xd-Pi (B | A))其中,P(A|B)為詞項B出現(xiàn)且B之前有詞項時B之前的詞項是A的概率,P' (B|A)為詞項A出現(xiàn)且A之后有詞項時A之后的詞項是B的概率。具體地,P(A|B)為A出現(xiàn)在B前面的次數(shù)與B出現(xiàn)且B之前有詞項的次數(shù)的比值,P' (B|A)為A出現(xiàn)在B前面的次數(shù)與A出現(xiàn)且A之后有詞項的次數(shù)的比值。接續(xù)上例,粘接結(jié)果“百/度/公司/招聘”的概率為:(1-P (百I度))X (1-P (度百))X (1-P(度 I 公司))X (1-P(公司 I 度))=0.00064。粘接結(jié)果“百度/公司/招聘”的概率為:P(百I度)XP(度I百)X(1-P(度公司))X(l-p(公司 I 度))=0.0012。粘接結(jié)果“百/度公司/招聘”的概率為:(1-P (百I度))X (1-P (度I百))X P (度公司)XP(公司I度)=0.0008。粘接結(jié)果“百度公司/招聘”的概率為:P(百I度)XP(度I百)XP(度I公司)XP(公司 I 度)=0.0075??梢姟鞍俣裙?招聘”的概率最大,選出用于執(zhí)行步驟104。步驟104:基于概率最大的粘接結(jié)果,確定通配符槽和固定詞語,從而得到該文本對象的通配符類模板。通配符槽和固定詞語的確定通常基于粘接結(jié)果中各詞項的詞頻(tf)_逆向文檔頻率(idf),其中tf基于模板泛化所采用語料進行統(tǒng)計,idf基于大規(guī)模語料進行統(tǒng)計。然后將tf-1df值小于預(yù)設(shè)閾值的詞項替換為通配符槽,指示的通配符長度可以為被替換詞項的長度,其余詞項作為固定詞語。上例中挑選出的概率最大的粘接結(jié)果“百度公司/招聘”,假設(shè)詞項“百度公司”的tf-1df小于預(yù)設(shè)閾值,則將“百度公司”替換為通配符槽,得到的通配符類模板為:[W:0-8]招聘。另外,可以進一步對通配符槽的數(shù)量進行限制,一個模板中最多只能出現(xiàn)N個通配符槽,N為預(yù)設(shè)的正整數(shù),例如N取2,或者N的值與對象文本中分詞處理后得到的詞項成正比。如果tf-1df值小于預(yù)設(shè)閾值的詞項數(shù)量超過N,則僅取tf-1df值排在后N個的詞項替換為通配符槽。更進一步地,由于通過上述方式對模板泛化所采用語料中的每一個文本對象都進行泛化處理后,得到的模板可能會存在重疊,這種重疊通常體現(xiàn)在通配符槽指示的通配符長度,因此可以對得到的各通配符類模板進行整合,將僅通配符槽指示通配符長度不同的模板整合為一個模板,整合后的模板中通配符槽指示的通配符長度為上述不同模板中指示的最大通配符長度。例如,得到的模板中包含有這樣一些模板:林志玲[W:0-4]圖片、林志玲[W:0-8]圖片以及林志玲[W:0-12]圖片,則將其整合為:林志玲[W:0-12]圖片。除了實施例一所述的通配符類模板泛化的方法之外,還可以對模板泛化所采用的語料進行其他方法的泛化,例如詞典類泛化、函數(shù)類泛化等,當(dāng)?shù)玫剿心0宸夯Y(jié)果后,由于模板泛化結(jié)果中不可避免的會存在相互覆蓋的情況,例如,由query “北京西三旗招聘帶車司機”進行詞典類泛化得到的模板為:[D:地名]招聘帶車[D:職位名],進行通配符類泛化得到的模板為:北京[W:0-6]招聘[W:0-4]司機,為了提高泛化效果,可以進一步對多種泛化方法得到的模板進行合并處理。下面通過實施例二對這一過程進行詳細(xì)描述。實施例二、圖2為本發(fā)明實施例二提供的通用模板泛化方法的流程圖,如圖2所示,該方法包括以下步驟:步驟201:采用實施例一所示流程對模板泛化所采用語料進行通配符類模板泛化。假設(shè)對本實施例中采用的語料為具有圖片類需求的各query,則對各query進行分詞處理的結(jié)果為表I中所示,則經(jīng)過本步驟對一些query進行泛化后,得到的通配符類模板如表I所示。表I
權(quán)利要求
1.一種通配符類模板泛化方法,其特征在于,對模板泛化所采用語料中的各文本對象分別執(zhí)行以下步驟: 511、對當(dāng)前文本對象進行分詞處理; 512、利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中包含所述分詞結(jié)果; 513、分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率; 514、基于概率最大的粘接結(jié)果確定通配符槽和固定詞語,得到當(dāng)前文本對象的通配符類模板。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S12中參與粘接的相鄰詞項為:字與字之間,和/或,字與詞之間。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S13中,如果相鄰詞項分別為A和B,則A和B的粘接概率P (A+B)和拆分概率P' (A-B)分別為:P(A+B) = P(A|B) XP' (B I A)P(A-B) = (1-P(AlB))Xd-P' (B | A)) 其中,P(A|B)為A出現(xiàn)在B前面的次數(shù)與B出現(xiàn)且B之前有詞項的次數(shù)的比值,P' (B|A)為A出現(xiàn)在 B前面的次數(shù)與A出現(xiàn)且A之后有詞項的次數(shù)的比值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S14具體為: 將所述概率最大的粘接結(jié)果中,詞頻tf-逆向文檔頻率idf值小于預(yù)設(shè)閾值的詞項,或者tf-1df值小于預(yù)設(shè)閾值且排在后N個的詞項替換為通配符槽,其余詞項作為固定詞語,所述通配符槽指示的通配符長度為被替換詞項的長度,所述N為預(yù)設(shè)的正整數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括:對所述語料中的各文本對象的通配符類模板進行整合,具體為:將僅通配符槽指示通配符長度不同的通配符類模板整合為一個模板,整合后的模板中通配符槽指示的通配符長度為被整合通配符類模板中指示的最大通配符長度。
6.一種通用模板泛化方法,其特征在于,該方法包括如權(quán)利要求1至4任一權(quán)項所述的通配符類模板泛化方法,以及, S2、對模板泛化所采用語料中的各文本對象進行詞典類模板泛化,得到各文本對象的詞典類模板;和/或,對模板泛化所采用語料中的各文本對象進行函數(shù)類模板泛化,得到各文本對象的函數(shù)類模板; S4、對同一文本對象得到的各模板進行合并處理。
7.根據(jù)權(quán)利要求6所述的通用模板泛化方法,其特征在于,在所述步驟S4中采用以下策略中的至少一種進行所述合并處理: 策略一、如果同一個文本對象泛化出的模板中,同一個詞項被泛化成多種類型的槽,則按照預(yù)設(shè)的槽類型優(yōu)先級順序保留其中一種類型的槽; 策略二、如果同一個文本對象泛化出的模板中,詞典槽包含通配符槽或函數(shù)槽,則保留詞典槽; 策略三、如果同一個文本對象泛化出的模板中各槽均沒有相互覆蓋,則在合并結(jié)果中保留所有槽。
8.根據(jù)權(quán)利要求6所述的通用模板泛化方法,其特征在于,在所述步驟S4之后還包括: 55、合并重復(fù)的模板; 56、統(tǒng)計各模板所來源的文本對象數(shù)量,選擇所來源的文本對象數(shù)量滿足預(yù)設(shè)要求的模板作為最終的泛化結(jié)果; 其中所述預(yù)設(shè)要求為:所來源的文本對象數(shù)量排在前M個,M為預(yù)設(shè)的正整數(shù),或者,所來源的文本對象數(shù)量大于預(yù)設(shè)的數(shù)量閾值。
9.一種通配符類模板泛化裝置,其特征在于,該裝置包括: 分詞處理單元,用于分別獲取模板泛化所采用語料中的各文本對象,對獲取的當(dāng)前文本對象進行分詞處理; 粘接處理單元,用于利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中包含所述分詞結(jié)果; 概率計算單元,用于分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率; 模板產(chǎn)生單元,用于基于概率最大的粘接結(jié)果確定通配符槽和固定詞語,得到所述當(dāng)前文本對象的通配符類模板。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述粘接處理單元在確定粘接結(jié)果時,參與粘接的相鄰詞項為:字與字之間,和/或,字與詞之間。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,如果相鄰詞項分別為A和B,則所述概率計算單元采用以下公式計算A和B的粘接概率P (A+B)和拆分概率P' (A-B):P(A+B) = P(A|B) XP' (B I A)P(A-B) = (1-P(AlB))Xd-P' (B | A)) 其中,P(A|B)為A出現(xiàn)在B前面的次數(shù)與B出現(xiàn)且B之前有詞項的次數(shù)的比值,P' (B|A)為A出現(xiàn)在B前面的次數(shù)與A出現(xiàn)且A之后有詞項的次數(shù)的比值。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述模板產(chǎn)生單元具體將所述概率最大的粘接結(jié)果中,詞頻tf-逆向文檔頻率idf值小于預(yù)設(shè)閾值的詞項,或者tf-1df值小于預(yù)設(shè)閾值且排在后N個的詞項替換為通配符槽,其余詞項作為固定詞語,所述通配符槽指示的通配符長度為被替換詞項的長度,所述N為預(yù)設(shè)的正整數(shù)。
13.根據(jù)權(quán)利要求9所述的裝置,其特征在于,該裝置還包括: 模板整合單元,用于對所述語料中的各文本對象的通配符類模板進行整合,具體為:將僅通配符槽指示通配符長度不同的通配符類模板整合為一個模板,整合后的模板中通配符槽指示的通配符長度為被整合通配符類模板中指示的最大通配符長度。
14.一種通用模板泛化系統(tǒng),其特征在于,該系統(tǒng)包括:如權(quán)利要求9至12任一權(quán)項所述的通配符類模板泛化裝置,以及, 詞典類模板泛化裝置,用于對模板泛化所采用語料中的各文本對象進行詞典類模板泛化,得到各文本對象的詞典類模板; 函數(shù)類模板泛化裝置,用于對模板泛化所采用語料中的各文本對象進行函數(shù)類模板泛化,得到各文本對象的函數(shù)類模板; 模板合并單元,用于對同一文本對象得到的各模板進行合并處理。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述模板合并單元采用以下策略中的至少一種進行所述合并處理: 策略一、如果同一個文本對象泛化出的模板中,同一個詞項被泛化成多種類型的槽,則按照預(yù)設(shè)的槽類型優(yōu)先級順序保留其中一種類型的槽; 策略二、如果同一個文本對象泛化出的模板中,詞典槽包含通配符槽或函數(shù)槽,則保留詞典槽; 策略三、如果同一個文本對象泛化出的模板中各槽均沒有相互覆蓋,則在合并結(jié)果中保留所有槽。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,該系統(tǒng)還包括: 模板去重單元,用于在所述模板合并單元進行合并處理后的各模板中,合并重復(fù)的模板; 結(jié)果產(chǎn)生單元,用于統(tǒng)計所述模板去重單元處理后的各模板所來源的文本對象數(shù)量,選擇所來源的文本對象數(shù)量滿足預(yù)設(shè)要求的模板作為最終的泛化結(jié)果; 其中所述預(yù)設(shè)要求為:所來源的文本對象數(shù)量排在前M個,M為預(yù)設(shè)的正整數(shù),或者,所來源的文本對象數(shù)量大于 預(yù)設(shè)的數(shù)量閾值。
全文摘要
本發(fā)明提供了一種通配符類模板泛化方法和裝置、通用模板泛化方法和系統(tǒng),其中通配符類模板泛化方法包括對模板泛化所采用語料中的各文本對象分別執(zhí)行對當(dāng)前文本對象進行分詞處理;利用分詞結(jié)果中相鄰詞項粘接成一個詞項的所有可能的組合,確定各粘接結(jié)果,該粘接結(jié)果中包含所述分詞結(jié)果;分別針對各粘接結(jié)果,將粘接結(jié)果中所有進行粘接的相鄰詞項的粘接概率以及保持拆分的相鄰詞項的拆分概率相乘得到粘接結(jié)果的概率;基于概率最大的粘接結(jié)果確定通配符槽和固定詞語,得到當(dāng)前文本對象的通配符類模板。通過本發(fā)明能夠提高泛化得到的模板的召回率和識別準(zhǔn)確性。
文檔編號G06F17/22GK103186509SQ201110452249
公開日2013年7月3日 申請日期2011年12月29日 優(yōu)先權(quán)日2011年12月29日
發(fā)明者黃際洲, 鐘華 申請人:北京百度網(wǎng)訊科技有限公司