1.一種基于圖的最大緊密度劃分的復(fù)合短語無監(jiān)督識別方法,其特征在于,包括以下步驟:
1)采用詞性標(biāo)注工具對輸入語料進(jìn)行詞性標(biāo)注和分詞;
2)將分詞后的輸入序列映射到有序的圖結(jié)構(gòu)中,將語義緊密度高的詞語劃分到一個分段內(nèi),并使得整個圖的緊密度之和最大;
3)通過驗(yàn)證各分段是否包含特征詞,識別出復(fù)合短語。
2.如權(quán)利要求1所述的方法,其特征在于:步驟2)通過將語義緊密度高的詞語劃分到一個分段內(nèi),實(shí)現(xiàn)將無關(guān)的成分與候選復(fù)合短語相分離。
3.如權(quán)利要求1所述的方法,其特征在于:步驟2)將目標(biāo)函數(shù)定義為各個分段緊密度之和,通過動態(tài)規(guī)劃求解目標(biāo)函數(shù)最大值,從而對原輸入分詞序列求解最優(yōu)劃分分段方案,進(jìn)而得到文本中復(fù)合短語與其他成分的最優(yōu)的劃分方案。
4.如權(quán)利要求1所述的方法,其特征在于:步驟2)中整個輸入序列對應(yīng)圖的分段整體緊密度計算公式為:
其中,C(w1,w2)代表詞w1與詞w2之間的緊密度,s表示一個分段,|s|表示分段中分詞的個數(shù)。
5.如權(quán)利要求4所述的方法,其特征在于,步驟2)計算分詞之間的緊密度時,將分詞之間的緊密度劃分為特殊符號緊密度、維基百科緊密度、以及詞性緊密度。
6.如權(quán)利要求5所述的方法,其特征在于,所述特殊符號緊密度的計算公式為:
其中Ds(w1,w2)代表詞w1與詞w2之間間隔的分詞個數(shù),為表征w1與w2之間是否位于同一對特殊符號內(nèi)的布爾函數(shù)。
7.如權(quán)利要求5所述的方法,其特征在于,所述維基百科緊密度的計算公式為:
其中I(w)為表征分詞w是否為維基百科條目的布爾函數(shù),s’表示位于詞w1與詞w2之間的分詞組成的分段。
8.如權(quán)利要求5所述的方法,其特征在于,所述詞性緊密度的計算公式為:
其中,Sc表示詞w1和詞w2對應(yīng)詞性在隱式空間內(nèi)的余弦相似度,p(ω1),p(ω2)表示詞w1和w2對應(yīng)的詞性,表示詞w1和w2對應(yīng)詞性在隱式空間的向量。
9.如權(quán)利要求1所述的方法,其特征在于:步驟3)通過求解最小集合覆蓋問題來產(chǎn)生特征詞集合,然后利用該特征詞集合,通過驗(yàn)證分段是否包含特征詞,從而篩選出需要的復(fù)合短語。