一種省略恢復(fù)方法及問答系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及問答系統(tǒng)技術(shù),具體涉及一種應(yīng)用于問答系統(tǒng)的省略恢復(fù)方法及問答系統(tǒng)。
【背景技術(shù)】
[0002]在用戶雙方進(jìn)行溝通時(shí),由于對(duì)話情景、對(duì)話者說話習(xí)慣等原因的限制,通常存在有對(duì)話中某些詞匯被省略的現(xiàn)象。由于存在有對(duì)話情景的限制,即使對(duì)話中某些詞匯被省略,對(duì)于用戶來說,也很容易理解對(duì)方的意思。但如果對(duì)話的一方為問答系統(tǒng)時(shí),由于缺乏相應(yīng)的知識(shí)背景,問答系統(tǒng)往往不能正確理解用戶的省略表述,如此,很容易出現(xiàn)問答系統(tǒng)輸出錯(cuò)誤答案給用戶這一問題。
[0003]通常采用對(duì)省略表述進(jìn)行恢復(fù)即省略恢復(fù)的方法,來恢復(fù)出被用戶省略的句子表述,得到完整句子,利用恢復(fù)出的完整句子來解決問答系統(tǒng)輸出的答案錯(cuò)誤率較高的問題。目前,比較常用的省略恢復(fù)方法包括有以下幾種:基于規(guī)則的零代詞消解方法、基于句法分析樹的零代詞消解方法;隨著語料規(guī)模的不斷加大,這些方法對(duì)于省略部分恢復(fù)的正確性有所降低。
【發(fā)明內(nèi)容】
[0004]為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實(shí)施例提供一種省略恢復(fù)方法及問答系統(tǒng),能夠提高對(duì)省略部分的識(shí)別率,提高省略恢復(fù)的正確率。
[0005]本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0006]本發(fā)明實(shí)施例提供了一種省略恢復(fù)方法,所述方法包括:
[0007]在對(duì)話中句子有缺省詞時(shí),獲取所述缺省詞的候選代詞以及候選名詞;
[0008]依據(jù)所述候選代詞及所述候選名詞,確定所述缺省詞的候選對(duì);
[0009]確定第一概率和第二概率,所述第一概率用于表示所述候選代詞作為所述缺省詞的概率,所述第二概率用于表示所述候選對(duì)中所述候選名詞替換為相應(yīng)候選代詞的概率;
[0010]依據(jù)所述第一概率和所述第二概率,確定所述候選對(duì)中的候選名詞為所述缺省
ο
[0011]上述方案中,所述方法包括:
[0012]獲取模型系數(shù);
[0013]依據(jù)第一概率、第二概率及所述模型系數(shù),建立聯(lián)合模型;
[0014]所建立的所述聯(lián)合模型為:
[0015]Score = al*f (w, t) +a2*f (w, t, c);
[0016]其中,Score為所述聯(lián)合模型的目標(biāo)分值,由概率值來表征;al、a2為模型系數(shù);f(w, t)表示用一個(gè)候選代詞作為缺省詞的概率;f (w,t,c)表示在一個(gè)候選對(duì)中用一個(gè)候選名詞替換為相應(yīng)候選代詞的概率;《表示在所述句子中出現(xiàn)的位于缺省詞之后的第一個(gè)詞,t表示候選代詞,C表示候選名詞;
[0017]在所述候選對(duì)中,選取使所建立的聯(lián)合模型的目標(biāo)分值取得最大值的候選對(duì);
[0018]確定所選取的候選對(duì)中的候選名詞為所述缺省詞。
[0019]上述方案中,在獲取所述缺省詞的候選代詞以及候選名詞之前,所述方法還包括:
[0020]對(duì)所述句子進(jìn)行詞的劃分,形成至少兩個(gè)詞;
[0021]相應(yīng)的,獲取所述缺省詞的候選代詞以及候選名詞,包括:
[0022]確定所述至少兩個(gè)詞中的一個(gè)詞在該詞的位置之前存在有缺省詞時(shí),利用分類器獲取用于替代該缺省詞的至少一個(gè)候選代詞、及每個(gè)候選代詞作為該缺省詞的概率,確定所述概率為第一概率;
[0023]在所述對(duì)話的所述句子之前的η個(gè)句子中,提取所出現(xiàn)的所有名詞,并將所提取的名詞作為所述候選名詞;
[0024]其中,η為預(yù)先設(shè)置的正整數(shù)。
[0025]上述方案中,依據(jù)所述候選代詞及所述候選名詞,確定所述缺省詞的候選對(duì),包括:
[0026]將所述缺省詞的所有候選代詞與所有候選名詞分別進(jìn)行兩兩組合,形成針對(duì)所述缺省詞的至少一個(gè)候選對(duì),所述候選對(duì)中的第一個(gè)元素為所述缺省詞、第二個(gè)元素為候選代詞、第三個(gè)元素為候選名詞;
[0027]在確定所述缺省詞的至少一個(gè)候選對(duì)時(shí),利用分類器獲取到每一個(gè)候選對(duì)中的候選名詞將相應(yīng)候選代詞替換掉的概率,確定所述概率為第二概率。
[0028]上述方案中,所述方法還包括:
[0029]將與每一個(gè)候選對(duì)相對(duì)應(yīng)的第一概率與第二概率代入至所述聯(lián)合模型,得到所述聯(lián)合模型的至少一個(gè)概率值;
[0030]選取使所述聯(lián)合模型取得最大概率值的候選對(duì);
[0031]確定使所述聯(lián)合模型取得最大概率值的候選對(duì)中的候選名詞為缺省詞,添加所述候選名詞至所述句子的相應(yīng)位置,以恢復(fù)所述句子的完整性。
[0032]本發(fā)明實(shí)施例還提供了一種問答系統(tǒng),所述系統(tǒng)包括:
[0033]第一獲取單元,用于在對(duì)話中句子有缺省詞時(shí),獲取所述缺省詞的候選代詞以及候選名詞;
[0034]第一確定單元,用于依據(jù)所述候選代詞及所述候選名詞,確定所述缺省詞的候選對(duì);
[0035]第二確定單元,用于確定第一概率和第二概率,所述第一概率用于表示所述候選代詞作為所述缺省詞的概率,所述第二概率用于表示所述候選對(duì)中所述候選名詞替換為相應(yīng)候選代詞的概率;
[0036]第三確定單元,用于依據(jù)所述第一概率和所述第二概率,確定所述候選對(duì)中的候選名詞為所述缺省詞。
[0037]上述方案中,所述系統(tǒng)還包括:第二獲取單元、第一建立單元;
[0038]所述第二獲取單元,用于獲取模型系數(shù);
[0039]所述第一建立單元,用于依據(jù)第一概率、第二概率及所述模型系數(shù),建立聯(lián)合模型;
[0040]所述聯(lián)合模型為:
[0041 ] Score = al*f (w, t) +a2*f (w, t, c);
[0042]其中,Score為所述聯(lián)合模型的目標(biāo)分值,由概率值來表征;al、a2為模型系數(shù);f(w, t)表示用一個(gè)候選代詞作為缺省詞的概率;f (w,t,c)表示在一個(gè)候選對(duì)中用一個(gè)候選名詞替換為相應(yīng)候選代詞的概率;《表示在所述句子中出現(xiàn)的位于缺省詞之后的第一個(gè)詞,t表示候選代詞,C表示候選名詞;
[0043]相應(yīng)的,所述第三確定單元,用于:
[0044]在所述候選對(duì)中,選取使所建立的聯(lián)合模型的目標(biāo)分值取得最大值的候選對(duì);
[0045]確定所選取的候選對(duì)中的候選名詞為所述缺省詞。
[0046]上述方案中,所述系統(tǒng)還包括:第一劃分單元,用于對(duì)所述句子進(jìn)行詞的劃分,形成至少兩個(gè)詞;
[0047]相應(yīng)的,所述第一獲取單元,用于確定所述至少兩個(gè)詞中的一個(gè)詞在該詞的位置之前存在有缺省詞時(shí),利用分類器獲取用于替代該缺省詞的至少一個(gè)候選代詞、及每個(gè)候選代詞作為該缺省詞的概率,確定所述概率為第一概率;
[0048]在所述對(duì)話的所述句子之前的η個(gè)句子中,提取所出現(xiàn)的所有名詞,并將所提取的名詞作為所述候選名詞;
[0049]其中,η為預(yù)先設(shè)置的正整數(shù)。
[0050]上述方案中,所述第二確定單元,還用于:
[0051]將所述缺省詞的所有候選代詞與所有候選名詞分別進(jìn)行兩兩組合,形成針對(duì)所述缺省詞的至少一個(gè)候選對(duì),所述候選對(duì)中的第一個(gè)元素為所述缺省詞、第二個(gè)元素為候選代詞、第三個(gè)元素為候選名詞;
[0052]在確定所述缺省詞的至少一個(gè)候選對(duì)時(shí),利用分類器獲取到每一個(gè)候選對(duì)中的候選名詞將相應(yīng)候選代詞替換掉的概率,確定所述概率為第二概率。
[0053]上述方案中,所述系統(tǒng)還包括第一選取單元;其中,
[0054]所述第一選取單元,用于將與每一個(gè)候選對(duì)相對(duì)應(yīng)的第一概率與第二概率代入至所述聯(lián)合模型,得到所述聯(lián)合模型的至少一個(gè)概率值;選取使所述聯(lián)合模型取得最大概