本發(fā)明涉及移動(dòng)通訊領(lǐng)域,特別是涉及一種語(yǔ)料處理方法和裝置及語(yǔ)料分析方法和裝置。
背景技術(shù):
:隨著海量網(wǎng)絡(luò)信息的積累和規(guī)模的高速增長(zhǎng),準(zhǔn)確快捷的找到自己所需要的信息已成為人們迫切的需求。自動(dòng)問(wèn)答系統(tǒng)通過(guò)理解人們自然語(yǔ)言形式的問(wèn)句,返回答案或者包含答案的文本片段,在一定程度上提高了用戶(hù)檢索的效率和準(zhǔn)確性。但是,在實(shí)際的應(yīng)用環(huán)境中,由于自然語(yǔ)言自身的特性和用戶(hù)對(duì)系統(tǒng)的不熟悉,導(dǎo)致用戶(hù)錄入的交互信息很隨意;有時(shí)是寒暄信息,或業(yè)務(wù)質(zhì)詢(xún),或?qū)ο到y(tǒng)的投訴;有時(shí)是價(jià)格咨詢(xún),或業(yè)務(wù)流程咨詢(xún),或產(chǎn)品基本信息咨詢(xún);如果不做區(qū)別的應(yīng)答,答案的準(zhǔn)確性將會(huì)大打折扣,無(wú)法滿(mǎn)足用戶(hù)需求,極大地影響了用戶(hù)的滿(mǎn)意度,降低了用戶(hù)體驗(yàn)。技術(shù)實(shí)現(xiàn)要素:鑒于現(xiàn)有技術(shù)中自動(dòng)問(wèn)答系統(tǒng),無(wú)法滿(mǎn)足用戶(hù)需求,及大地影響了用戶(hù)的滿(mǎn)意度,降低了用戶(hù)體驗(yàn)的問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的語(yǔ)料處理方法和裝置及語(yǔ)料分析方法和裝置。本發(fā)明提供一種語(yǔ)料處理方法,包括:獲取所有或部分語(yǔ)料,作為語(yǔ)料集合;確定語(yǔ)料集合中每一條語(yǔ)料對(duì)應(yīng)的意圖;對(duì)語(yǔ)料集合中的每一條語(yǔ)料進(jìn)行分詞,確定每條語(yǔ)料中的詞語(yǔ);確定語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù);確定每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù);根據(jù)語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù)和每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù),確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重。本發(fā)明還提供了一種語(yǔ)料處理裝置,包括:獲取模塊,用于獲取所有或部分語(yǔ)料,作為語(yǔ)料集合;意圖確定模塊,用于確定語(yǔ)料集合中每一條語(yǔ)料對(duì)應(yīng)的意圖;分詞確定模塊,用于對(duì)語(yǔ)料集合中的每一條語(yǔ)料進(jìn)行分詞,確定每條語(yǔ)料中的詞語(yǔ);次數(shù)確定模塊,用于確定語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),以及用于確定每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù);權(quán)重確定模塊,用于根據(jù)語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù)和每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù),確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重。本發(fā)明還提供了一種語(yǔ)料分析方法,包括:獲取一條語(yǔ)料;對(duì)語(yǔ)料進(jìn)行分詞處理,確定語(yǔ)料中的每個(gè)詞語(yǔ);獲取每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重;根據(jù)每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,確定每個(gè)意圖的權(quán)重值;將大于或等于預(yù)定閾值的權(quán)重值對(duì)應(yīng)的意圖,確定為語(yǔ)料的意圖。其中,根據(jù)每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,確定每個(gè)意圖的權(quán)重值的處理包括:對(duì)于每一種意圖,將每個(gè)詞語(yǔ)在該意圖上權(quán)重相加,作為該意圖的權(quán)重值。本發(fā)明還提供了一種語(yǔ)料分析裝置,其特征在于,包括:語(yǔ)料獲取模塊,用于獲取一條語(yǔ)料;分詞處理模塊,用于對(duì)語(yǔ)料進(jìn)行分詞處理,確定語(yǔ)料中的每個(gè)詞語(yǔ);權(quán)重獲取模塊,用于獲取每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重;權(quán)重值確定模塊,用于根據(jù)每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,確定每個(gè)意圖的權(quán)重值;意圖處理模塊,用于將大于或等于預(yù)定閾值的權(quán)重值對(duì)應(yīng)的意圖,確定為語(yǔ)料的意圖。本發(fā)明有益效果如下:借助于本發(fā)明實(shí)施例的語(yǔ)料處理方法和裝置及語(yǔ)料分析方法和裝置,解決了現(xiàn)有技術(shù)中自動(dòng)問(wèn)答系統(tǒng),無(wú)法滿(mǎn)足用戶(hù)需求,極大地影響了用戶(hù)的滿(mǎn)意度,降低了用戶(hù)體驗(yàn)的問(wèn)題,能夠根據(jù)用戶(hù)的交互信息,來(lái)分析用戶(hù)的交流目的,即對(duì)用戶(hù)的意圖進(jìn)行識(shí)別,以便對(duì)用戶(hù)的問(wèn)題有針對(duì)性的答復(fù),滿(mǎn)足了用戶(hù)需求,提高了用戶(hù)體驗(yàn)。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。附圖說(shuō)明通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:圖1是本發(fā)明實(shí)施例的語(yǔ)料處理方法的流程圖;圖2是本發(fā)明實(shí)施例的語(yǔ)料分析方法的流程圖;圖3是本發(fā)明實(shí)施例的語(yǔ)料處理裝置的結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例的語(yǔ)料分析裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。為了解決現(xiàn)有技術(shù)中自動(dòng)問(wèn)答系統(tǒng),無(wú)法滿(mǎn)足用戶(hù)需求,極大地影響了用戶(hù)的滿(mǎn)意度,降低了用戶(hù)體驗(yàn)的問(wèn)題,本發(fā)明提供了語(yǔ)料處理方法和裝置及語(yǔ)料分析方法和裝置,能夠根據(jù)用戶(hù)的交互信息,來(lái)分析用戶(hù)的交流目的,即對(duì)用戶(hù)的意圖進(jìn)行識(shí)別,以便對(duì)用戶(hù)的問(wèn)題有針對(duì)性的答復(fù),滿(mǎn)足了用戶(hù)需求,提高了用戶(hù)體驗(yàn)。而且,對(duì)用戶(hù)的意圖進(jìn)行識(shí)別后,我們可以在管理后臺(tái)數(shù)據(jù)時(shí)進(jìn)行分類(lèi)處理,把寒暄數(shù)據(jù)單獨(dú)創(chuàng)建一個(gè)庫(kù),把業(yè)務(wù)咨詢(xún)數(shù)據(jù)單獨(dú)創(chuàng)建一個(gè)庫(kù);這樣不但方便數(shù)據(jù)的管理和維護(hù),而且還能分散數(shù)據(jù)訪(fǎng)問(wèn)壓力、提高系統(tǒng)性能。目前業(yè)界有關(guān)意圖識(shí)別的專(zhuān)利和技術(shù)文檔也有不少,但這些方案要么識(shí)別率低、要么架構(gòu)復(fù)雜、要么應(yīng)用場(chǎng)景不適合問(wèn)答;而本發(fā)明識(shí)別率高,簡(jiǎn)單易用,能滿(mǎn)足問(wèn)答業(yè)務(wù)需求。方法實(shí)施例一根據(jù)本發(fā)明的實(shí)施例,提供了一種語(yǔ)料處理方法,圖1是本發(fā)明實(shí)施例的語(yǔ)料處理方法的流程圖,如圖1所示,根據(jù)本發(fā)明實(shí)施例的語(yǔ)料處理方法包括如下處理:步驟101,獲取所有或部分語(yǔ)料,作為語(yǔ)料集合;步驟102,確定語(yǔ)料集合中每一條語(yǔ)料對(duì)應(yīng)的意圖;步驟103,對(duì)語(yǔ)料集合中的每一條語(yǔ)料進(jìn)行分詞,確定每條語(yǔ)料中的詞語(yǔ),對(duì)語(yǔ)料進(jìn)行分詞,可以采用下述方法之一:ansj分詞、stanford分詞、庖丁解牛,其中,ansj分詞是一個(gè)開(kāi)源的Java中文分詞工具,基于中科院的ictclas中文分詞算法,stanford分詞是斯坦福大學(xué)(StanfordUniversity)自然語(yǔ)言處理實(shí)驗(yàn)室針對(duì)中文開(kāi)發(fā)的一款中文分詞工具;步驟104,確定語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù);步驟105,確定每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù);步驟106,根據(jù)語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù)和每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù),確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,可以利用下述公式確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重F(Xi):F(Xi)=(Mi/P)*(1/Ln(P))其中,F(xiàn)(Xi)表示Xi在意圖M上的權(quán)重,其中,Xi表示詞語(yǔ),i表示詞語(yǔ)的序號(hào),i的取值范圍是自然數(shù),M表示意圖,Mi表示Xi在意圖M上出現(xiàn)的次數(shù),P表示Xi在語(yǔ)料集合中出現(xiàn)的總次數(shù),Ln是自然對(duì)數(shù)。根據(jù)本發(fā)明實(shí)施例,首先根據(jù)應(yīng)用需求,把用戶(hù)的交互信息分為相應(yīng)的N類(lèi),例如,N={寒暄,問(wèn)答}或N={價(jià)格咨詢(xún),業(yè)務(wù)流程咨詢(xún),產(chǎn)品基本信息咨詢(xún)};然后進(jìn)行語(yǔ)料標(biāo)注,例如收集用戶(hù)交互信息的語(yǔ)料,比如收集1000條,并對(duì)語(yǔ)料進(jìn)行整理(比如,刪除重復(fù)語(yǔ)料等),然后對(duì)語(yǔ)料進(jìn)行標(biāo)注,每條語(yǔ)料標(biāo)注一種意圖;再對(duì)語(yǔ)料進(jìn)行分詞,統(tǒng)計(jì)每個(gè)詞語(yǔ)出現(xiàn)的總次數(shù)P,并統(tǒng)計(jì)詞語(yǔ)在各中意圖上出現(xiàn)的次數(shù)Mi,計(jì)算詞語(yǔ)Xi(Xi表示第i個(gè)詞語(yǔ))在意圖M上的概率公式F(Xi)為:F(Xi)=(Mi/P)*(1/Ln(P)),其中,Xi表示詞語(yǔ),i表示詞語(yǔ)的序號(hào),i的取值范圍是自然數(shù),M表示意圖,Mi表示Xi在意圖M上出現(xiàn)的次數(shù),P表示Xi在語(yǔ)料集合中出現(xiàn)的總次數(shù),Ln是自然對(duì)數(shù)。方法實(shí)施例二根據(jù)本發(fā)明的實(shí)施例,提供了一種語(yǔ)料分析方法,圖2是本發(fā)明實(shí)施例的語(yǔ)料分析方法的流程圖,如圖2所示,根據(jù)本發(fā)明實(shí)施例的語(yǔ)料分析方法包括如下處理:步驟201,獲取一條語(yǔ)料;步驟202,對(duì)語(yǔ)料進(jìn)行分詞處理,確定所述語(yǔ)料中的每個(gè)詞語(yǔ);步驟203,獲取每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重;步驟204,根據(jù)每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,確定每個(gè)意圖的權(quán)重值,具體地,對(duì)于每一種意圖,將每個(gè)詞語(yǔ)在該意圖上權(quán)重相加,作為該意圖的權(quán)重值;步驟205,將大于或等于預(yù)定閾值的權(quán)重值對(duì)應(yīng)的意圖,確定為所述語(yǔ)料的意圖。在本發(fā)明實(shí)施例中,當(dāng)用戶(hù)錄入一個(gè)語(yǔ)句時(shí),首先對(duì)問(wèn)句進(jìn)行分詞,分詞后,逐個(gè)計(jì)算詞語(yǔ)在各個(gè)意圖上的概率值,然后求和,優(yōu)選地,可以選擇概率值最大的意圖即為語(yǔ)句的意圖。通過(guò)本發(fā)明實(shí)施例,能夠根據(jù)用戶(hù)的交互信息,來(lái)分析用戶(hù)的交流目的,即對(duì)用戶(hù)的意圖進(jìn)行識(shí)別,以便對(duì)用戶(hù)的問(wèn)題有針對(duì)性的答復(fù),滿(mǎn)足了用戶(hù)需求,提高了用戶(hù)體驗(yàn)。下面結(jié)合具體實(shí)施例,對(duì)方法實(shí)施例一和方法實(shí)施例二進(jìn)行詳細(xì)說(shuō)明:從“意圖識(shí)別總體架構(gòu)圖”可以看出,本發(fā)明實(shí)施例分為兩部分:離線(xiàn)部分(即上文所述的方法實(shí)施例一)和在線(xiàn)部分(即上文所述的方法實(shí)施例二),其中,離線(xiàn)部分根據(jù)標(biāo)注語(yǔ)料對(duì)“意圖模型”進(jìn)行訓(xùn)練,為后續(xù)意圖識(shí)別的處理做數(shù)據(jù)基礎(chǔ);本操作是離線(xiàn)完成,不影響運(yùn)行系統(tǒng)的性能。在線(xiàn)部分中,用戶(hù)錄入一個(gè)語(yǔ)句,首先做預(yù)處理、分詞等,然后根據(jù)“意圖模型”計(jì)算各個(gè)詞語(yǔ)的意圖概率,再匯總求和,最終得出語(yǔ)句的意圖。具體過(guò)程如下(在下邊敘述過(guò)程中以“寒暄、問(wèn)答”兩個(gè)意圖為例進(jìn)行說(shuō)明):模型訓(xùn)練1、語(yǔ)料標(biāo)注首先收集語(yǔ)料,這些語(yǔ)料是在問(wèn)答交互系統(tǒng)中真實(shí)使用的語(yǔ)句,一般收集的語(yǔ)料不少于1000條,越多越好。語(yǔ)料標(biāo)注后,形式如下表1所示:語(yǔ)料標(biāo)注是意圖識(shí)別的基本數(shù)據(jù)依據(jù),語(yǔ)料標(biāo)注的好壞,直接影響意圖識(shí)別的準(zhǔn)確率。2、訓(xùn)練模型該訓(xùn)練過(guò)程是本發(fā)明的核心,首先,取一條標(biāo)注語(yǔ)料,例如,寧夏軟件升級(jí)找誰(shuí)?標(biāo)注為問(wèn)答,該訓(xùn)練過(guò)程是對(duì)語(yǔ)料逐條進(jìn)行處理,直到所有語(yǔ)料處理完為止;然后,進(jìn)行數(shù)據(jù)預(yù)處理,該過(guò)程主要目的是過(guò)濾對(duì)意圖識(shí)別無(wú)幫助的噪音部分,例如:開(kāi)頭或結(jié)尾的空格、~、#、&、制表符等;再進(jìn)行分詞處理,利用中文分詞工具把語(yǔ)句分解成一組詞語(yǔ),例如:寧夏/軟件/升級(jí)/找/誰(shuí)/?中文分詞工具可以使用ansj分詞、stanford分詞、庖丁解牛等;接著進(jìn)行詞語(yǔ)統(tǒng)計(jì),一是統(tǒng)計(jì)詞語(yǔ)出現(xiàn)的次數(shù),記作P,二是統(tǒng)計(jì)詞語(yǔ)在各個(gè)意圖上出現(xiàn)的次數(shù),意圖按順序標(biāo)記為i=0、1、2、…、n,詞語(yǔ)在意圖i上出現(xiàn)的次數(shù),記作Ni,即N0、N1、N2、…、Nn;其中P=N0+N1+N2+…+Nn,即然后統(tǒng)計(jì)詞語(yǔ)出現(xiàn)次數(shù),根據(jù)詞語(yǔ)統(tǒng)計(jì)結(jié)果,計(jì)算出詞語(yǔ)出現(xiàn)次數(shù),即在語(yǔ)料中所有語(yǔ)句中出現(xiàn)的次數(shù),詞語(yǔ)記作w,則詞語(yǔ)出現(xiàn)次數(shù)記作P;接著計(jì)算詞語(yǔ)權(quán)重,詞語(yǔ)出現(xiàn)次數(shù)越多,其作為意圖的權(quán)重越小,例如,詞語(yǔ)w0出現(xiàn)10詞,詞語(yǔ)w1出現(xiàn)100詞,則w0詞語(yǔ)權(quán)重比w1詞語(yǔ)權(quán)重大,計(jì)算權(quán)重系數(shù)的方式:f(P)=1/Ln(P),Ln()是自然對(duì)數(shù),例如:f(10)=0.434/f(100)=0.217,其中,計(jì)算權(quán)重系數(shù)的要求:既要使權(quán)重有區(qū)分,使其能夠在意圖概率計(jì)算中起作用,又不能使權(quán)重區(qū)分太大,避免權(quán)重小的詞語(yǔ)變成無(wú)用詞語(yǔ),也可以對(duì)其進(jìn)行一些優(yōu)化調(diào)整,例如:f(P)=1/Ln(e+P),其中常數(shù)e=2.718281828459;根絕上述,計(jì)算詞語(yǔ)意圖概率值,計(jì)算公式為f(Wi)=(Ni/P)*(1/Ln(P))或表示為即意圖概率值為詞語(yǔ)意圖比率*詞語(yǔ)權(quán)重,例如:“軟件”一詞,在“寒暄語(yǔ)句”中出現(xiàn)1次,在“問(wèn)答語(yǔ)句”中出現(xiàn)9次,則“寒暄意圖”的比率為1/(1+9)=10%;“問(wèn)答意圖”的比率為9/(1+9)=90%,假設(shè)“軟件”一詞的權(quán)重1/Ln(p)=0.434,那么,“軟件”的“寒暄意圖”概率為10%*0.434,“軟件”的“問(wèn)答意圖”概率為90%*0.434,這說(shuō)明,當(dāng)新的語(yǔ)句中出現(xiàn)“軟件”一詞時(shí),則語(yǔ)句是“問(wèn)答”意圖的可能性比較大;最后,形成意圖模型,根據(jù)對(duì)詞語(yǔ)的統(tǒng)計(jì)以及詞語(yǔ)在各個(gè)意圖的比率,計(jì)算出詞語(yǔ)的意圖概率值,生成意圖模型,該數(shù)據(jù)模型可以存放在txt文件或者excel語(yǔ)句中,運(yùn)行是可以存入內(nèi)存中,最終結(jié)果形式如下表2所示:詞語(yǔ)意圖意圖概率值軟件問(wèn)答0.2286軟件寒暄0.0254你好問(wèn)答0.1062你好寒暄0.2478………意圖識(shí)別1、用戶(hù)錄入自然語(yǔ)言語(yǔ)句例如:下午好!你今天忙不忙?你們客戶(hù)電話(huà)是多少?2、數(shù)據(jù)預(yù)處理該過(guò)程主要目的是過(guò)濾掉對(duì)意圖識(shí)別無(wú)幫助的噪音部分,例如:開(kāi)頭或結(jié)尾的空格、~、#、&、制表符等。3、意圖計(jì)算意圖計(jì)算是本發(fā)明的最終目的,首先進(jìn)行數(shù)據(jù)預(yù)處理,即語(yǔ)句預(yù)處理,,該過(guò)程主要目的是過(guò)濾對(duì)意圖識(shí)別無(wú)幫助的噪音部分,例如:開(kāi)頭或結(jié)尾的空格、~、#、&、制表符等;再進(jìn)行分詞處理,利用中文分詞工具把語(yǔ)句分解成一組詞語(yǔ),例如:寧夏/軟件/升級(jí)/找/誰(shuí)/?中文分詞工具可以使用ansj分詞、stanford分詞、庖丁解牛等;獲取詞語(yǔ)意圖概率值,詞語(yǔ)的意圖概率值可以在上述“意圖模型”中直接查詢(xún)(例如上表2),記作Xi。;然后計(jì)算出各個(gè)意圖上的概率和,例如用戶(hù)錄入的語(yǔ)句有X、Y、Z三個(gè)詞語(yǔ),在意圖0上的概率和為:G0=X0+Y0+Z0,在意圖1上的概率和為:G1=X1+Y1+Z1,在意圖2上的概率和為:G2=X2+Y2+Z2,這樣就計(jì)算出在各個(gè)意圖上的概率和,在此我們使用加法,在實(shí)際測(cè)試時(shí)發(fā)現(xiàn),乘法效果更好,可以根據(jù)需要靈活選擇;最后,取最大意圖值,經(jīng)過(guò)上述取值的累計(jì)和,我們得到了各個(gè)意圖的概率值,根據(jù)概率模型的設(shè)計(jì),取概率值最大的意圖,是該語(yǔ)句的最終意圖,得到該意圖編號(hào)后,把意圖編號(hào)轉(zhuǎn)換成最終意圖,例如,0代表寒暄意圖,1代表問(wèn)答意圖。經(jīng)過(guò)驗(yàn)證,系統(tǒng)對(duì)“寒暄、問(wèn)答”的意圖識(shí)別,準(zhǔn)確率達(dá)到99.7%。綜上所述所述,本發(fā)明的最終目的是對(duì)用戶(hù)交互信息的意圖進(jìn)行識(shí)別,首先收集語(yǔ)料并標(biāo)注,對(duì)語(yǔ)料進(jìn)行分詞,并統(tǒng)計(jì)詞語(yǔ)的意圖概率值,得到概率模型,用戶(hù)錄入交互語(yǔ)句后,對(duì)用戶(hù)語(yǔ)句進(jìn)行分詞,根據(jù)上述概率模型對(duì)詞語(yǔ)意圖概率值進(jìn)行加權(quán)求和,得出整個(gè)語(yǔ)句的意圖概率值,概率值最大的意圖即為該語(yǔ)句的意圖。裝置實(shí)施例一圖3是本發(fā)明實(shí)施例的語(yǔ)料處理裝置的結(jié)構(gòu)示意圖,如圖3所示,語(yǔ)料處理裝置包括獲取模塊30、意圖確定模塊32、分詞確定模塊34、次數(shù)確定模塊36和權(quán)重確定模塊38,其中,獲取模塊30,用于獲取所有或部分語(yǔ)料,作為語(yǔ)料集合;意圖確定模塊32,用于確定所述語(yǔ)料集合中每一條語(yǔ)料對(duì)應(yīng)的意圖;分詞確定模塊34,用于對(duì)語(yǔ)料集合中的每一條語(yǔ)料進(jìn)行分詞,確定每條語(yǔ)料中的詞語(yǔ);次數(shù)確定模塊36,用于確定所述語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),以及用于確定每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù);權(quán)重確定模塊38,用于根據(jù)所述語(yǔ)料集合中每個(gè)詞語(yǔ)出現(xiàn)的次數(shù)和所述每個(gè)詞語(yǔ)在每個(gè)意圖上出現(xiàn)的次數(shù),確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重。其中,權(quán)重確定模塊可以利用下述公式確定每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重F(Xi):F(Xi)=(Mi/P)*(1/Ln(P)),其中,其中,Xi表示詞語(yǔ),i表示詞語(yǔ)的序號(hào),i的取值范圍是自然數(shù),M表示意圖,Mi表示Xi在意圖M上出現(xiàn)的次數(shù),P表示Xi在語(yǔ)料集合中出現(xiàn)的總次數(shù),Ln是自然對(duì)數(shù)。裝置實(shí)施例二圖4是本發(fā)明實(shí)施例的語(yǔ)料分析裝置的結(jié)構(gòu)示意圖,如圖4所示,語(yǔ)料分析裝置包括語(yǔ)料獲取模塊40、分詞處理模塊42、權(quán)重獲取模塊44、權(quán)重值確定模塊46和意圖處理模塊48,其中,語(yǔ)料獲取模塊40,用于獲取一條語(yǔ)料;分詞處理模塊42,用于對(duì)所述語(yǔ)料進(jìn)行分詞處理,確定所述語(yǔ)料中的每個(gè)詞語(yǔ);權(quán)重獲取模塊44,用于獲取每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重;權(quán)重值確定模塊46,用于根據(jù)所述每個(gè)詞語(yǔ)在每個(gè)意圖上的權(quán)重,確定每個(gè)意圖的權(quán)重值;意圖處理模塊48,用于將大于或等于預(yù)定閾值的權(quán)重值對(duì)應(yīng)的意圖,確定為所述語(yǔ)料的意圖。其中,權(quán)重值確定模塊具體用于對(duì)于每一種意圖,將每個(gè)詞語(yǔ)在該意圖上權(quán)重相加,作為該意圖的權(quán)重值。綜上所述,本發(fā)明使用概率模型,不需要收集用戶(hù)點(diǎn)擊行為數(shù)據(jù)和session數(shù)據(jù),簡(jiǎn)單快捷,效率很高,且本發(fā)明主要針對(duì)問(wèn)答系統(tǒng)中語(yǔ)句的意圖,根據(jù)語(yǔ)句意圖,更準(zhǔn)確的回答用戶(hù)問(wèn)題,提高用戶(hù)滿(mǎn)意度。本發(fā)明通過(guò)簡(jiǎn)單的數(shù)據(jù)集訓(xùn)練,就能達(dá)到很好的識(shí)別效果,不需要用戶(hù)點(diǎn)擊記錄、用戶(hù)操作記錄、session日志等信息,也不需要總結(jié)實(shí)體、特征詞、句法格式。故本發(fā)明是一種簡(jiǎn)單實(shí)用、效率和識(shí)別率都很高的意圖識(shí)別方法。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的客戶(hù)端中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)客戶(hù)端中??梢园褜?shí)施例中的模塊組合成一個(gè)模塊,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者客戶(hù)端的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的加載有排序網(wǎng)址的客戶(hù)端中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱(chēng)。當(dāng)前第1頁(yè)1 2 3