基于智能問答系統(tǒng)會話歷史的新詞發(fā)現(xiàn)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及智能問答領(lǐng)域,特別是一種基于智能問答系統(tǒng)會話歷史的新詞發(fā)現(xiàn)方 法及系統(tǒng)。
【背景技術(shù)】
[0002] 智能問答系統(tǒng),又稱智能機器人,可W接受用戶的自然語言輸入,分析用戶的真實 意圖,得到唯一的答案返回給用戶。隨著人工智能技術(shù)的進步,智能問答系統(tǒng),迎來了新一 輪的發(fā)展熱潮。國內(nèi)外軟件公司紛紛推出多款產(chǎn)品,運其中,有WGoogle Now,微軟小冰,百 度的小度機器人為代表的聊天機器人,可W滿足用戶生活、娛樂的需要;也有W北京中科匯 聯(lián)科技股份有限公司研發(fā)的微喂智能機器人、愛客服智能機器人為代表的專業(yè)智能客服機 器人,可W滿足企事業(yè)單位客戶服務(wù)工作的需要,幫助企事業(yè)單位提升客戶服務(wù)滿意度,提 高客戶服務(wù)工作效率,降低客戶服務(wù)成本。智能問答系統(tǒng),已經(jīng)在人們的工作和生活中扮演 越來越重要的角色,也正因為此,智能問答系統(tǒng)被稱為人工智能皇冠上的明珠,成為科研 界、企業(yè)界持續(xù)關(guān)注的熱點方向。
[0003] 智能問答系統(tǒng)是一個非常復(fù)雜的軟件系統(tǒng),使用了幾乎所有的自然語言處理和深 度學(xué)習(xí)技術(shù),比如分詞、詞性標(biāo)注、命名實體識別、語法分析、句法分析、卷積神經(jīng)網(wǎng)絡(luò)、遞歸 神經(jīng)網(wǎng)絡(luò)等等。運其中,分詞是一項最為基礎(chǔ)的工作,分詞結(jié)果的好壞直接決定了智能問答 系統(tǒng)能否正確的理解用戶輸入。目前,所有主流的分詞器都有內(nèi)置的詞典,詞典包含所有已 知詞語的條目。如果句子中的所有詞都在詞典中已經(jīng)收錄,主流分詞器將該句話進行正確 分詞的概率在95% W上。如果句子中的某個詞在詞典中未收錄,則分詞器很可能無法對運 句話進行正確的分詞。
[0004] 互聯(lián)網(wǎng)的普及,知識的爆炸性增長和不斷創(chuàng)造,使得新的詞匯不斷涌現(xiàn),比如"大 眾創(chuàng)業(yè)"、"萬眾創(chuàng)新"、"然并卵"、"duang",運里面既有政府政策和工作中出現(xiàn)的新提法,也 有忽然之間發(fā)端于互聯(lián)網(wǎng)的新表達。海量新詞的發(fā)現(xiàn)使得分詞效果面臨極大的挑戰(zhàn),進而 影響到了智能問答系統(tǒng)的語義理解水平。W "然并卵"為例,只有將其作為一個詞看待,才有 可能從語義上理解出運個詞表達的含義是"然而并沒有什么卵用"。
[0005] 那么,如何發(fā)現(xiàn)和識別新的詞語就成為一個亟待解決的問題。一種解決方法是通 過人工篩選的方法來發(fā)現(xiàn)和識別新詞,但是隨著信息的爆炸式增長,新的詞語也注定層出 不窮,隨著中國勞動人口的減少和工作收入的增加,依靠人力的方法成本高昂,W致于難W 負擔(dān)。
【發(fā)明內(nèi)容】
[0006] 為了克服現(xiàn)有技術(shù)的不足,發(fā)明人對互聯(lián)網(wǎng)涌現(xiàn)的新詞匯進行深入研究,發(fā)現(xiàn)用 戶無論通過何種途經(jīng)學(xué)習(xí)到的新的詞語,最終都會應(yīng)用到自己與人、或者機器人的交互過 程中。智能問答系統(tǒng)的會話歷史是用戶與機器聊天的完整記錄。將大量用戶與智能問答系 統(tǒng)的會話歷史進行匯總,就能得到人們?nèi)粘I罟ぷ髦薪?jīng)常使用的字、詞、句的語料庫,運 其中自然也會包含人們對新詞的使用,并且,越是常用的新詞,它出現(xiàn)的頻率就會越高,出 現(xiàn)在不同搭配和句式中的次數(shù)也會越多。
[0007] 發(fā)明人進一步對運些出現(xiàn)在語料庫中的新詞語進行分析,總結(jié)得到運些新詞的的 四個鮮明特征:(1) 一個詞由若干個字組成,(2)-個詞在一定規(guī)模的語料中肯定會多次出 現(xiàn);(3)詞語具有較好的凝固度,即作為詞語的若干個字在一個規(guī)模較大的語料中連續(xù)出現(xiàn) 的概率要遠大于不作為詞語的若干個字在一個規(guī)模較大的語料中連續(xù)出現(xiàn)的概率;(4)詞 語具有較好的自由度,即作為詞語的若干個字,可W和其它的字、詞進行各種不同的搭配和 組合,如若不然,此連續(xù)出現(xiàn)的若干個字很可能只是一個真正詞語的子串。也就是說,只有 同時滿足了上述四個鮮明的特征的若干個字,才可能是一個新詞。本發(fā)明正是基于此,提出 計算新詞特征的方法,并應(yīng)用此方法從智能問答系統(tǒng)的會話歷史中發(fā)現(xiàn)新詞,W提高智能 問答系統(tǒng)的語義分析效果,持續(xù)完善和提高智能問答系統(tǒng)的性能。
[0008] 本發(fā)明提供一種基于智能問答系統(tǒng)會話歷史的新詞發(fā)現(xiàn)方法,所述方法包括如下 步驟:
[0009] S1、對智能問答系統(tǒng)的會話歷史建立索引,所述索引中包含新詞的候選詞;
[0010] S2、依次遍歷索引中的候選詞,計算每個候選詞在所述會話歷史中的出現(xiàn)頻度,如 果候選詞的出現(xiàn)頻度低于預(yù)設(shè)的頻度闊值,則判斷該候選詞不是新詞,如果候選詞的出現(xiàn) 頻度不低于所述頻度闊值,則執(zhí)行步驟S3;
[0011] S3、計算候選詞的凝固度,如果候選詞的凝固度低于預(yù)設(shè)的凝固度闊值,則判斷該 候選詞不是新詞,如果候選詞的凝固度不低于所述凝固度闊值,則執(zhí)行步驟S4;
[0012] S4、計算候選詞的自由度,如果候選詞的自由度低于預(yù)設(shè)的自由度闊值,則判斷該 候選詞不是新詞,如果候選詞的自由度不低于所述自由度闊值,則判斷該候選詞為新詞。
[0013] 具體地,所述對智能問答系統(tǒng)的會話歷史建立索引,所述索引中包含新詞的候選 詞包括:
[0014] S11、建立索引;
[0015] S12、提取會話歷史中的詞語,判斷所述詞語是否已經(jīng)存在于所述智能問答系統(tǒng)的 系統(tǒng)詞表中,如果已經(jīng)存在,則判斷所述詞語不是新詞的候選詞,否則,判斷所述詞語是新 詞的候選詞,并將其加入索引中。
[0016] 優(yōu)選地,所述步驟S12中的詞語由任意連續(xù)出現(xiàn)的2個字、3個字、4個字或5個字組 成。
[0017] 優(yōu)選地,所述步驟S1之前還包括:智能問答系統(tǒng)定時檢測會話歷史數(shù)據(jù)的大小,當(dāng) 檢測到會話歷史數(shù)據(jù)超過預(yù)設(shè)的數(shù)據(jù)闊值時,則觸發(fā)新詞判斷流程。
[0018] 進一步地,所述候選詞的凝固度的計算公式為:
[0019] &熱班a把(r 1W:眠 '>=巧r ι?Τ 2.,..眠私max(巧VI?械沁巧(職I帶2".船微
[0020] 其中,η為候選詞的總字數(shù),分子部分P(WiW2. . .Wn)表示η個字在會話歷史中連續(xù)出 現(xiàn)的概率,Di Vi S i on (W1W2. . . Wn)表示候選詞的一個劃分,VOWwVw訴)表示候選詞的任 意劃分,巧V訪,郵航W表示候選詞的任意劃分的概率,π?3Χ(/χν〇?如如師',巧'2...眠,:》)表 示候選詞的所有劃分的概率的最大值。
[0021] 進一步地,所述候選詞的自由度的計算公式為:
[0022] FlexibilityRate(WiW2. . .Wn) =min化nt;ropy(Left化iglibourWordSet) .Entropy (Right 化 iglibourWordSet))
[0023] 其中,Entropy化eftNei曲bourWordSet)表示候選詞左鄰接字集的賭,Entropy (Right化ig化ourWordSet)表示候選詞右鄰接字集的賭,候選詞的自由度為左鄰接字集的 賭和右鄰接字集的賭中的最小值。
[0024] 進一步地,所述左鄰接字集是指會話歷史中出現(xiàn)在候選詞左面的所有字的集合, 所述右鄰接字集是指會話歷史中出現(xiàn)在候選詞右面的所有字的集合;
[0025] 所述左鄰接字集或右鄰接字集的賭通過鄰接字集賭的計算公式計算得到,鄰接字 集賭的計算公式為:Entropy=I(-Pwi log Pwi),其中Pwi表示鄰接字集中某個字的概率。
[0026] 優(yōu)選地,所述步驟S4之后還包括:將判斷為新詞的候選詞存入新詞詞庫。
[0027] 相應(yīng)地,本發(fā)明還提供了一種基于智能問答系統(tǒng)會話歷史的新詞發(fā)現(xiàn)系統(tǒng),所述 系統(tǒng)包括:
[0028] 候選詞索引,