用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,尤其涉及用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展方 法和裝置。
【背景技術(shù)】
[0002] 人機(jī)交互是研究系統(tǒng)與用戶之間的交互關(guān)系的科學(xué)。系統(tǒng)可以是各種各樣的機(jī) 器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件。例如,通過人機(jī)交互可以實(shí)現(xiàn)各種人工智能系統(tǒng),例 如,智能客服系統(tǒng)、語(yǔ)音控制系統(tǒng)等等。人工智能語(yǔ)義識(shí)別是人機(jī)交互的基礎(chǔ),其能夠?qū)θ?類語(yǔ)言進(jìn)行識(shí)別,以轉(zhuǎn)換成機(jī)器能夠理解的語(yǔ)言。
[0003] 為了能夠理解人類語(yǔ)言,人工智能語(yǔ)義識(shí)別系統(tǒng)需要一套知識(shí)庫(kù)。海量異構(gòu)數(shù)據(jù) 通過知識(shí)學(xué)習(xí)體系整理成知識(shí),并融入到已有的知識(shí)體系中來(lái)。不同企業(yè)會(huì)生成各自的"專 屬知識(shí)";同領(lǐng)域企業(yè)的知識(shí)中可以總結(jié)出"領(lǐng)域語(yǔ)義庫(kù)",如圖中的"電信領(lǐng)域語(yǔ)義庫(kù)";多 個(gè)行業(yè)的知識(shí)還可以總結(jié)成"通用語(yǔ)義庫(kù)和知識(shí)庫(kù)"。
[0004] 知識(shí)庫(kù)的編輯與擴(kuò)展對(duì)于人工智能語(yǔ)義識(shí)別系統(tǒng)尤其重要。
【發(fā)明內(nèi)容】
[0005] 以下給出一個(gè)或多個(gè)方面的簡(jiǎn)要概述以提供對(duì)這些方面的基本理解。此概述不是 所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非 試圖界定任何或所有方面的范圍。其唯一的目的是要以簡(jiǎn)化形式給出一個(gè)或多個(gè)方面的一 些概念以為稍后給出的更加詳細(xì)的描述之序。
[0006] 根據(jù)本發(fā)明的一方面,提供了一種用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展方法,該 智能問答系統(tǒng)包括標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù),該擴(kuò)展方法包括:
[0007] 基于收集的日志集合從該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中確定預(yù)定數(shù)目的標(biāo)準(zhǔn)問作為熱點(diǎn)問題; 以及
[0008] 擴(kuò)展該些熱點(diǎn)問題以獲取擴(kuò)展問。
[0009] 在一實(shí)例中,該確定預(yù)定數(shù)目的標(biāo)準(zhǔn)問作為熱點(diǎn)問題包括:
[0010] 以該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)問為基礎(chǔ)對(duì)該日志集合中的日志執(zhí)行聚類分析,以使 得各日志被聚集至該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的相應(yīng)標(biāo)準(zhǔn)問;以及
[0011] 將該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)問按照所聚集日志量的多少?gòu)母叩降走M(jìn)行排序,將排 序最靠前的該預(yù)定數(shù)目的標(biāo)準(zhǔn)問作為熱點(diǎn)問題。
[0012]在一實(shí)例中,該數(shù)據(jù)庫(kù)中排序最靠前的10%的標(biāo)準(zhǔn)問作為熱點(diǎn)問題。
[0013] 在一實(shí)例中,該擴(kuò)展該熱點(diǎn)問題包括:
[0014] 從網(wǎng)絡(luò)數(shù)據(jù)源采集數(shù)據(jù);
[0015] 以所采集數(shù)據(jù)為對(duì)象執(zhí)行與每一熱點(diǎn)問題的語(yǔ)義相似度計(jì)算以獲得每一熱點(diǎn)問 題的相似問句集;以及
[0016] 對(duì)每個(gè)熱點(diǎn)問題的相似問句集執(zhí)行主語(yǔ)修改以獲得每個(gè)熱點(diǎn)問題的擴(kuò)展問。
[0017] 在一實(shí)例中,該從網(wǎng)絡(luò)數(shù)據(jù)源采集數(shù)據(jù)包括:
[0018] 通過該網(wǎng)絡(luò)數(shù)據(jù)源進(jìn)行搜索爬取以采集數(shù)據(jù)。
[0019] 在一實(shí)例中,還包括對(duì)通過該網(wǎng)絡(luò)數(shù)據(jù)源爬取到的所采集數(shù)據(jù)進(jìn)行整理以過濾無(wú) 用數(shù)據(jù),該語(yǔ)義相似度計(jì)算是以整理后的所采集數(shù)據(jù)為對(duì)象來(lái)執(zhí)行的。
[0020] 在一實(shí)例中,該網(wǎng)絡(luò)數(shù)據(jù)源包括與該熱點(diǎn)問題的所屬領(lǐng)域相關(guān)的第三方數(shù)據(jù)庫(kù)。
[0021] 在一實(shí)例中,該語(yǔ)義相似度計(jì)算是基于文本聚類分析、LDA分析、或序列分析中的 任一者或任意組合來(lái)執(zhí)行的。
[0022] 在一實(shí)例中,每一熱點(diǎn)問題的相似問句集是與該熱點(diǎn)問題的語(yǔ)義相似度超過預(yù)定 閾值的問句的集合。
[0023] 在一實(shí)例中,對(duì)該相似問句集執(zhí)行主語(yǔ)修改是至少部分地基于人工選擇來(lái)執(zhí)行 的。
[0024]根據(jù)本發(fā)明的另一方面,提供了一種用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展裝置, 該智能問答系統(tǒng)包括標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù),該擴(kuò)展裝置包括:
[0025] 判斷單元,用于基于收集的日志集合從該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中確定預(yù)定數(shù)目的標(biāo)準(zhǔn)問 作為熱點(diǎn)問題;以及
[0026] 擴(kuò)展單元,用于擴(kuò)展該些熱點(diǎn)問題以獲取擴(kuò)展問。
[0027] 在一實(shí)例中,該判斷單元包括:
[0028] 聚類分析單元,用于以該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)問為基礎(chǔ)對(duì)該日志集合中的日志 執(zhí)行聚類分析,以使得各日志被聚集至該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的相應(yīng)標(biāo)準(zhǔn)問;以及
[0029] 排序單元,用于將該標(biāo)準(zhǔn)問數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)問按照所聚集日志量的多少?gòu)母叩降?進(jìn)行排序,將排序最靠前的該預(yù)定數(shù)目的標(biāo)準(zhǔn)問作為熱點(diǎn)問題。
[0030] 在一實(shí)例中,該數(shù)據(jù)庫(kù)中排序最靠前的10%的標(biāo)準(zhǔn)問作為熱點(diǎn)問題。
[0031 ]在一實(shí)例中,該擴(kuò)展模塊包括:
[0032] 數(shù)據(jù)采集單元,從網(wǎng)絡(luò)數(shù)據(jù)源采集數(shù)據(jù);
[0033] 語(yǔ)義相似度計(jì)算單元,用于以所采集數(shù)據(jù)為對(duì)象執(zhí)行與每一熱點(diǎn)問題的語(yǔ)義相似 度計(jì)算以獲得每一熱點(diǎn)問題的相似問句集;以及
[0034] 主語(yǔ)修改單元,用于對(duì)每個(gè)熱點(diǎn)問題的相似問句集執(zhí)行主語(yǔ)修改以獲得每個(gè)熱點(diǎn) 問題的擴(kuò)展問。
[0035]在一實(shí)例中,該數(shù)據(jù)采集單元包括:
[0036 ]爬取單元,用于通過該網(wǎng)絡(luò)數(shù)據(jù)源進(jìn)行搜索爬取以采集數(shù)據(jù)。
[0037]在一實(shí)例中,該裝置還包括:
[0038] 整理單元,用于對(duì)通過該網(wǎng)絡(luò)數(shù)據(jù)源爬取到的所采集數(shù)據(jù)進(jìn)行整理以過濾無(wú)用數(shù) 據(jù)。
[0039] 在一實(shí)例中,該網(wǎng)絡(luò)數(shù)據(jù)源包括與該熱點(diǎn)問題的所屬領(lǐng)域相關(guān)的第三方數(shù)據(jù)庫(kù)。
[0040] 在一實(shí)例中,該語(yǔ)義相似度計(jì)算單元是基于文本聚類分析、LDA分析、或序列分析 中的任一者或任意組合來(lái)執(zhí)行該語(yǔ)義相似度計(jì)算的。
[0041] 在一實(shí)例中,每一熱點(diǎn)問題的相似問句集是與該熱點(diǎn)問題的語(yǔ)義相似度超過預(yù)定 閾值的問句的集合。
[0042] 在一實(shí)例中,該主語(yǔ)修改單元至少部分地基于人工選擇對(duì)該相似問句集執(zhí)行主語(yǔ) 修改。
[0043] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果包括:
[0044] 由于熱點(diǎn)問題是用戶最關(guān)心的問題,因此也是智能問答系統(tǒng)最常被問到的問題。 如有獲取了這些熱點(diǎn)標(biāo)準(zhǔn)問的擴(kuò)展問,則對(duì)于提升智能問答系統(tǒng)的答案正確率是極有幫助 的。而且,由于無(wú)需對(duì)所有的標(biāo)準(zhǔn)問進(jìn)行擴(kuò)展,大大節(jié)省了擴(kuò)展成本,提升了效率。
【附圖說(shuō)明】
[0045]在結(jié)合以下附圖閱讀本公開的實(shí)施例的詳細(xì)描述之后,能夠更好地理解本發(fā)明的 上述特征和優(yōu)點(diǎn)。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關(guān)特性或特征 的組件可能具有相同或相近的附圖標(biāo)記。
[0046] 圖1是示出了根據(jù)本發(fā)明的一方面的用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展方法的 流程圖;
[0047] 圖2是示出了根據(jù)本發(fā)明的一方面的擴(kuò)展熱點(diǎn)問題的方法的流程圖;
[0048]圖3是示出了根據(jù)本發(fā)明的一方面的用于智能問答系統(tǒng)中的標(biāo)準(zhǔn)問的擴(kuò)展裝置的 框圖;以及
[0049] 圖4是示出了根據(jù)本發(fā)明的一方面的擴(kuò)展熱點(diǎn)問題的裝置的框圖。
【具體實(shí)施方式】
[0050] 以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作詳細(xì)描述。注意,以下結(jié)合附圖和具體實(shí) 施例描述的諸方面僅是示例性的,而不應(yīng)被理解為對(duì)本發(fā)明的保護(hù)范圍進(jìn)行任何限制。
[0051] 知識(shí)庫(kù)中的基本知識(shí)點(diǎn)最原始和最簡(jiǎn)單的形式就是平時(shí)常用的FAQ,一般的形式 是"問-答"對(duì)。在本發(fā)明中,"標(biāo)準(zhǔn)問"是用來(lái)表示某個(gè)知識(shí)點(diǎn)的文字,主要目標(biāo)是表達(dá)清晰, 便于維護(hù)。例如,"彩鈴的資費(fèi)"就是表達(dá)清晰的標(biāo)準(zhǔn)問描述。這里的"問"不應(yīng)被狹義地理解 為"詢問",而應(yīng)廣義地來(lái)理解一"輸入",該"輸入"具有對(duì)應(yīng)的"輸出"。例如,對(duì)于用于控制 系統(tǒng)的語(yǔ)義識(shí)別而言,用戶的一個(gè)指令,例如"打開收音機(jī)"也應(yīng)可以被理解為是一個(gè)"問", 此時(shí)對(duì)應(yīng)的"答"可以是用于執(zhí)行相應(yīng)控制的控制程序的調(diào)用。
[0052] 用戶在向機(jī)器輸入時(shí),最理想的情況是使用標(biāo)準(zhǔn)問,則機(jī)器的智能語(yǔ)義識(shí)別系統(tǒng) 馬上能夠理解用戶的意思。然而,用戶往往并非使用的是標(biāo)準(zhǔn)問,而是標(biāo)準(zhǔn)問的一些變形的 形式。例如,若對(duì)于收音機(jī)的電臺(tái)切換的標(biāo)準(zhǔn)問形式是"換一個(gè)電臺(tái)",那么用戶可能使用的 命令是"切換一個(gè)電臺(tái)",機(jī)器也需要能夠識(shí)別用戶表達(dá)的是同一個(gè)意思。
[0053] 因此,對(duì)于智能語(yǔ)義識(shí)別而言,知識(shí)庫(kù)里需要有標(biāo)準(zhǔn)問的擴(kuò)展問,該擴(kuò)展問與標(biāo)準(zhǔn) 問表達(dá)形式有略微差異,但是表達(dá)相同的含義。為此,需要為標(biāo)準(zhǔn)問生成盡可能多的擴(kuò)展 問。
[0054] 問題在于,為知識(shí)庫(kù)中的所有標(biāo)準(zhǔn)問生成擴(kuò)展問是一個(gè)非常大的工作量。事實(shí)上, 各個(gè)標(biāo)準(zhǔn)問對(duì)于用戶而言,所關(guān)心的程度是不一樣的。有些問題,可能是用戶最常問到的, 而有些問題可能是用戶很少關(guān)心問到的。
當(dāng)前第1頁(yè)
1 
2 
3