獲 得更準(zhǔn)確和更豐富的專業(yè)詞庫(kù)。
[0110] 本發(fā)明實(shí)施例還公開(kāi)了一種電子設(shè)備,包括存儲(chǔ)器和處理器,該存儲(chǔ)器用于存儲(chǔ) 計(jì)算機(jī)指令或代碼,處理器和存儲(chǔ)器耦合,用于執(zhí)行存儲(chǔ)器中的計(jì)算機(jī)指令或代碼,實(shí)現(xiàn)以 下方法:
[0111] 獲得專業(yè)詞匯的關(guān)聯(lián)詞;
[0112] 計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的相似度;
[0113] 在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第一相似度閾值的語(yǔ)料,作為近似語(yǔ)料;
[0114] 根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型。
[0115] 對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān) 之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0116] 本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
[0117] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算 機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和 硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可 用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上 實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0118] 本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序 產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框 圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商?供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理 終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處 理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多 個(gè)方框中指定的功能的裝置。
[0119] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備 以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包 括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方 框或多個(gè)方框中指定的功能。
[0120] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得 在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在 計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程 和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0121] 盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基 本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為 包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
[0122] 最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將 一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作 之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)"包括"、"包含"或者其任何其他變體 意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者終端設(shè)備不僅 包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物 品或者終端設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句"包括一個(gè)......"限定 的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者終端設(shè)備中還存在另外的相同要 素。
[0123] 以上對(duì)本發(fā)明所提供的一種獲得專業(yè)詞庫(kù)的方法和一種獲得專業(yè)詞庫(kù)的裝置及 電子設(shè)備,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡 述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所 述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1. 一種獲得輸入庫(kù)的方法,其特征在于,包括: 獲得專業(yè)詞匯的關(guān)聯(lián)詞; 計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的相似度; 在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第一相似度閾值的語(yǔ)料,作為近似語(yǔ)料; 根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲得專業(yè)詞匯的關(guān)聯(lián)詞,包括但不限 于: 接收關(guān)聯(lián)信息,所述關(guān)聯(lián)信息中包含所述專業(yè)詞匯的關(guān)聯(lián)詞。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的 相似度,包括: 對(duì)所述關(guān)聯(lián)信息進(jìn)行分詞向量化,獲得第一向量; 計(jì)算所述第一向量與第二向量的相似度,其中,所述第二向量為對(duì)所述語(yǔ)料庫(kù)中的語(yǔ) 料進(jìn)行分詞向量化后獲得的向量。4. 根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的方法,其特征在于,在所述根據(jù)近似語(yǔ)料訓(xùn)練 獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型之前,還包括: 判斷所述近似語(yǔ)料是否滿足詞庫(kù)訓(xùn)練條件; 若是,再根據(jù)所述近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型; 若否,則根據(jù)所述近似語(yǔ)料在所述語(yǔ)料庫(kù)中重復(fù)抽取近似語(yǔ)料,直至所有抽取出的近似語(yǔ) 料滿足所述詞庫(kù)訓(xùn)練條件。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述近似語(yǔ)料在所述語(yǔ)料庫(kù)中 重復(fù)抽取近似語(yǔ)料,包括: 計(jì)算所述近似語(yǔ)料與所述語(yǔ)料庫(kù)中語(yǔ)料的相似度; 在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第二相似度閾值的語(yǔ)料。6. -種獲得輸入庫(kù)的裝置,其特征在于,包括: 關(guān)聯(lián)詞獲取單元,用于獲得專業(yè)詞匯的關(guān)聯(lián)詞; 相似度計(jì)算單元,用于計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的相似度; 近似詞抽取單元,用于在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第一相似度閾值的語(yǔ) 料,作為近似語(yǔ)料; 訓(xùn)練單元,用于根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模 型。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述關(guān)聯(lián)詞獲取單元,具體用于接收關(guān)聯(lián) 信息,所述關(guān)聯(lián)信息中包含所述專業(yè)詞匯的關(guān)聯(lián)詞。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述相似度計(jì)算單元包括: 向量獲得子單元,用于對(duì)所述關(guān)聯(lián)信息進(jìn)行分詞向量化,獲得第一向量; 第一計(jì)算子單元,用于計(jì)算所述第一向量與第二向量的相似度,其中,所述第二向量為 對(duì)所述語(yǔ)料庫(kù)中的語(yǔ)料進(jìn)行分詞向量化后獲得的向量。9. 根據(jù)權(quán)利要求6至8中任意一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 判斷單元,用于在所述訓(xùn)練單元根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù) 和/或語(yǔ)言模型之前,判斷所述近似語(yǔ)料是否滿足詞庫(kù)訓(xùn)練條件; 重復(fù)抽取單元,用于在所述判斷單元判斷所述近似語(yǔ)料不滿足詞庫(kù)訓(xùn)練條件時(shí),根據(jù) 所述近似語(yǔ)料在所述語(yǔ)料庫(kù)中重復(fù)抽取近似語(yǔ)料,直至所有抽取出的近似語(yǔ)料滿足所述詞 庫(kù)訓(xùn)練條件; 所述訓(xùn)練單元,還用于在所述判斷單元判斷所述近似語(yǔ)料滿足詞庫(kù)訓(xùn)練條件時(shí),根據(jù) 所述近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述重復(fù)抽取單元包括: 第二計(jì)算子單元,用于計(jì)算所述近似語(yǔ)料與所述語(yǔ)料庫(kù)中語(yǔ)料的相似度; 抽取子單元,用于在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第二相似度閾值的語(yǔ)料。11. 一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)指 令或代碼,所述處理器和所述存儲(chǔ)器耦合,用于執(zhí)行所述存儲(chǔ)器中的計(jì)算機(jī)指令或代碼,實(shí) 現(xiàn)以下方法: 獲得專業(yè)詞匯的關(guān)聯(lián)詞; 計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的相似度; 在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第一相似度閾值的語(yǔ)料,作為近似語(yǔ)料; 根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型。
【專利摘要】本發(fā)明實(shí)施例提供了一種獲得輸入庫(kù)的方法、裝置及電子設(shè)備。該獲得輸入庫(kù)的方法包括:獲得專業(yè)詞匯的關(guān)聯(lián)詞;計(jì)算所述關(guān)聯(lián)詞與語(yǔ)料庫(kù)中語(yǔ)料的相似度;在所述語(yǔ)料庫(kù)中抽取相似度大于或等于第一相似度閾值的語(yǔ)料,作為近似語(yǔ)料;根據(jù)近似語(yǔ)料訓(xùn)練獲得所述專業(yè)詞匯對(duì)應(yīng)的專業(yè)詞庫(kù)和/或語(yǔ)言模型。該方法在用戶輸入專業(yè)詞匯時(shí)可以基于該專業(yè)詞庫(kù)實(shí)現(xiàn)一次上屏,在輸入專業(yè)長(zhǎng)句時(shí)可以依據(jù)該語(yǔ)言模型進(jìn)行長(zhǎng)句輸入,避免了分段上屏,節(jié)省了用戶輸入時(shí)間,提高了字符輸入效率,也極大地改善了用戶在輸入專業(yè)詞匯尤其是在撰寫專業(yè)論文時(shí)的輸入體驗(yàn)。
【IPC分類】G06F17/30, G06F3/023
【公開(kāi)號(hào)】CN105608083
【申請(qǐng)?zhí)枴緾N201410641573
【發(fā)明人】李亞麗, 閆冰, 張揚(yáng)
【申請(qǐng)人】北京搜狗科技發(fā)展有限公司
【公開(kāi)日】2016年5月25日
【申請(qǐng)日】2014年11月13日