一種文本數據的處理方法和裝置與流程

文檔序號：11677564閱讀：232來源：國知局

本申請涉及文本處理
技術領域：
，特別是涉及一種文本數據的處理方法和一種文本數據的處理裝置。
背景技術：
：隨著科技的發(fā)展，計算機進行智能語音或文字應答的需求正變得越來越廣泛，陸續(xù)出現(xiàn)了許多智能聊天機器人。在語音或文字應答中，類比問題是比較常見的，如“小明和小紅是什么關系”。目前，智能聊天機器人一般是基于rdf(resourcedescriptionframework，資源描述框架)推導出兩個實體之間的同類或類比關系，從而回答類比問題?；趓df知識庫求兩實體之間的關系，需要預先構建完善的rdf知識庫。rdf知識庫的構建，一般需要通過挖掘關系模板、清洗百科類數據、關系抽取三步迭代進行，耗費大量的人力和物力，成本高，但是，覆蓋面不高，使得類比問題的回復成功率低。例如，在某個抓取到的八卦新聞中，記載了“劉德華和成龍是好基友”，則在rdf知識庫中記錄劉德華、成龍、關系基友等信息。若接收到用戶發(fā)出的“劉德華和成龍是什么關系”的問題，則在rdf知識庫中查找到關系是基友，則回答“基友”。若在先未抓取到該八卦新聞，則無法回復，可能回答“是什么關系呢？”繞開問題。此外，基于rdf的回復是問答式的，在聊天系統(tǒng)中，可能無法得出答案，有時候，缺少擬人、幽默的表達能力。技術實現(xiàn)要素：鑒于上述問題，提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種文本數據的處理方法和相應的一種文本數據的處理裝置。為了解決上述問題，本申請實施例公開了一種文本數據的處理方法，包括：獲取第一文本數據；判斷所述第一文本數據是否適于類比；若是，則從所述第一文本數據中提取第一實體詞；對所述第一實體詞進行類比，獲得第二實體詞；根據所述第二實體詞生成第二文本數據。優(yōu)選地，所述判斷所述第一文本數據是否適于類比的步驟包括：對所述第一文本數據進行分詞處理，獲得多個第一文本分詞；將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配；當匹配成功時，確定所述第一文本數據適于類比。優(yōu)選地，所述對所述第一實體詞進行類比，獲得第二實體詞的步驟包括：當所述第一實體詞為一個時，查找與所述第一實體詞相似的一個或多個第一候選實體詞；從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞；從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。優(yōu)選地，所述查找與所述第一實體詞相似的一個或多個第一候選實體詞的步驟包括：查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量；基于所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度；提取第一相似度最高的一個或多個第一候選實體詞，作為與所述第一實體詞相似的一個或多個第一候選實體詞。優(yōu)選地，所述對所述第一實體詞進行類比，獲得第二實體詞的步驟包括：當所述第一實體詞包括第一子實體詞和第二子實體詞時，查找與所述第一子實體詞相似的一個或多個第三候選實體詞；從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞；基于所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞；從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞；從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。優(yōu)選地，所述查找與所述第一子實體詞相似的一個或多個第三候選實體詞的步驟包括：查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量；基于所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度；提取第二相似度最高的一個或多個第三候選實體詞，作為與所述第一子實體詞相似的一個或多個第三候選實體詞。優(yōu)選地，所述基于所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞的步驟包括：查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量；在所述第三詞向量的基礎上，減去所述第五詞向量、加上所述第四詞向量，獲得第六詞向量；當某個實體詞的第七詞向量與所述第六詞向量最近時，確認所述實體詞為第五候選實體詞。優(yōu)選地，所述從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞的步驟包括：基于所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離；基于所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離；采用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分；選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。優(yōu)選地，所述根據所述第二實體詞生成第二文本數據的步驟包括：查找與所述類比問題模板屬于同一關系類型的類比回答模板；將所述第二實體詞嵌入所述類比回答模板中，獲得第二文本數據。優(yōu)選地，還包括：當接收到客戶端發(fā)送的第一語音數據時，將所述第一語音數據轉換為第一文本數據；將所述第二文本數據轉換為第二語音數據；將所述第二語音數據返回所述客戶端。本申請實施例還公開了一種文本數據的處理裝置，包括：第一文本數據獲取模塊，用于獲取第一文本數據；類比意圖判斷模塊，用于判斷所述第一文本數據是否適于類比；若是，則調用實體詞提取模塊；實體詞提取模塊，用于從所述第一文本數據中提取第一實體詞；實體詞類比模塊，用于對所述第一實體詞進行類比，獲得第二實體詞；第二文本數據生成模塊，用于根據所述第二實體詞生成第二文本數據。優(yōu)選地，所述類比意圖判斷模塊包括：分詞子模塊，用于對所述第一文本數據進行分詞處理，獲得多個第一文本分詞；類比問題模板匹配子模塊，用于將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配；類比意圖確定子模塊，用于在匹配成功時，確定所述第一文本數據適于類比。優(yōu)選地，所述實體詞類比模塊包括：第一候選實體詞查找子模塊，用于在所述第一實體詞為一個時，查找與所述第一實體詞相似的一個或多個第一候選實體詞；第二候選實體詞篩選子模塊，用于從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞；第二實體詞選擇子模塊，用于從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。優(yōu)選地，所述第一候選實體詞查找子模塊包括：第一向量查詢單元，用于查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量；第一相似度計算單元，用于基于所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度；第一候選實體詞提取單元，用于提取第一相似度最高的一個或多個第一候選實體詞，作為與所述第一實體詞相似的一個或多個第一候選實體詞。優(yōu)選地，所述實體詞類比模塊包括：第三候選實體詞查找子模塊，用于在所述第一實體詞包括第一子實體詞和第二子實體詞時，查找與所述第一子實體詞相似的一個或多個第三候選實體詞；第四候選實體詞篩選子模塊，用于從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞；第五候選實體詞計算子模塊，用于基于所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞；第六候選實體詞篩選子模塊，用于從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞；第二實體詞選取子模塊，用于從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。優(yōu)選地，所述第三候選實體詞查找子模塊包括：第二詞向量查詢單元，用于查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量；第二相似度計算單元，用于基于所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度；第三候選實體詞提取單元，用于提取第二相似度最高的一個或多個第三候選實體詞，作為與所述第一子實體詞相似的一個或多個第三候選實體詞。優(yōu)選地，所述第五候選實體詞計算子模塊包括：第三向量查詢單元，用于查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量；向量計算單元，用于在所述第三詞向量的基礎上，減去所述第五詞向量、加上所述第四詞向量，獲得第六詞向量；第五候選實體詞確定單元，用于在某個實體詞的第七詞向量與所述第六詞向量最近時，確認所述實體詞為第五候選實體詞。優(yōu)選地，所述第二實體詞選取子模塊包括：第一距離計算單元，用于基于所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離；第二距離基于所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離；評分計算單元，用于采用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分；選取單元，用于選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。優(yōu)選地，所述第二文本數據生成模塊包括：類比回答模板查找子模塊，用于查找與所述類比問題模板屬于同一關系類型的類比回答模板；類比回答模板嵌入子模塊，用于將所述第二實體詞嵌入所述類比回答模板中，獲得第二文本數據。優(yōu)選地，還包括：文本轉換模塊，用于在接收到客戶端發(fā)送的第一語音數據時，將所述第一語音數據轉換為第一文本數據；語音轉換模塊，用于將所述第二文本數據轉換為第二語音數據；語音返回模塊，用于將所述第二語音數據返回所述客戶端。本申請實施例包括以下優(yōu)點：本申請實施例在確認第一文本數據具有類比意圖時，對第一文本數據的第一實體詞進行類比，獲得第二實體詞，進而生成第二文本數據，在大量無標注文本中直接構建詞向量，實現(xiàn)了類比回答，無需構建知識庫，減少了人力和物理的耗費，降低了成本，不直接回復兩者的確切關系，采用類比方式回復，提高了覆蓋率，提高了類比問題的回復成功率。附圖說明圖1是本申請的一種文本數據的處理方法實施例的步驟流程圖；圖2a和圖2b是本申請實施例的一種類比問題模板的示例圖；圖3是本申請實施例的一種cbow模型的結構圖；圖4是本申請的一種文本數據的處理裝置實施例的結構框圖。具體實施方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實施方式對本申請作進一步詳細的說明。參照圖1，示出了本申請的一種文本數據的處理方法實施例的步驟流程圖，具體可以包括如下步驟：步驟101，獲取第一文本數據；需要說明的是，本申請實施例可以應用在聊天機器人、語音助手等人工智能應用中。該人工智能應用可以部署在終端本地，例如，手機、平板電腦、智能穿戴設備(如手環(huán)、手表、眼鏡)等等，也可以部署在云端或服務器中，例如，分布式系統(tǒng)，本申請實施例對此不加以限制。若部署在云端，可以直接接收客戶端發(fā)送的第一文本數據。或者，當接收到客戶端發(fā)送的第一語音數據時，可以對第一語音數據進行語音識別(automaticspeechrecognition，asr)，將第一語音數據轉換為第一文本數據。在具體實現(xiàn)中，進行語音識別的語音識別系統(tǒng)通常由以下幾個基本模塊所構成：1、信號處理及特征提取模塊；該模塊的主要任務是從語音數據中提取特征，供聲學模型處理。同時，它一般也包括了一些信號處理技術，以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。2、聲學模型；語音識別系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。3、發(fā)音詞典；發(fā)音詞典包含語音識別系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型與語言模型的映射。4、語言模型；語言模型對語音識別系統(tǒng)所針對的語言進行建模。理論上，包括正則語言，上下文無關文法在內的各種語言模型都可以作為語言模型，但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的n元文法及其變體。5、解碼器；解碼器是語音識別系統(tǒng)的核心之一，其任務是對輸入的信號，根據聲學、語言模型及詞典，尋找能夠以最大概率輸出該信號的詞串。步驟102，判斷所述第一文本數據是否適于類比；若是，則執(zhí)行步驟103；所謂類比，即把不同的兩個(兩類)對象進行比較，根據兩個(兩類)對象在一系列屬性上的相似，而且已知其中一個對象還具有其他的屬性，由此推出另一個對象也具有相似的其他屬性的結論。在本發(fā)明實施例中，第一文本數據可以為問題，如“臺燈的好朋友是誰”、“劉德華和成龍是什么關系”，可以以類比進行回答。在本申請的一個實施例中，步驟102可以包括如下子步驟：子步驟s11，對所述第一文本數據進行分詞處理，獲得多個第一文本分詞；本申請實施例中，可以如下的一種或多種方式進行分詞處理：1、基于字符串匹配的分詞：是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配，若在詞典中找到某個字符串，則匹配成功(識別出一個詞)。2、基于特征掃描或標志切分的分詞：是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞，以這些詞作為斷點，可將原字符串分為較小的串再來進機械分詞，從而減少匹配的錯誤率；或者將分詞和詞類標注結合起來，利用豐富的詞類信息對分詞決策提供幫助，并且在標注過程中又反過來對分詞結果進行檢驗、調整，從而提高切分的準確率。3、基于理解的分詞：是指通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調下，分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。4、基于統(tǒng)計的分詞方法：是指，中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度，所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息，以及計算兩個漢字x、y的相鄰共現(xiàn)概率?；ガF(xiàn)信息可以體現(xiàn)漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時，便可認為此字組可能構成了一個詞。當然，上述分詞處理方式只是作為示例，在實施本申請實施例時，可以根據實際情況設置其他分詞處理方式，本申請實施例對此不加以限制。另外，除了上述分詞處理方式外，本領域技術人員還可以根據實際需要采用其它分詞處理方式，本申請實施例對此也不加以限制。子步驟s12，將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配；子步驟s13，當匹配成功時，確定所述第一文本數據適于類比。應用本申請實施例，可以針對一個或多個關系類型(即類比方式frame)設置了配對的類比問題模板及類比回答模板。在類比問題模板中，包括了適于類比的問題(文本)的基本結構。在類比回答模板中，具有對問題進行回答的基本結構，并保留了實體詞的位置。類比問題模板和類比回答模板以自定義的結構在文本中持久化存儲，在匹配的時候，加載到內存中。在具體實現(xiàn)中，可以利用上下文無關語法分析器(context-freegrammarparser，cfg)進行類比問題模板的匹配。若一個形式文法g＝(n,σ,p,s)的產生式規(guī)則都取如下的形式:v->w，則稱之為上下文無關的，其中，v∈n，w∈(n∪σ)*。上下文無關語法取名為“上下文無關”的原因就是因為字符v總可以被字串w自由替換，而無需考慮字符v出現(xiàn)的上下文。一個形式語言是上下文無關的，如果它是由上下文無關文法生成的(條目上下文無關語言)。若分詞之后的第一文本分詞與預設的類比問題模板匹配，則可以認為第一文本數據適于類比。以靜物關系作為關系類型的示例，，在如圖2a所示的類比問題模板中，arg1表示實體詞，具有問題的基本結構“的”、“好”、“朋友/基友”、“是”、“誰”。對于“臺燈的好朋友是誰”，分詞之后可以獲得“臺燈”、“的”、“好朋友”、“是”、“誰”，與圖2a所示的類比問題模板匹配，可以認為具有類比意圖。以八卦關系作為關系類型的示例，如圖2b所示的類比問題模板中，arg1和arg2表示實體詞，具有問題的基本結構“和/與”、“是”、“什么”、“關系”。對于“劉德華和成龍是什么關系”，分詞之后可以獲得“劉德華”、“和”、“成龍”、“是”、“什么”、“關系”，與圖2b所示的類比問題模板匹配，可以認為具有類比意圖。步驟103，從所述第一文本數據中提取第一實體詞；實體詞，可以對應一個具體的個體。需要說明的是，第一實體詞、第二實體詞、第一子實體詞、第二子實體詞、第一候選實體詞、第二候選實體詞、第三候選實體詞、第四候選實體詞、第五候選實體詞、第六候選實體詞是相對于不同的處理狀態(tài)而言的，其本質均為實體詞。在明星類別中，實體詞可以為劉德華，張柏芝，林青霞等。此外，實體詞也可以包含一些寬泛的代表類別的個體，比如人，電影明星，歌手等。例如，對于“臺燈的好朋友是誰”而言，實體詞為“臺燈”。又例如，對于“劉德華和成龍是什么關系”而言，實體詞為“劉德華”、“成龍”。步驟104，對所述第一實體詞進行類比，獲得第二實體詞；在本申請實施例中，通過實體詞的某些屬性，從而推導出屬性相似的其他實體詞，如從第一實體詞推導出相似的第二實體詞。在具體實現(xiàn)中，可以預先抓取數據訓練word2vec(wordtovector)模型，通過word2vec模型對所述第一實體詞進行類比，獲得第二實體詞。其中，word2vec模型是一個將訓練數據中的單詞轉換成向量形式的工具，可以將單詞轉換為200維的詞向量，該單詞(包括實體詞)可以存儲在hash(哈希)表中。通過轉換，可以把對文本內容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文本語義上的相似度。訓練的數據可以通過爬蟲spider抓取網頁，進行數據清洗之后，得到干凈的標題和正文內容。在實際應用中，數據可以包括兩個部分：1、網絡數據；基本是穩(wěn)定數據，我們用了積累下來(所有的百科數據和1年左右其他有詳情頁的網頁數據)的數據，正文數據；2、新聞數據；維持一個近半年的窗口，每日更新，可以是包括標題和正文的所有新聞數據。這部分數據主要是為了處理世界上動態(tài)變化的“關系”，如人與人之間的朋友、夫妻關系等，因此，訓練word2vec模型時需要能反應與時俱進的新聞語料。采用word2vec的cbow(continuousbag-of-wordmodel)模型，如圖3所示，cbow模型由輸入層(input)、映射層(projection)和輸出層(output)構成，利用w(t)的前(n＝4)個詞和后(n＝4)個詞預測當前詞w(t)的向量表示，該方式能夠使得語義相同或模式相同的詞的向量表示的距離更近。在本申請的一個實施例中，步驟104可以包括如下子步驟：子步驟s21，當所述第一實體詞為一個時，查找與所述第一實體詞相似的一個或多個第一候選實體詞；在具體實現(xiàn)中，對于問題只有一個實體詞的情形，可以查詢第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量；基于第一詞向量與一個或多個第二詞向量計算一個或多個第一相似度；提取第一相似度最高的一個或多個第一候選實體詞，作為與第一實體詞相似的一個或多個第一候選實體詞。具體而言，word2vec可以通過distance工具根據轉換后的向量計算出余弦距離(cosinedistance)，來表示向量(詞語)的相似度。例如，輸入“france”，distance工具會計算并顯示與“france”距離最相近的詞，示例如下：wordcosinedistancespain0.678515belgium0.665923netherlands0.652428italy0.633130switzerland0.622323luxembourg0.610033portugal0.577154russia0.571507germany0.563291catalonia0.534176子步驟s22，從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞；在本申請實施例中，為針對問題進行類比的回答，一般問題中實體詞的類型與回答中實體詞的類型保持一致。例如，對于“臺燈”，實體詞類型相同的實體詞有“墻貼”、“l(fā)ed燈”、“電視柜”等等。子步驟s23，從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。在具體實現(xiàn)中，可以從基于實體詞類型篩選之后的實體詞中選擇一個或多個第二實體詞進行回答。在本申請的另一個實施例中，步驟104可以包括如下子步驟：子步驟s31，當所述第一實體詞包括第一子實體詞和第二子實體詞時，查找與所述第一子實體詞相似的一個或多個第三候選實體詞；對于問題有多個第一實體詞的情形，如兩個，為便于對第一實體詞進行表達，在本申請實施例中，可以按照實體詞的順序，以第一子實體詞、第二子實體詞等替換第一實體詞進行表達。例如，對于“劉德華和成龍是什么關系”而言，第一子實體詞為“劉德華”，第二子實體詞為“成龍”。具體實現(xiàn)中，在word2vec模型中，可以查詢第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量；基于所述第三詞向量與一個或多個第四詞向量，通過余弦相似度等方式計算一個或多個第二相似度；提取第二相似度最高的一個或多個第三候選實體詞，作為與第一子實體詞相似的一個或多個第三候選實體詞。反之，第二相似度較低的第三候選實體詞被篩選掉。例如，對于“劉德華和成龍是什么關系”而言，可以計算與第一子實體詞“劉德華”相似的n(n為正整數)個第三候選實體詞，如，“黃日華”、“苗僑偉”、“王力宏”、“失孤”、“冰雨”，再從這n個第三候選實體詞中提取最相似的一個或多個第三候選實體詞，如，“苗僑偉”、“黃日華”、“王力宏”、“冰雨”，而篩選掉“失孤”。子步驟s32，從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞；在本申請實施例中，為針對問題進行類比的回答，一般問題中實體詞的類型與回答中實體詞的類型保持一致。為便于表示基于實體詞類型篩選的狀態(tài)，從第三候選實體詞中篩選出來的實體詞可以稱之為第四候選實體詞。例如，對于“劉德華”，實體詞類型為明星，因此，可以從“苗僑偉”、“黃日華”、“王力宏”、“冰雨”中篩選掉實體詞類型為歌曲的“冰雨”，保留實體詞類型同樣為明星的“苗僑偉”、“黃日華”、“王力宏”。子步驟s33，基于所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞；在具體實現(xiàn)中，可以d＝a-b+c的方式計算實體詞，其中，a為第一子實體詞、b為第二子實體詞、c為第四候選實體詞，d為第五候選實體詞。具體而言，可以查詢第一子實體詞的第三詞向量、一個或多個第四候選實體詞的一個或多個第四詞向量、第二子實體詞的第五詞向量。在第三詞向量的基礎上，減去第五詞向量、加上第四詞向量，獲得第六詞向量。當某個實體詞的第七詞向量與所述第六詞向量最近時，確認該實體詞為第五候選實體詞。例如，若第一子實體詞為“劉德華”、第二子實體詞為“成龍”，第四候選實體詞為“苗僑偉”、“黃日華”、“王力宏”。在一種情況下，可以在“劉德華”的第三詞向量的基礎上，減去“成龍”的第五詞向量、加上“苗僑偉”的第四詞向量，得到一個第六詞向量，若“無線”的第七向量與該六詞向量最近，則可以確認“無線”為第五候選實體詞。在另一種情況下，可以在“劉德華”的第三詞向量的基礎上，減去“成龍”的第五詞向量、加上“黃日華”的第四詞向量，得到一個第六詞向量，若“梁朝偉”的第七向量與該六詞向量最近，則可以確認“梁朝偉”為第五候選實體詞。在另一種情況下，可以在“劉德華”的第三詞向量的基礎上，減去“成龍”的第五詞向量、加上“王力宏”的第四詞向量，得到一個第六詞向量，若“周杰倫”的第七向量與該六詞向量最近，則可以確認“周杰倫”為第五候選實體詞。子步驟s34，從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞；在本申請實施例中，為針對問題進行類比的回答，一般問題中實體詞的類型與回答中實體詞的類型保持一致。例如，對于“成龍”，實體詞類型為明星，因此，可以從“無線”、“梁朝偉”、“王力宏”、“周杰倫”中篩選掉實體詞類型為公司的“無線”，保留實體詞類型同樣為明星的“梁朝偉”、“周杰倫”。需要說明的是，由于第四候選實體詞與第五候選實體詞是相互關聯(lián)的，因此，當第五候選實體詞篩選出來之后，相對應的第四候選實體詞也會篩選出來。例如，由于“無線”被篩選掉，因此，“無線”所關聯(lián)的“苗僑偉”也被篩選掉，即剩余“黃日華”、“王力宏”。子步驟s35，從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。在本申請實施例中，可以通過如下公式選取第二實體詞：其中，a、b為第一實體詞，c、d為第二實體詞，score(c,d)為c和d的評分，ci為第i個第四候選實體詞，dj為第j個第六候選實體詞，λ為常數。具體而言，可以基于第一子實體詞的第三詞向量與第四候選實體詞的第四詞向量計算第一距離；基于第七詞向量與第六候選實體詞的第六詞向量計算第二距離，其中，第六詞向量為在第三詞向量的基礎上，減去第五詞向量、加上第四詞向量獲得的詞向量；采用第一距離和所述第二距離計算所述第四候選實體詞和第六候選實體詞的評分；選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞，即為便于對第二實體詞進行表達，在本申請實施例中，可以按照實體詞的順序，以第四候選實體詞、第六候選實體詞等替換第二實體詞進行表達。例如，若采用上述公式，代入“劉德華”、“成龍”、“黃日華”、“梁朝偉”計算到的評分為0.85，代入“劉德華”、“成龍”、“王力宏”、“周杰倫”計算到的評分為0.93，由于0.93＞0.85，則可以確定“王力宏”、“周杰倫”為第二實體詞。步驟105，根據所述第二實體詞生成第二文本數據。在本申請實施例中，查找與類比問題模板屬于同一關系類型的類比回答模板。將所述第二實體詞嵌入類比回答模板中，獲得第二文本數據。需要說明的是，由于類比回答模板較多，因此，可以采用類似key-set<value>的方式存儲，其中，key是關系類型，即類比方式frame，如八卦關系、靜物關系等，set<value>是一組回答模板。當key命中的時候，從對應的set<value>中選擇一個回答模板，選擇的策略可以是隨機，可以是依據概率給出，當然也不限于依據實體類型來給出不同的回答模板。例如，對于如圖2a所示的類比問題模板，可以應用如下類比回答模板：1、a的好朋友應該是b吧。2、我覺得a的好朋友是b吧。3、a的好朋友是b那一類的。4、a和b應該可以愉快的做朋友。其中，a為第一實體詞、b為第二實體詞。對于“臺燈的好朋友是誰”，套用第3個模板，回答可以為“臺燈的好朋友是墻貼、led燈、電視柜那一類的”。又例如，對于圖2b所示的類比問題模板，可以應用如下類比回答模板：1、他倆關系多復雜啊，就和c跟d的關系差不多吧。2、就像c和d，你懂的。3、其實他們的關系，就跟c和d的關系是一樣一樣的。4、說到這個，我覺得很像c和d的關系。5、如果把他們比作c和d，你覺得是不是挺恰當的？6、a和b的關系就好比c和d的關系。7、a和b類似于c和d。8、a和b就像c和d。9、a和b的關系感覺就好像c和d的關系。10、a和b的關系讓我想到了c和d的關系。其中，a、b為第一實體詞，c、d為第二實體詞。對于“劉德華和成龍是什么關系”，套用第6個模板，回答可以為“劉德華和成龍的關系就好比王力宏和周杰倫的關系”。若在先接收的是客戶端發(fā)送的第一文本數據，則可以直接將第二文本數據返回客戶端展示。若在先接收的是客戶端發(fā)送的第一語音數據，則可以將第二文本數據轉換為第二語音數據，將第二語音數據返回所述客戶端進行播放，或者，將第二文本數據返回客戶端展示，或者，同時將第二語音數據返回所述客戶端進行播放及將第二文本數據返回客戶端展示。本申請實施例在確認第一文本數據具有類比意圖時，對第一文本數據的第一實體詞進行類比，獲得第二實體詞，進而生成第二文本數據，在大量無標注文本中直接構建詞向量，實現(xiàn)了類比回答，無需構建知識庫，減少了人力和物理的耗費，降低了成本，不直接回復兩者的確切關系，采用類比方式回復，提高了覆蓋率，提高了類比問題的回復成功率。需要說明的是，對于方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請實施例并不受所描述的動作順序的限制，因為依據本申請實施例，某些步驟可以采用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬于優(yōu)選實施例，所涉及的動作并不一定是本申請實施例所必須的。參照圖4，示出了本申請的一種文本數據的處理裝置實施例的結構框圖，具體可以包括如下模塊：第一文本數據獲取模塊401，用于獲取第一文本數據；類比意圖判斷模塊402，用于判斷所述第一文本數據是否適于類比；若是，則調用實體詞提取模塊403；實體詞提取模塊403，用于從所述第一文本數據中提取第一實體詞；實體詞類比模塊404，用于對所述第一實體詞進行類比，獲得第二實體詞；第二文本數據生成模塊405，用于根據所述第二實體詞生成第二文本數據。在本申請的一種實施例中，所述類比意圖判斷模塊402可以包括如下子模塊：分詞子模塊，用于對所述第一文本數據進行分詞處理，獲得多個第一文本分詞；類比問題模板匹配子模塊，用于將所述第一文本數據的多個第一文本分詞與預設的類比問題模板進行匹配；類比意圖確定子模塊，用于在匹配成功時，確定所述第一文本數據適于類比。在本申請的一種實施例中，所述實體詞類比模塊403可以包括如下子模塊：第一候選實體詞查找子模塊，用于在所述第一實體詞為一個時，查找與所述第一實體詞相似的一個或多個第一候選實體詞；第二候選實體詞篩選子模塊，用于從所述一個或多個第一候選實體詞中篩選實體詞類型與所述第一實體詞相同的一個或多個第二候選實體詞；第二實體詞選擇子模塊，用于從所述一個或多個第二候選實體詞中選擇一個或多個第二實體詞。在本申請的一種實施例中，所述第一候選實體詞查找子模塊可以包括如下單元：第一向量查詢單元，用于查詢所述第一實體詞的第一詞向量以及一個或多個第一候選實體詞的一個或多個第二詞向量；第一相似度計算單元，用于基于所述第一詞向量與所述一個或多個第二詞向量計算一個或多個第一相似度；第一候選實體詞提取單元，用于提取第一相似度最高的一個或多個第一候選實體詞，作為與所述第一實體詞相似的一個或多個第一候選實體詞。在本申請的一種實施例中，所述實體詞類比模塊403可以包括如下子模塊：第三候選實體詞查找子模塊，用于在所述第一實體詞包括第一子實體詞和第二子實體詞時，查找與所述第一子實體詞相似的一個或多個第三候選實體詞；第四候選實體詞篩選子模塊，用于從所述一個或多個第三候選實體詞中篩選實體詞類型與所述第一子實體詞相同的一個或多個第四候選實體詞；第五候選實體詞計算子模塊，用于基于所述第一子實體詞、所述第二子實體詞和所述一個或多個第四候選實體詞計算一個或多個第五候選實體詞；第六候選實體詞篩選子模塊，用于從所述一個或多個第五候選實體詞中篩選實體詞類型與所述第二子實體詞相同的一個或多個第六候選實體詞；第二實體詞選取子模塊，用于從所述一個或多個第四候選實體詞和所述一個或多個第六候選實體詞選取第二實體詞。在本申請的一種實施例中，所述第三候選實體詞查找子模塊可以包括如下單元：第二詞向量查詢單元，用于查詢所述第一子實體詞的第三詞向量以及一個或多個第三候選實體詞的一個或多個第四詞向量；第二相似度計算單元，用于基于所述第三詞向量與所述一個或多個第四詞向量計算一個或多個第二相似度；第三候選實體詞提取單元，用于提取第二相似度最高的一個或多個第三候選實體詞，作為與所述第一子實體詞相似的一個或多個第三候選實體詞。在本申請的一種實施例中，所述第五候選實體詞計算子模塊可以包括如下單元：第三向量查詢單元，用于查詢所述第一子實體詞的第三詞向量、所述一個或多個第四候選實體詞的一個或多個第四詞向量、所述第二子實體詞的第五詞向量；向量計算單元，用于在所述第三詞向量的基礎上，減去所述第五詞向量、加上所述第四詞向量，獲得第六詞向量；第五候選實體詞確定單元，用于在某個實體詞的第七詞向量與所述第六詞向量最近時，確認所述實體詞為第五候選實體詞。在本申請的一種實施例中，所述第二實體詞選取子模塊可以包括如下單元：第一距離計算單元，用于基于所述第一子實體詞的第三詞向量與所述第四候選實體詞的第四詞向量計算第一距離；第二距離基于所述第七詞向量與所述第六候選實體詞的第六詞向量計算第二距離；評分計算單元，用于采用所述第一距離和所述第二距離計算所述第四候選實體詞和所述第六候選實體詞的評分；選取單元，用于選取評分最高的第四候選實體詞和第六候選實體詞作為第二實體詞。在本申請的一種實施例中，所述第二文本數據生成模塊404可以包括如下子模塊：類比回答模板查找子模塊，用于查找與所述類比問題模板屬于同一關系類型的類比回答模板；類比回答模板嵌入子模塊，用于將所述第二實體詞嵌入所述類比回答模板中，獲得第二文本數據。在本申請的一種實施例中，該裝置還可以包括如下模塊：文本轉換模塊，用于在接收到客戶端發(fā)送的第一語音數據時，將所述第一語音數據轉換為第一文本數據；語音轉換模塊，用于將所述第二文本數據轉換為第二語音數據；語音返回模塊，用于將所述第二語音數據返回所述客戶端。對于裝置實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。本領域內的技術人員應明白，本申請實施例的實施例可提供為方法、裝置、或計算機程序產品。因此，本申請實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且，本申請實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。在一個典型的配置中，所述計算機設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。內存可能包括計算機可讀介質中的非永久性存儲器，隨機存取存儲器(ram)和/或非易失性內存等形式，如只讀存儲器(rom)或閃存(flashram)。內存是計算機可讀介質的示例。計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括，但不限于相變內存(pram)、靜態(tài)隨機存取存儲器(sram)、動態(tài)隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(cd-rom)、數字多功能光盤(dvd)或其他光學存儲、磁盒式磁帶，磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質，可用于存儲可以被計算設備訪問的信息。按照本文中的界定，計算機可讀介質不包括非持續(xù)性的電腦可讀媒體(transitorymedia)，如調制的數據信號和載波。本申請實施例是參照根據本申請實施例的方法、終端設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合?？商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器，使得通過計算機或其他可編程數據處理終端設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品，該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上，使得在計算機或其他可編程終端設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理，從而在計算機或其他可編程終端設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請實施例的優(yōu)選實施例，但本領域內的技術人員一旦得知了基本創(chuàng)造性概念，則可對這些實施例做出另外的變更和修改。所以，所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本申請實施例范圍的所有變更和修改。最后，還需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。以上對本申請所提供的一種文本數據的處理方法和一種文本數據的處理裝置，進行了詳細介紹，本文中應用了具體個例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本申請的方法及其核心思想；同時，對于本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。當前第1頁12

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：江會星;孫健;初敏
技術所有人：阿里巴巴集團控股有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文檔加密相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本數據的處理方法和裝置與流程