国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      答案抽取方法及裝置的制造方法

      文檔序號(hào):8223513閱讀:260來(lái)源:國(guó)知局
      答案抽取方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種答案抽取方法及裝置。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)上的信息越來(lái)越豐富,人們可以通過(guò)搜索引擎(比 如google、百度等)找到想要的信息,比如可在搜索引擎的搜索框中輸入與相關(guān)的關(guān)鍵詞 并觸發(fā)確定搜索的按鈕,隨后即會(huì)返回與關(guān)鍵詞相關(guān)的網(wǎng)頁(yè)。但搜索引擎會(huì)存在很多不足, 比如,可能用戶(hù)的檢索需求很復(fù)雜,很難用幾個(gè)關(guān)鍵詞的簡(jiǎn)單組合來(lái)表示,從而不能清楚表 達(dá)自己的檢索需求,搜索引擎自然就無(wú)法找出令用戶(hù)滿(mǎn)意的答案,再比如,檢索結(jié)果往往是 很多相關(guān)的網(wǎng)頁(yè)、文檔等,用戶(hù)需要花費(fèi)大量時(shí)間在這些網(wǎng)頁(yè)、文檔中查找自己需要的信 息。
      [0003] 基于上述情況,貝丨」出現(xiàn)了自動(dòng)問(wèn)答系統(tǒng),又稱(chēng)QA(Question Answering)系統(tǒng),自動(dòng) 問(wèn)答系統(tǒng)可以說(shuō)就是新一代的搜索引擎,用戶(hù)不需要把自己的問(wèn)題分解成關(guān)鍵字,可把整 個(gè)問(wèn)題直接交給該系統(tǒng),既能用自然語(yǔ)言句子提問(wèn),又能為用戶(hù)直接返回答案,可更好地滿(mǎn) 足用戶(hù)的檢索需求。
      [0004] 在自動(dòng)問(wèn)答系統(tǒng)中,答案抽取是比較核心的部分,關(guān)系到整個(gè)系統(tǒng)的檢索效率及 準(zhǔn)確率?,F(xiàn)有的答案抽取方法包括基于機(jī)器學(xué)習(xí)、基于模式匹配、基于句法解析等方法,但 上述現(xiàn)有方法存在以下問(wèn)題:
      [0005] 首先,忽視了問(wèn)句經(jīng)過(guò)切分后生成的檢索詞(也可稱(chēng)為問(wèn)句術(shù)語(yǔ))對(duì)抽取候選答 案的作用,問(wèn)句術(shù)語(yǔ)在證據(jù)語(yǔ)料中的出現(xiàn)頻次、其自身的長(zhǎng)度以及其與候選答案之間的句 法關(guān)系等特征對(duì)判斷候選答案有非常重要的作用,但上述方法未能根據(jù)問(wèn)句術(shù)語(yǔ)的重要程 度對(duì)問(wèn)句術(shù)語(yǔ)進(jìn)行區(qū)別處理;
      [0006] 其次,忽視了包含候選答案的證據(jù)語(yǔ)料對(duì)評(píng)估候選答案的作用;
      [0007] 再次,都是基于某一單一特征或單一方法實(shí)現(xiàn)答案抽取,未能解決句法和詞法多 樣性帶來(lái)的答案抽取難點(diǎn)。由于包含答案的證據(jù)語(yǔ)料存在結(jié)構(gòu)多樣、句法結(jié)構(gòu)復(fù)雜等特點(diǎn), 使得僅基于某一種特征如句法分析特征或某一種模型完成答案抽取的效果并不理想。
      [0008] 因此,如何解決上述現(xiàn)有的答案抽取方法的問(wèn)題,成為目前最需要解決的問(wèn)題。

      【發(fā)明內(nèi)容】

      [0009] 本發(fā)明提供了一種答案抽取方法及裝置,可解決上述現(xiàn)有技術(shù)中的問(wèn)題,可提高 答案抽取的準(zhǔn)確率,進(jìn)而提高自動(dòng)問(wèn)答系統(tǒng)提供答案的準(zhǔn)確率。
      [0010] 根據(jù)本發(fā)明的一方面,本發(fā)明提出了一種答案抽取方法,所述方法應(yīng)用于自動(dòng)問(wèn) 答系統(tǒng),包括:
      [0011] 將接收到的問(wèn)句劃分為多個(gè)分詞,并在對(duì)每個(gè)分詞的詞性進(jìn)行標(biāo)注后生成分詞序 列;
      [0012] 基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù)置接口,并將所 述檢索關(guān)鍵詞提交給所述預(yù)置接口,以根據(jù)獲得的檢索結(jié)果生成包含候選答案的證據(jù)語(yǔ) 料;
      [0013] 根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞并生成熱詞詞表;
      [0014] 根據(jù)問(wèn)句的內(nèi)容識(shí)別所述證據(jù)語(yǔ)料中的命名實(shí)體,并生成由命名實(shí)體組成的候選 答案初始集;
      [0015] 根據(jù)命名實(shí)體的類(lèi)型確定一種基于熱詞的預(yù)置組合評(píng)分機(jī)制并對(duì)候選答案初始 集中的每個(gè)命名實(shí)體分別進(jìn)行評(píng)分,并將評(píng)分最高的命名實(shí)體作為正確答案返回,以完成 針對(duì)所述問(wèn)句的答案抽取操作;
      [0016] 其中,所述基于熱詞的預(yù)置組合評(píng)分機(jī)制為將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī) 制及預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)設(shè)排列組合方式進(jìn)行組合后形成的42種 組合評(píng)分機(jī)制。
      [0017] 優(yōu)選地,所述基于所述分詞序列獲取檢索關(guān)鍵詞,包括:
      [0018] 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為搜索關(guān) 鍵詞;
      [0019] 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動(dòng)詞、代詞、形容詞。
      [0020] 優(yōu)選地,根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞,包括:
      [0021] 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個(gè)中文字符或檢 索關(guān)鍵詞在所述證據(jù)語(yǔ)料中的出現(xiàn)次數(shù)是否大于兩次;
      [0022] 若是,則所述檢索關(guān)鍵詞為熱詞。
      [0023] 優(yōu)選地,所述預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制,包括:
      [0024] 通過(guò)比較證據(jù)語(yǔ)料中與問(wèn)句中包含的熱詞的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng)分的熱詞匹 配評(píng)分機(jī)制;及
      [0025] 通過(guò)計(jì)算證據(jù)語(yǔ)料中與問(wèn)句中共同包含的跳躍二元熱詞對(duì)的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn) 行評(píng)分的跳躍二元熱詞對(duì)評(píng)分機(jī)制,其中,所述跳躍二元熱詞對(duì)為一個(gè)熱詞序列中非直接 相鄰的兩個(gè)熱詞所形成的詞對(duì);
      [0026] 所述預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制,包括:
      [0027] 通過(guò)命名實(shí)體在證據(jù)語(yǔ)料中的出現(xiàn)頻次及根據(jù)命名實(shí)體出現(xiàn)的位置所對(duì)應(yīng)的權(quán) 重值計(jì)算出命名實(shí)體的加權(quán)分值的熱詞詞頻評(píng)分機(jī)制;
      [0028] 通過(guò)計(jì)算基于熱詞對(duì)比問(wèn)句中與證據(jù)語(yǔ)料中的語(yǔ)序相似度的細(xì)粒度文本對(duì)齊評(píng) 分機(jī)制;
      [0029] 通過(guò)計(jì)算命名實(shí)體與熱詞之間的距離而得到與熱詞距離最短的命名實(shí)體的第一 熱詞距離評(píng)分機(jī)制;及
      [0030] 通過(guò)計(jì)算熱詞與每個(gè)命名實(shí)體之間的距離并求和而得到命名實(shí)體與熱詞之間的 距離累積值的第二熱詞距離評(píng)分機(jī)制。
      [0031] 優(yōu)選地,將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及四個(gè)針對(duì)候選答案的評(píng)分機(jī)制 通過(guò)預(yù)置排列組合方式進(jìn)行組合后形成的42個(gè)評(píng)分機(jī)制,包括:
      [0032] 將一個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì) 候選答案的評(píng)分機(jī)制、三個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行 組合形成的28種評(píng)分機(jī)制;及
      [0033] 將兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì) 候選答案的評(píng)分機(jī)制、三個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行 組合形成的14種評(píng)分機(jī)制。
      [0034] 根據(jù)本發(fā)明的另一方面,本發(fā)明還提出答案抽取裝置,所述裝置應(yīng)用于自動(dòng)問(wèn)答 系統(tǒng),包括:
      [0035] 分詞單元,用于將接收到的問(wèn)句劃分為多個(gè)分詞,并在對(duì)每個(gè)分詞的詞性進(jìn)行標(biāo) 注后生成分詞序列;
      [0036] 檢索單元,用于基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù) 置接口,并將所述檢索關(guān)鍵詞提交給所述預(yù)置接口,以根據(jù)獲得的檢索結(jié)果生成包含候選 答案的證據(jù)語(yǔ)料;
      [0037] 熱詞獲取單元,用于根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞,并生成熱詞詞 表;
      [0038] 命名實(shí)體識(shí)別單元,用于根據(jù)問(wèn)句的內(nèi)容識(shí)別所述證據(jù)語(yǔ)料中的命名實(shí)體,并生 成由命名實(shí)體組成的候選答案初始集;
      [0039] 評(píng)分單元,用于根據(jù)命名實(shí)體的類(lèi)型確定一種基于熱詞的預(yù)置組合評(píng)分機(jī)制并對(duì) 候選答案初始集中的每個(gè)命名實(shí)體分別進(jìn)行評(píng)分,并將評(píng)分最高的命名實(shí)體作為正確答案 返回,以完成針對(duì)所述問(wèn)句的答案抽取操作;
      [0040] 其中,所述基于熱詞的預(yù)置組合評(píng)分機(jī)制為將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī) 制及預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)設(shè)排列組合方式進(jìn)行組合后形成的42種 組合評(píng)分機(jī)制。
      [0041] 優(yōu)選地,所述檢索單元,具體用于:
      [0042] 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為搜索關(guān) 鍵詞;
      [0043] 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動(dòng)詞、代詞、形容詞。
      [0044] 優(yōu)選地,所述熱詞獲取單元,具體用于:
      [0045] 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個(gè)中文字符或檢 索關(guān)鍵詞在所述證據(jù)語(yǔ)料中的出現(xiàn)次數(shù)是否大于兩次;
      [0046] 若是,則所述檢索關(guān)鍵詞為熱詞。
      [0047] 優(yōu)選地,所述預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制,包括:
      [0048] 通過(guò)比較證據(jù)語(yǔ)料中與問(wèn)句中包含的熱詞的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng)分的熱詞匹 配評(píng)分機(jī)制;及
      [0049] 通過(guò)計(jì)算證據(jù)語(yǔ)料中與問(wèn)句中共同包含的跳躍二元熱詞對(duì)的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn) 行評(píng)分的跳躍二元熱詞對(duì)評(píng)分機(jī)制,其中,所述跳躍二元熱詞對(duì)為一個(gè)熱詞序列中非直接 相鄰的兩個(gè)熱
      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1