国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      針對(duì)口語(yǔ)語(yǔ)言理解中的域檢測(cè)利用查詢點(diǎn)擊記錄的制作方法

      文檔序號(hào):2825639閱讀:228來(lái)源:國(guó)知局
      針對(duì)口語(yǔ)語(yǔ)言理解中的域檢測(cè)利用查詢點(diǎn)擊記錄的制作方法
      【專利摘要】口語(yǔ)語(yǔ)言理解系統(tǒng)中的域檢測(cè)訓(xùn)練可以被提供。與搜索引擎相關(guān)聯(lián)的記錄數(shù)據(jù)可以被接收,所述記錄數(shù)據(jù)的每一個(gè)都與搜索查詢相關(guān)聯(lián)。針對(duì)每個(gè)搜索查詢的域標(biāo)簽可以被識(shí)別,并且所述域標(biāo)簽和鏈接數(shù)據(jù)可以被提供給針對(duì)口語(yǔ)語(yǔ)言理解模型的訓(xùn)練集。
      【專利說(shuō)明】針對(duì)口語(yǔ)語(yǔ)言理解中的域檢測(cè)利用查詢點(diǎn)擊記錄
      【背景技術(shù)】
      [0001]從搜索引擎查詢記錄挖掘(mined)的搜索查詢可以被分析以便改進(jìn)口語(yǔ)語(yǔ)言理解(SLU)應(yīng)用中的域檢測(cè)。理解應(yīng)用中的三個(gè)關(guān)鍵任務(wù)是域分類、意圖確定以及空位(slot)填充。域分類在SLU系統(tǒng)常常被首先完成,用作后續(xù)處理的頂層分類。域檢測(cè)系統(tǒng)可以被框定(framed)為分類問(wèn)題。給定用戶表達(dá)或句子語(yǔ)義域標(biāo)簽的集合J,.C C可以與^相關(guān)聯(lián),其中C是覆蓋的域的有限集。為了執(zhí)行這個(gè)分類任務(wù),具有最大條件概率的類可以被選擇。在常規(guī)系統(tǒng)中,監(jiān)督的分類方法可以被用來(lái)估計(jì)這些條件概率并且每個(gè)域類可以從一組貼標(biāo)簽的表達(dá)被訓(xùn)練。收集并且注解自然口語(yǔ)表達(dá)以便訓(xùn)練這些域類常常是昂貴的,表示在精力和財(cái)產(chǎn)兩方面的部署的重大障礙。

      【發(fā)明內(nèi)容】

      [0002]本
      【發(fā)明內(nèi)容】
      被提供來(lái)以簡(jiǎn)化形式介紹選擇的概念,這些概念在下面在【具體實(shí)施方式】中被進(jìn)一步描述。本
      【發(fā)明內(nèi)容】
      不旨在識(shí)別所要求保護(hù)的主題的關(guān)鍵特征或必要特征。本
      【發(fā)明內(nèi)容】
      也不旨在被用來(lái)限制所要求保護(hù)的主題的范圍。
      [0003]口語(yǔ)語(yǔ)言理解系統(tǒng)中的域檢測(cè)訓(xùn)練可以被提供。每個(gè)都與搜索查詢相關(guān)聯(lián)的、與搜索引擎相關(guān)聯(lián)的記錄數(shù)據(jù)可以被接收。針對(duì)每個(gè)搜索查詢的域標(biāo)簽可以被識(shí)別,并且所述域標(biāo)簽和鏈接數(shù)據(jù)可以被提供給針對(duì)口語(yǔ)語(yǔ)言理解模型的訓(xùn)練集。
      [0004]前述一般描述和以下具體描述提供例子并且僅僅是解釋性的。因此,前述一般描述和以下具體描述不應(yīng)該被認(rèn)為為限制性的。進(jìn)一步地,可以提供附加于本文中所闡述的那些的特征或變化。例如,實(shí)施例可以針對(duì)在【具體實(shí)施方式】中所描述的各種特征組合和子組合。
      【專利附圖】

      【附圖說(shuō)明】
      [0005]被并入且構(gòu)成本公開(kāi)的一部分的附圖圖示了本發(fā)明的各種實(shí)施例。在圖中:
      圖1是操作環(huán)境的框圖;
      圖2是用于提供域檢測(cè)訓(xùn)練的方法的流程圖;
      圖3是用于對(duì)域標(biāo)簽進(jìn)行分類的、圖2的方法的子例程的流程圖;以及 圖4是計(jì)算裝置的框圖。
      【具體實(shí)施方式】
      [0006]以下具體描述參考附圖。只要有可能,相同的參考標(biāo)號(hào)在圖和以下描述中被用來(lái)指代相同或相似的元素。雖然本發(fā)明的實(shí)施例可能被描述,但是修改、改編及其它實(shí)施方案是可能的。例如,可以對(duì)圖中所圖示的元素作出代替、附加或修改,并且本文中所描述的方法可以通過(guò)對(duì)所公開(kāi)的方法代替、重新排序或添加階段而被修改。因此,以下具體描述不限制本發(fā)明。
      [0007]本發(fā)明的實(shí)施例可以提供用于在口語(yǔ)語(yǔ)言表達(dá)(utterances)的域檢測(cè)中利用查詢點(diǎn)擊記錄的系統(tǒng)和/或方法。搜索引擎中的隱式地貼標(biāo)簽的web搜索查詢的豐富可以被利用來(lái)幫助訓(xùn)練域檢測(cè)類。諸如Bing?或Google?之類的大型引擎每天記錄大于IOOM個(gè)搜索查詢。記錄中的每個(gè)查詢可以與在用戶鍵入查詢之后被點(diǎn)擊的一組統(tǒng)一資源定位符(URL)相關(guān)聯(lián)。這個(gè)用戶點(diǎn)擊信息可以被用來(lái)推斷域類標(biāo)簽,并且因此,可以在訓(xùn)練域分類器中提供(可能地嗜雜)監(jiān)督。例如,在相同的URL(例如,http://www.hotels, com)上點(diǎn)擊的兩個(gè)用戶的查詢可能來(lái)自相同的域(例如,“hotels (旅館)”)。
      [0008]點(diǎn)擊的URL類別可以被分配作為用戶查詢的域標(biāo)簽。例如,當(dāng)用戶已在http://WWW.hotels, com上點(diǎn)擊時(shí),標(biāo)簽“hotels (旅館)”可以被分配給用戶查詢“Holiday Innand Suites (假日酒店和套房)”。然而,點(diǎn)擊數(shù)據(jù)可能是嘈雜的并且以低頻率發(fā)生。因此,通過(guò)挖掘查詢點(diǎn)擊記錄來(lái)收集人們通過(guò)使用相同的精確查詢搜索過(guò)的URL的集合對(duì)于估計(jì)成功的點(diǎn)擊也可能是有用的。諸如查詢熵(entropy)、停延時(shí)間以及會(huì)話長(zhǎng)度之類的若干特征可以被評(píng)估以用于挖掘高質(zhì)量點(diǎn)擊。用戶動(dòng)作模式和停延時(shí)間可以被用來(lái)估計(jì)成功的搜索會(huì)話。查詢熵和頻率可以與來(lái)自域檢測(cè)的其它特征結(jié)合(所述其它特征諸如由在貼標(biāo)簽的數(shù)據(jù)上訓(xùn)練的域檢測(cè)模型所分配的概率),以便取樣都用于作為例子添加到訓(xùn)練集的高質(zhì)量點(diǎn)擊,并且以便預(yù)取樣用于在監(jiān)督的分類器訓(xùn)練和/或諸如標(biāo)簽傳播之類的半監(jiān)督和微監(jiān)督的學(xué)習(xí)方法中使用的數(shù)據(jù)。
      [0009]標(biāo)簽傳播算法可以將域注解從貼標(biāo)簽的自然語(yǔ)言(NL)表達(dá)轉(zhuǎn)換為未貼標(biāo)簽的web搜索查詢。點(diǎn)擊信息還可以被認(rèn)為是嘈雜監(jiān)督,并且從已點(diǎn)擊的URL類別中提取的域標(biāo)簽可以被合并到標(biāo)簽傳播算法中。
      [0010]查詢點(diǎn)擊數(shù)據(jù)可以包括搜索引擎用戶的查詢的記錄和他們從由搜索引擎所返回的站點(diǎn)的列表所點(diǎn)擊的鏈接。然而,一些點(diǎn)擊數(shù)據(jù)是非常嘈雜的,并且可能包括被幾乎任意地點(diǎn)擊的鏈接。取樣措施可以是來(lái)自用于在域檢測(cè)中使用的已點(diǎn)擊URL的域標(biāo)簽和應(yīng)用的查詢。來(lái)自嘈雜的用戶點(diǎn)擊的監(jiān)督然后可以被包括到標(biāo)簽傳播算法中,所述標(biāo)簽傳播算法可以將域標(biāo)簽從貼標(biāo)簽的例子轉(zhuǎn)換為經(jīng)取樣的搜索查詢。
      [0011]其用戶在與目標(biāo)域類別相關(guān)的URL上點(diǎn)擊的一組查詢可以被提取。查詢點(diǎn)擊記錄然后可以被挖掘以便下載這些搜索查詢的實(shí)例和由鍵入相同查詢的搜索引擎用戶點(diǎn)擊的鏈接的集合。用于對(duì)查詢的子集進(jìn)行取樣的標(biāo)準(zhǔn)可以包括查詢頻率、查詢(點(diǎn)擊)熵和/或查詢長(zhǎng)度。查詢頻率可以指的是查詢已被不同用戶在給定時(shí)間范圍中搜索的次數(shù)。在口語(yǔ)對(duì)話系統(tǒng)中,用戶可以與web搜索用戶問(wèn)相同的事情,從而將頻繁的搜索查詢添加到域檢測(cè)訓(xùn)練集可以幫助提高它的準(zhǔn)確性。查詢(點(diǎn)擊)熵旨在測(cè)量由查詢7的用戶所點(diǎn)進(jìn)的URL的多樣性(diversity),并且可以根據(jù)在下面的等式I被計(jì)算。
      【權(quán)利要求】
      1.一種用于提供域檢測(cè)訓(xùn)練的方法,所述方法包括: 接收與搜索引擎相關(guān)聯(lián)的多個(gè)記錄數(shù)據(jù),其中所述多個(gè)記錄數(shù)據(jù)中的每一個(gè)都與搜索查詢相關(guān)聯(lián); 識(shí)別針對(duì)所述多個(gè)記錄數(shù)據(jù)中的至少一個(gè)的所述搜索查詢的域標(biāo)簽;以及 將所述域標(biāo)簽和所述多個(gè)鏈接數(shù)據(jù)中的至少一個(gè)提供給針對(duì)理解模型的訓(xùn)練集。
      2.根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)記錄數(shù)據(jù)中的每一個(gè)都包括選自與所述搜索查詢相關(guān)聯(lián)的多個(gè)搜索結(jié)果的至少一個(gè)統(tǒng)一資源定位符(URL)。
      3.根據(jù)權(quán)利要求2所述的方法,其中,識(shí)別所述域標(biāo)簽包括比較至少與所述多個(gè)記錄數(shù)據(jù)的子集相關(guān)聯(lián)的URL。
      4.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)是否包括成功的搜索;以及響應(yīng)于確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)不包括成功的搜索,從所述訓(xùn)練集中丟棄所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)。
      5.根據(jù)權(quán)利要求4所述的方法,其中,確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)是否包括成功的搜索包括分析與所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)相關(guān)聯(lián)的至少一個(gè)鏈接特性。
      6.一種用于提供域檢測(cè)訓(xùn)練的系統(tǒng),所述系統(tǒng)包括: 記憶儲(chǔ)存器;以及 耦合到所述記憶儲(chǔ)存器的處理單元,其中所述處理單元可操作來(lái): 識(shí)別與目標(biāo)域標(biāo)簽相關(guān)聯(lián)的多個(gè)查詢記錄數(shù)據(jù), 從所述多個(gè)查詢記錄數(shù)據(jù)中的每一個(gè)中提取搜索查詢、至少一個(gè)跟隨的鏈接以及至少一個(gè)鏈接特性, 根據(jù)所述至少一個(gè)鏈接特性來(lái)對(duì)所述多個(gè)查詢記錄數(shù)據(jù)的子集進(jìn)行取樣, 將所述目標(biāo)域標(biāo)簽分配給所述多個(gè)查詢記錄數(shù)據(jù)的所述子集中的每一個(gè),以及 將所述多個(gè)查詢記錄數(shù)據(jù)的所述子集提供給口語(yǔ)語(yǔ)言理解模型。
      7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述多個(gè)查詢記錄數(shù)據(jù)的所述子集被提供給所述口語(yǔ)語(yǔ)言理解模型作為貼標(biāo)簽的訓(xùn)練集。
      8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述多個(gè)查詢記錄數(shù)據(jù)的所述子集被提供給所述口語(yǔ)語(yǔ)言理解模型用于在半監(jiān)督的學(xué)習(xí)模式中使用。
      9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述至少一個(gè)鏈接特性包括下列中的至少一個(gè):與所述至少一個(gè)跟隨的鏈接相關(guān)聯(lián)的查詢頻率、與所述搜索查詢相關(guān)聯(lián)的多個(gè)URL的多樣性的查詢熵測(cè)量以及所述搜索查詢的長(zhǎng)度。
      10.一種存儲(chǔ)指令集的計(jì)算機(jī)可讀介質(zhì),當(dāng)所述指令集被執(zhí)行時(shí)其執(zhí)行用于提供域檢測(cè)訓(xùn)練的方法,由所述指令集所執(zhí)行的所述方法包括: 接收多個(gè)查詢記錄數(shù)據(jù),其中,所述查詢記錄數(shù)據(jù)中的每一個(gè)都包括與web搜索會(huì)話相關(guān)聯(lián)的搜索查詢、至少一個(gè)跟隨的鏈接以及至少一個(gè)鏈接特性; 根據(jù)與所述多個(gè)查詢記錄數(shù)據(jù)的所述子集中的每一個(gè)相關(guān)聯(lián)的所述至少一個(gè)鏈接特性來(lái)對(duì)所述多個(gè)查詢記錄數(shù)據(jù)的子集進(jìn)行取樣,其中,所述至少一個(gè)鏈接特性包括下列中的至少一個(gè):停延時(shí)間、查詢熵、查詢頻率以及所述搜索查詢的長(zhǎng)度,將所述多個(gè)查詢記錄數(shù)據(jù)的所述子集中的每一個(gè)分類到域標(biāo)簽,其中將所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)分類到所述域標(biāo)簽包括: 識(shí)別與所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)相關(guān)聯(lián)的多個(gè)可能的域,其中,所述多個(gè)可能的域從由口語(yǔ)語(yǔ)言理解模型所使用的所有域中被選擇, 生成與所述多個(gè)可能的域中的每一個(gè)相關(guān)聯(lián)的、所述多個(gè)鏈接數(shù)據(jù)中的至少一個(gè)與所述域相關(guān)聯(lián)的概率,以及 根據(jù)所述多個(gè)可能的域之中的最高概率從所述多個(gè)可能的域中選擇針對(duì)所述多個(gè)可能的鏈接數(shù)據(jù)中的所述至少一個(gè)的分類域; 將所述多個(gè)查詢記錄數(shù)據(jù)的所述子集提供給口語(yǔ)語(yǔ)言理解模型; 接收來(lái)自用戶的自然語(yǔ)言查詢; 根據(jù)所述口語(yǔ)語(yǔ)言理解模型將查詢域分配給所述自然語(yǔ)言查詢;以及 根據(jù)所分配的查詢域?qū)⒉閌詢響應(yīng)提供給所述用戶。
      【文檔編號(hào)】G10L15/08GK103534696SQ201280023613
      【公開(kāi)日】2014年1月22日 申請(qǐng)日期:2012年5月11日 優(yōu)先權(quán)日:2011年5月13日
      【發(fā)明者】D.哈卡尼-圖爾, L.P.赫克, G.圖爾 申請(qǐng)人:微軟公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1