行業(yè)詞典的建立方法和裝置及行業(yè)識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及信息識別技術(shù)領(lǐng)域,尤其涉及一種行業(yè)詞典的建立方法和裝置及行業(yè)識別方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)有對于搜索行為的行業(yè)識別主要基于人工生成的詞表,只有當搜索詞命中詞表時,才能進行行業(yè)的識別。
[0003]存在的缺陷在于:人工生成的詞表對于搜索詞的覆蓋率低;對于某些對應(yīng)多個行業(yè)的特殊的搜索詞,利用人工生成的詞表,每一個搜索詞只對應(yīng)一個行業(yè),導(dǎo)致行業(yè)識別準確率較低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種行業(yè)詞典的建立方法和裝置,以實現(xiàn)行業(yè)詞典的自動化建立。
[0005]本發(fā)明實施例還提供一種行業(yè)識別方法和裝置,以提高對查詢串的覆蓋率,并提高查詢串的行業(yè)識別的準確率。
[0006]第一方面,本發(fā)明實施例提供了一種行業(yè)詞典的建立方法,包括:
[0007]獲取用戶搜索行為日志;
[0008]從所述用戶搜索行為日志中提取各搜索詞,以及對應(yīng)的被點擊的搜索結(jié)果;
[0009]根據(jù)所述被點擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對應(yīng)的行業(yè)的詞條對,形成精確詞典。
[0010]第二方面,本發(fā)明實施例提供了一種行業(yè)詞典的建立裝置,包括:
[0011]日志獲取模塊,用于獲取用戶搜索行為日志;
[0012]提取模塊,用于從所述用戶搜索行為日志中提取各搜索詞,以及對應(yīng)的被點擊的搜索結(jié)果;
[0013]精確詞典形成模塊,用于根據(jù)所述被點擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對應(yīng)的行業(yè)的詞條對,形成精確詞典。
[0014]第三方面,本發(fā)明實施例提供了一種行業(yè)識別方法,基于本發(fā)明任意實施例提供的行業(yè)詞典的建立方法所建立的詞典實現(xiàn),包括:
[0015]獲取用戶輸入的查詢串;
[0016]在預(yù)先建立的精確詞典中精確匹配所述查詢串,將匹配成功的精確索引詞所對應(yīng)的行業(yè)作為所述查詢串對應(yīng)的行業(yè),并返回所述查詢串對應(yīng)的行業(yè)。
[0017]第四方面,本發(fā)明實施例提供了一種行業(yè)識別裝置,基于本發(fā)明任意實施例提供的行業(yè)詞典的建立裝置所建立的詞典實現(xiàn),包括:
[0018]查詢串獲取模塊,用于獲取用戶輸入的查詢串;
[0019]行業(yè)識別模塊,用于在預(yù)先建立的精確詞典中精確匹配所述查詢串,將匹配成功的精確索引詞所對應(yīng)的行業(yè)作為所述查詢串對應(yīng)的行業(yè),并返回所述查詢串對應(yīng)的行業(yè)。
[0020]本發(fā)明實施例提供的行業(yè)詞典的建立方法和裝置,基于用戶搜索行為日志的分析,可以自動地建立精確詞典,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對,提高了精確詞典對搜索詞的覆蓋率;由于被點擊的搜索結(jié)果通常反映的是用戶的搜索需求,因此根據(jù)被點擊的搜索結(jié)果確定搜索詞所屬行業(yè),得到的詞條對的準確率高;同時,對于精確詞典中的每個精確索引詞,由于對精確索引詞的對應(yīng)的所有被點擊的搜索結(jié)果均進行了分析,避免了某些精確索引詞與行業(yè)的一對多對應(yīng)關(guān)系的遺漏,提高了精確詞典的詞條對的準確率。
[0021]本發(fā)明實施例提供的行業(yè)識別方法和裝置,由于精確詞典是基于用戶搜索行為日志的分析自動地建立的,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對,提高了精確詞典對查詢串的覆蓋率;利用精確詞典,可以實現(xiàn)對查詢串的行業(yè)識別,尤其是對搜索頻率較高的查詢串的行業(yè)識別,既可以是一對一關(guān)系的精確識別,也可以是一對多關(guān)系的精確識別,提尚了對查詢串的彳丁業(yè)識別的準確率。
【附圖說明】
[0022]為了更清楚地說明本發(fā)明,下面將對本發(fā)明中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖1a為本發(fā)明實施例一提供的一種行業(yè)詞典的建立方法的流程示意圖;
[0024]圖1b為本發(fā)明實施例一提供的行業(yè)詞典的建立方法中一種根據(jù)被點擊的搜索結(jié)果形成精確詞典的方法流程示意圖;
[0025]圖2為本發(fā)明實施例四提供的一種行業(yè)詞典的建立裝置的結(jié)構(gòu)示意圖;
[0026]圖3為本發(fā)明實施例五提供的一種行業(yè)識別方法的流程示意圖;
[0027]圖4為本發(fā)明實施例六提供的一種行業(yè)識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施例中的技術(shù)方案作進一步詳細描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定,基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0029]在更加詳細地討論示例性實施例之前應(yīng)當提到的是,一些示例性實施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新安排。當其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0030]還應(yīng)當提到的是,在一些替換實現(xiàn)方式中,所提到的功能/動作可以按照不同于附圖中標示的順序發(fā)生。舉例來說,取決于所涉及的功能/動作,相繼示出的各幅圖實際上可以基本上同時執(zhí)行或者有時可以按照相反的順序來執(zhí)行。
[0031]實施例一
[0032]請參閱圖la,為本發(fā)明實施例一提供的一種行業(yè)詞典的建立方法的流程示意圖。本發(fā)明實施例的方法可以由配置以硬件和/或軟件實現(xiàn)的行業(yè)詞典的建立裝置來執(zhí)行,該實現(xiàn)裝置典型的是配置于能夠提供信息搜索服務(wù)的服務(wù)器中。
[0033]該方法包括:操作110?操作130。
[0034]110、獲取用戶搜索行為日志。
[0035]用戶通過各種搜索引擎進行搜索是一種常見的獲取信息的方式。用戶的每一次搜索操作,搜索引擎都會形成相應(yīng)的用戶搜索行為日志,不僅包括用戶輸入的搜索詞,還包括相應(yīng)的搜索結(jié)果,以及用戶對某些具體的搜索結(jié)果的點擊等信息。
[0036]本操作中對用戶搜索行為日志的來源不進行限制,既可以是移動終端的用戶搜索行為日志,也可以是PC端的用戶搜索行為日志。進一步地,對于移動終端和/或PC端而言,既可以是某一垂直頻道分類搜索(例如,百度搜索引擎中“網(wǎng)頁”這一垂直分類搜索)對應(yīng)的用戶搜索行為日志,還可以是多個垂直頻道分類搜索(例如,百度搜索引擎中“網(wǎng)頁”和“地圖”兩個垂直分類搜索)對應(yīng)的用戶搜索行為日志,還可以擴大到全平臺的用戶搜索行為日志。
[0037]本操作中,通常是獲取設(shè)定時間內(nèi)(例如3個月)的用戶搜索行為日志。
[0038]120、從所述用戶搜索行為日志中提取各搜索詞,以及對應(yīng)的被點擊的搜索結(jié)果。
[0039]130、根據(jù)所述被點擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對應(yīng)的行業(yè)的詞條對,形成精確詞典。
[0040]在對于同一搜索詞的多次搜索過程中,由于不同用戶的搜索需求不同,導(dǎo)致有的搜索結(jié)果的被點擊,有的搜索結(jié)果不被點擊,由于被點擊的搜索結(jié)果通常反映的是用戶的搜索需求,因此根據(jù)被點擊的搜索結(jié)果確定搜索詞所屬行業(yè),基于此,得到的詞條對的準確率高。
[0041]對于有些搜索詞,根據(jù)被點擊的搜索結(jié)果只能確定這些搜索詞只對應(yīng)一個行業(yè);而對于另外一些搜索詞,根據(jù)被點擊的搜索結(jié)果可以確定這些搜索詞同時對應(yīng)多個行業(yè),因此,精確詞典中的詞條對有兩種形式,一種是一對一的詞條對,一種是一對多的詞條對。
[0042]例如,假設(shè)搜索詞為“肯德基”,被點擊的搜索結(jié)果有:包含有肯德基門店信息的搜索結(jié)果,包含有肯德基網(wǎng)上訂餐的搜索結(jié)果,以及包含有肯德基團購信息的搜索結(jié)果,根據(jù)這些被點擊的搜索結(jié)果,可