本發(fā)明涉及互聯網技術領域,特別是涉及一種網頁訓練的方法和裝置、搜索意圖識別的方法和裝置。
背景技術:
隨著互聯網技術的發(fā)展,人們可以通過網絡使用搜索引擎檢索自己所需要的信息。如當用戶在搜索引擎里輸入“仙劍奇?zhèn)b傳”時,用戶的意圖較大可能是搜索電視劇或搜索游戲,搜索引擎需要先判斷出用戶搜索的意圖,才能使返回的搜索結果更接近用戶需要的內容。意圖識別就是對于任意給定的查詢字符串,判斷該查詢字符串屬于的類別。
現有的搜索意圖識別方法,往往使用人工標注的方法對網頁標注類別,在進行意圖識別時,需要使用人工標注的網頁類別進行識別,需要人工標注每個類別的網頁集合,成本太高,而且人工標注的結果往往數量有限,對于點擊率少的網頁很有可能網頁的類別未知,導致意圖識別的準確率不高。
技術實現要素:
基于此,有必要針對上述技術問題,提供一種網頁訓練的方法和裝置、搜索意圖識別的方法和裝置,提高搜索意圖識別的準確率。
一種網頁訓練的方法,所述方法包括:
獲取人工標注類別的訓練網頁集合,生成所述訓練網頁集合中的網頁的網頁向量,具體包括:
獲取所述訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對所述有效歷史查詢字符串進行分詞;
獲取各個分詞的有效次數,所述有效次數為所述有效歷史查詢字符串中所述分詞出現的總次數;
根據所述各個分詞的有效次數計算各個分詞的分詞權重;
根據所述各個分詞和對應的分詞權重生成所述第一訓練網頁的網頁向量;
根據所述訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型。
一種網頁訓練的裝置,所述裝置包括:
網頁向量生成模塊,用于獲取人工標注類別的訓練網頁集合,生成所述訓練網頁集合中的網頁的網頁向量,所述網頁向量生成模塊包括:
分詞單元,用于獲取所述訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對所述有效歷史查詢字符串進行分詞;
分詞權重計算單元,用于獲取各個分詞的有效次數,所述有效次數為所述有效歷史查詢字符串中所述分詞出現的總次數,根據所述各個分詞的有效次數計算各個分詞的分詞權重;
網頁向量生成單元,用于根據所述各個分詞和對應的分詞權重生成所述第一訓練網頁的網頁向量;
網頁分類模型生成模塊,用于根據所述訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型。
上述網頁訓練的方法和裝置,通過獲取人工標注類別的訓練網頁集合,生成訓練網頁集合中的網頁的網頁向量,具體包括:獲取訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞,獲取各個分詞的有效次數,有效次數為有效歷史查詢字符串中分詞出現的總次數,根據各個分詞的有效次數計算各個分詞的分詞權重,根據各個分詞和對應的分詞權重生成第一訓練網頁的網頁向量,根據訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型,通過有效歷史查詢字符串分詞后生成的網頁向量進行訓練,訓練成本低,效率高,且生成網頁分類模型后可自動對網頁進行標注類別,使得中長尾網頁也能自動得到類別,從而使得意圖識別中網頁類別的覆蓋率高,識別出的意圖正確率更高。
一種搜索意圖識別的方法,所述方法包括:
獲取待識別的查詢字符串,獲取所述查詢字符串對應的歷史網頁集合,所述歷史網頁集合中包括歷史通過所述查詢字符串點擊的各個網頁;
獲取通過上述的網頁訓練的方法生成的網頁分類模型,根據所述網頁分類模型得到所述歷史網頁集合中的網頁的類別;
統(tǒng)計各個類別中的網頁數量,根據所述各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到所述查詢字符串的意圖分布;
根據所述意圖分布得到所述查詢字符串的意圖識別結果。
一種搜索意圖識別的裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取待識別的查詢字符串,獲取所述查詢字符串對應的歷史網頁集合,所述歷史網頁集合中包括歷史通過所述查詢字符串點擊的各個網頁;
網頁類別獲取模塊,用于獲取通過上述的網頁訓練的裝置生成的網頁分類模型,根據所述網頁分類模型得到所述歷史網頁集合中的網頁的類別;
意圖識別模塊,用于統(tǒng)計各個類別中的網頁數量,根據所述各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到所述查詢字符串的意圖分布,根據所述意圖分布得到所述查詢字符串的意圖識別結果。
上述搜索意圖識別的方法和裝置,通過獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網頁集合,歷史網頁集合中包括歷史通過查詢字符串點擊的各個網頁,獲取通過上述實施例的網頁訓練的方法生成的網頁分類模型,根據網頁分類模型得到歷史網頁集合中的網頁的類別,統(tǒng)計各個類別中的網頁數量,根據各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到查詢字符串的意圖分布,根據意圖分布得到查詢字符串的意圖識別結果,在意圖識別時根據網頁分類模型自動對歷史網頁集合中的網頁的類別進行識別,比人工標注的類別的網頁覆蓋率大,使得中長尾網頁也能自動得到類別,識別出的意圖正確率更高。
附圖說明
圖1為一個實施例中網頁訓練的方法、搜索意圖識別的方法的應用環(huán)境圖;
圖2為一個實施例中圖1中服務器的內部結構圖;
圖3為一個實施例中網頁訓練的方法的流程圖;
圖4為一個實施例中搜索意圖識別的方法的流程圖;
圖5為一個實施例中生成字符串分類模型的流程圖;
圖6為一個實施例中網頁訓練的裝置的結構框圖;
圖7為另一個實施例中網頁訓練的裝置的結構框圖;
圖8為一個實施例中搜索意圖識別的裝置的結構框圖;
圖9為另一個實施例中搜索意圖識別的裝置的結構框圖;
圖10為再一個實施例中搜索意圖識別的裝置的結構框圖。
具體實施方式
圖1為一個實施例中網頁訓練的方法、搜索意圖識別的方法運行的應用環(huán)境圖。如圖1所示,該應用環(huán)境包括終端110、服務器120,其中終端110和服務器120通過網絡進行通信。
終端110可為智能手機、平板電腦、筆記本電腦、臺式計算機等,但并不局限于此。終端110通過網絡向服務器120發(fā)送查詢字符串進行搜索,服務器120可以響應終端110發(fā)送的請求。
在一個實施例中,圖1中的服務器120的內部結構如圖2所示,該服務器120包括通過系統(tǒng)總線連接的處理器、存儲介質、內存和網絡接口。其中,該服務器120的存儲介質存儲有操作系統(tǒng)、數據庫和搜索意圖識別的裝置,其中搜索意圖識別的裝置中包括有網頁訓練的裝置,數據庫用于存儲數據,搜索意圖識別的裝置用于實現一種適用于服務器120的搜索意圖識別的方法,網頁訓練的裝置用于實現一種適用于服務器120的網頁訓練的方法。該服務器120的處理器用于提供計算和控制能力,支撐整個服務器120的運行。該服務器120的內存為存儲介質中的搜索意圖識別的裝置的運行提供環(huán)境。該服務器120的網絡接口用于與外部的終端110通過網絡連接通信,比如接收終端110發(fā)送的搜索請求以及向終端110返回數據等。
如圖3所示,在一個實施例中,提供了一種網頁訓練的方法,以應用于上述應用環(huán)境中的服務器來舉例說明,包括如下步驟:
步驟s210,獲取人工標注類別的訓練網頁集合,生成訓練網頁集合中的網 頁的網頁向量。
具體的,訓練網頁集合中網頁的數量可以根據需要自定義,為了使訓練出的網頁分類模型更準確,訓練網頁集合中網頁的數量要足夠多并且屬于不同的種類,種類的數量也要足夠多。訓練網頁集合中的網頁都通過人工標注了類別,如mp3.baidu.com被人工標記為音樂類,youku.com被人工標記為視頻類。生成訓練網頁集合中的網頁的網頁向量,可以將訓練網頁集合中的所有網頁都生成網頁向量,也可以根據預設條件選擇部分網頁生成對應的網頁向量,如選擇人工標注的不同的類別,從每個類別中選擇預設數量的網頁生成對應的網頁向量。
生成訓練網頁集合中的網頁的網頁向量的步驟具體包括:
步驟s211,獲取訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞。
具體的,如果第一訓練網頁作為第一查詢字符串的搜索結果,被用戶點擊進入,則此第一查詢字符串為第一訓練網頁的有效歷史查詢字符串,如果第一訓練網頁作為第二查詢字符串的搜索結果,但是沒有被用戶點擊進入,則第二查詢字符串不是第一訓練網頁的有效歷史查詢字符串。第一訓練網頁的有效歷史查詢字符串的數量可根據需要自定義,但是為了使訓練結果有效,需要足夠多,如獲取預設時間段內的第一訓練網頁的所有有效歷史查詢字符串,預設時間段可為距離當前時間較接近的時間段。對有效歷史查詢字符串進行分詞,用各個分詞表示此查詢字符串,如將“周杰倫的歌”分詞后得到“周杰倫”、“歌”,分詞的目的是更好的表示網頁,如果直接用查詢字符串query表示網頁,數據太稀疏,如查詢字符串“周杰倫的歌”和“周杰倫的歌曲”為2個不同的查詢字符串,但是將它進行分詞后得到“周杰倫”、“歌”和“周杰倫”、“歌曲”,其中都包括分詞“周杰倫”,增加了查詢字符串的相似度。
步驟s212,獲取各個分詞的有效次數,有效次數為有效歷史查詢字符串中所述分詞出現的總次數。
具體的,如有效歷史查詢字符串進行分詞后,有30個分詞為“周杰倫”,則“周杰倫”這個分詞的有效次數為30。分詞的有效次數越大,表明通過包括 此分詞的查詢字符串進入當前訓練網頁的次數越多。
步驟s213,根據各個分詞的有效次數計算各個分詞的分詞權重。
具體的,分詞權重的大小與有效次數的大小成正比,具體的分詞權重計算方法可根據需要自定義。
在一個實施例中,根據公式w(qi)=log(ci+1)計算分詞qi的分詞權重w(qi),其中i為分詞的序號,ci為分詞qi的有效次數。
具體的,log函數比較平滑,且滿足分詞權重w(qi)的大小與有效次數ci的大小成正比的比例關系,能簡單方便的得到各個分詞的分詞權重。
步驟s214,根據各個分詞和對應的分詞權重生成第一訓練網頁的網頁向量。
具體的,對于當前訓練網頁,如果其有效歷史查詢字符串生成的分詞數量為m個,用qi表示各個分詞,其中1≤i≤m,w(qi)為分詞qi對應的分詞權重,則第一訓練網頁的網頁向量可表示為{q1:w(qi),q2:w(q2),……qm:w(qm)},生成的網頁向量表示第一訓練網頁的詞袋特征。如對于訓練網頁mp3.baidu.com,它的網頁向量為{周杰倫:5.4,歌曲:3.6,蔡依林:3.0,tfboys:10}??筛鶕W頁向量計算不同的網頁之間的相似度,如果第一網頁與第二網頁的相似度滿足預設條件,且第一網頁的網頁類別為第一類,則可以推出第二網頁的網頁類別也為第一類,如mp3.baidu.com與y.qq.com的網頁向量的余弦函數cosine相似度大于預設閾值,則根據mp3.baidu.com為音樂類推出y.qq.com也為音樂類。
步驟s215,獲取訓練網頁集合中的其它訓練網頁,重復以上步驟s211至步驟s214直到目標訓練網頁的網頁向量生成完畢。
具體的,目標訓練網頁的數量可根據需要自定義,目標訓練網頁可以是訓練網頁集合中通過預設規(guī)則篩選出來的訓練網頁。也可以直接將網頁集合中的全部訓練網頁作為目標訓練網頁。
步驟s220,根據訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型。
具體的,網頁分類模型是一種數學模型,用于對網頁進行分類,可以采用不同的方法訓練分類模型得到不同的網頁分類模型。根據需要選擇訓練方法。通過監(jiān)督學習的辦法離線訓練得到網頁分類模型后,對網頁進行在線類別預測 時使用訓練好的網頁分類模型進行類別預測。本實施例中通過有限數量的人工標注類別的網頁和生成的網頁向量生成網頁分類模型,后期可通過網頁分類模型實現網頁類別自動標注。同時,采用網頁向量作為訓練數據,不需要爬取網頁上所有的內容并詞袋化,進行訓練的數據成本低,訓練效率高。
在一個實施例中,網頁分類模型的訓練采用邏輯回歸法。
邏輯回歸(logisticregression,lr)模型在線性回歸的基礎上,套用了一個邏輯函數,訓練出來的網頁分類模型正確率高。
本實施例中,通過獲取人工標注類別的訓練網頁集合,生成訓練網頁集合中的網頁的網頁向量,具體包括:獲取訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞,獲取各個分詞的有效次數,有效次數為有效歷史查詢字符串中分詞出現的總次數,根據各個分詞的有效次數計算各個分詞的分詞權重,根據各個分詞和對應的分詞權重生成第一訓練網頁的網頁向量,根據訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型,通過有效歷史查詢字符串分詞后生成的網頁向量進行訓練,訓練成本低,效率高,且生成網頁分類模型后可自動對網頁進行標注類別,使得中長尾網頁也能自動得到類別,從而使得意圖識別中網頁類別的覆蓋率高,識別出的意圖正確率更高。
在一個實施例中,步驟s220之前,還包括:獲取訓練網頁集合中的網頁的lda特征。
具體的,lda(latentdirichletallocation,文檔主題生成模型)用于對文本進行主題聚類,網頁的lda特征可通過對網頁文本輸入lda模型得到。
步驟s220為:根據網頁的lda特征、人工標注類別和對應的網頁向量訓練生成網頁分類模型。
具體的,訓練網頁分類模型的訓練數據中增加了網頁的lda特征,lda特征反映了網頁的主題,使得訓練出的網頁分類模型更能準確的對網頁進行類別標注。
表1展示了采用不同的模型和方法進行訓練得到的網頁分類模型對網頁進行分類的準確率和召回率,其只展示了對于小說類別和各個類別綜合進行分類 時的準確率和召回率以及對于準確率和召回率綜合得到的f1,其中f1=2*準確率/(準確率+召回率)。表格中l(wèi)da表示文檔主題生成模型,lr+lda表示同時采用lr(logisticregression)邏輯回歸模型和lda特征,lr+bow+lda表示同時采用lr模型、lda特征和網頁向量bow(bagofwords)詞袋特征進行訓練。
表1
從表格中可以看出采用網頁向量采用邏輯回歸法訓練生成的網頁分類模型對網頁進行分類時正確率和召回率都有提高,并且對于準確率和召回率綜合得到的f1比其它方法要高很多,效果很好。
在一個實施例中,如圖4所示,提供了一種搜索意圖識別的方法,包括:
步驟s310,獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網頁集合,歷史網頁集合中包括歷史通過所述查詢字符串點擊的各個網頁。
具體的,待識別的查詢字符串為終端在搜索引擎輸入的查詢字符串,獲取歷史搜索中通過此查詢字符串點擊的各個網頁組成的歷史網頁集合。
步驟s320,獲取通過上述任一項實施例的網頁訓練的方法生成的網頁分類模型,根據網頁分類模型得到歷史網頁集合中的網頁的類別。
具體的,通過上述實施例中的網頁訓練的方法生成的網頁分類模型自動對歷史網頁集合中的網頁進行分類。如歷史網頁集合為{url1,url2,……urln},其中urli(1≤i≤n)代表各個網頁,得到各個網頁的類別url1∈d1,url2∈d2,……urln∈dk,其中dj(1≤j≤s)表示類別,s為類別的總個數,類別集合為{d1,d2,…… ds}。
步驟s330,統(tǒng)計各個類別中的網頁數量,根據各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到查詢字符串的意圖分布。
具體的,統(tǒng)計各個類別中的網頁數量,如類別d1中包括t個網頁,則
步驟s340,根據意圖分布得到查詢字符串的意圖識別結果。
具體的,可將意圖分布中概率最大的類別作為查詢字符串的意圖識別結果,或按概率從大到小的順序取預設數目個類別作為查詢字符串的意圖識別結果,或將概率大于預設閾值的類別作為查詢字符串的意圖識別結果。還可獲取發(fā)送查詢字符串的當前應用所對應的業(yè)務,根據業(yè)務信息和意圖分布得到查詢字符串的意圖識別結果,如發(fā)送查詢字符串的當前應用的業(yè)務信息為音樂業(yè)務,則即使意圖分布中概率最大的類別不為音樂,也可將音樂類別作為意圖識別的一個結果。
本實施例中,通過獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網頁集合,歷史網頁集合中包括歷史通過查詢字符串點擊的各個網頁,獲取通過上述實施例的網頁訓練的方法生成的網頁分類模型,根據網頁分類模型得到歷史網頁集合中的網頁的類別,統(tǒng)計各個類別中的網頁數量,根據各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到查詢字符串的意圖分布,根據意圖分布得到查詢字符串的意圖識別結果,在意圖識別時根據網頁分類模型自動對歷史網頁集合中的網頁的類別進行識別,比人工標注的類別的網頁覆蓋率大,使得中長尾網頁也能自動得到類別,識別出的意圖正確率更高。
在一個實施例中,步驟s340之前,還包括:獲取字符串分類模型,根據字符串分類模型得到查詢字符串的預測類別。
具體的,字符串分類模型是一種數學模型,用于對查詢字符串進行分類, 可以采用不同的方法訓練分類模型得到不同的字符串分類模型,根據需要選擇訓練方法。通過監(jiān)督學習的辦法離線訓練得到字符串分類模型后,對查詢字符串進行意圖識別時可使用訓練好的字符串分類模型進行查詢字符串的類別預測。查詢字符串的預測類別可以在查詢字符串的意圖分布不明顯時修正查詢字符串的意圖識別結果,如查詢字符串的意圖分布中類別多,且各個類別的概率都接近,且比較小,此時只根據查詢字符串的意圖分布進行識別往往結果不準確。
步驟s340為:根據意圖分布和預測類別得到查詢字符串的意圖識別結果。
具體的,可根據意圖分布中類別的多少和各個類別對應的概率,決定查詢字符串的意圖識別結果。如意圖分布中類別多且各個類別對應的概率都比較小,可直接將預測類別作為查詢字符串的意圖識別結果,或將意圖分布中概率最大的類別和預測類別組合形成查詢字符串的意圖識別結果,具體的得到意圖識別結果的算法可根據需要自定義。在意圖分布得不到的情況下,如查詢字符串為一個罕見的字符串,其對應的歷史網頁集合中的網頁數量為0或非常小,導致意圖分布無法計算或得到的意圖分布只有一個類別的概率,且為100%很可能是錯誤的,此時也可直接將查詢字符串的預測類別作為查詢字符串的意圖識別結果。
在一個實施例中,如圖所示,獲取字符串分類模型的步驟之前,還包括:
步驟s410,獲取歷史查詢字符串對應的意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串,其中意圖概率最大的類別包括多個不同類別。
具體的,對大量的歷史查詢字符串計算得到了意圖分布,不同的查詢字符串對應的意圖分布中意圖概率最大的類別可能不同。將意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串且意圖概率最大的類別包括多個不同類別以保證訓練數據的有效性。
步驟s420,對不同類別對應的類別訓練查詢字符串提取基于詞語和/或基于字符的n元語法特征,n為大于1且小于當前提取的查詢字符串詞語長度或字符長度的整數。
具體的,如果直接用類別訓練查詢字符串訓練模型,對于比較短的查詢字符串,如長度在4個詞語左右,這種情況下特征過于稀疏,訓練模型不能得到很好的訓練結果。提取基于詞語和/或基于字符的n元語法特征,使得特征長度被擴充。對于同一查詢字符串,可進行多次提取,每次提取的元數不同,將每次提取的結果形成一個特征組合。如對于“周杰倫的歌曲”這個類別訓練查詢字符串,提取基于詞語的1-3元語法特征分別得到如下:
1元語法特征:周杰倫的歌曲
2元語法特征:周杰倫的的歌曲
3元語法特征:周杰倫的歌曲
提取基于字符的1-3元語法特征分別得到如下:
1元語法特征::周杰倫的歌曲
2元語法特征::周杰杰倫倫的的歌歌曲
3元語法特征::周杰倫杰倫的倫的歌的歌曲
對于一個長度為3個詞語的查詢字符串,提取基于字符的1-3元語法特征后其特征長度被擴充為15維以上,有效的解決了特征稀疏的問題。同時因為訓練數據足夠大,具有很好的擴展性。
步驟s430,將n元語法特征和對應的類別作為訓練數據采用分類模型進行訓練生成字符串分類模型。
具體的,使用n元語法特征和對應的類別作為訓練數據,訓練數據從類別訓練查詢字符串進行了擴展,得到的字符串分類模型分類的準確性和覆蓋率都能提高。在一個實施例中,可將訓練特征映射到固定維度(例如100萬維)的向量以提高訓練的效率和減少無效的訓練數據提高訓練結果的準確性,或增加查詢字符串點擊的網頁的類別比例特征等增加訓練數據的覆蓋率。
表2展示了采用不同的模型和方法進行訓練得到的字符串分類模型對查詢字符串進行分類的準確率和召回率,以及對于準確率和召回率綜合得到的f1,其中f1=2*準確率/(準確率+召回率)。表格中nb(
表2
從表格中可以看出采用提取基于字符的n元語法特征訓練生成的字符串分類模型對查詢字符串進行分類時正確率和召回率都很高,且同時采用提取基于字符的n元語法特征和基于詞語的n元語法特征的正確率和召回率更高。使用了本方法的意圖識別的整體準確率相比于未使用前可從54.6%提升至85%,提升幅度達60%。
在一個實施例中,如圖6所示,提供了一種網頁訓練的裝置,包括:
網頁向量生成模塊510,用于獲取人工標注類別的訓練網頁集合,生成訓練網頁集合中的網頁的網頁向量,網頁向量生成模塊510包括:
分詞單元511,用于獲取訓練網頁集合中的第一訓練網頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞。
分詞權重計算單元512,用于獲取各個分詞的有效次數,有效次數為有效歷史查詢字符串中分詞出現的總次數,根據各個分詞的有效次數計算各個分詞的分詞權重。
網頁向量生成單元513,用于根據各個分詞和對應的分詞權重生成第一訓練網頁的網頁向量。
網頁分類模型生成模塊520,用于根據訓練網頁集合中的網頁的人工標注類別和對應的網頁向量訓練生成網頁分類模型。
在一個實施例中,如圖7所示,裝置還包括:
lda特征獲取模塊530,用于獲取訓練網頁集合中的網頁的lda特征。
網頁分類模型生成模塊520還用于根據網頁的lda特征、人工標注類別和對應的網頁向量訓練生成網頁分類模型。
在一個實施例中,網頁分類模型的訓練采用邏輯回歸法。
在一個實施例中,分詞權重計算單元511還用于根據公式w(qi)=log(ci+1)計算分詞qi的分詞權重w(qi),其中i為分詞的序號,ci為分詞qi的有效次數。
在一個實施例中,如圖8所示,提供了一種搜索意圖識別的裝置,包括:
獲取模塊610,用于獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網頁集合,歷史網頁集合中包括歷史通過查詢字符串點擊的各個網頁。
網頁類別獲取模塊620,用于獲取通過上述任實施例的網頁訓練的裝置生成的網頁分類模型,根據網頁分類模型得到歷史網頁集合中的網頁的類別。
意圖識別模塊630,用于統(tǒng)計各個類別中的網頁數量,根據各個類別中的網頁數量和歷史網頁集合中網頁的總數量計算得到查詢字符串的意圖分布,根據意圖分布得到查詢字符串的意圖識別結果。
在一個實施例中,如圖9所示,裝置還包括:
預測類別模塊640,用于獲取字符串分類模型,根據字符串分類模型得到查詢字符串的預測類別。
意圖識別模塊630還用于根據意圖分布和預測類別得到查詢字符串的意圖識別結果。
在一個實施例中,如圖10所示,裝置還包括:
字符串分類模型生成模塊650,用于獲取歷史查詢字符串對應的意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串,其中意圖概率最大的類別包括多個不同類別,對不同類別對應的類別訓練查詢字符串提取基于詞語和/或基于字符的n元語法特征,n為大于1且小于當前提取的查詢字符串詞語長度或字符長度的整數,將n元語法特征和對應的類別作為訓練數據采用分類模型進行訓練生成字符串分類模型。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述程序可存儲于一計算機可讀取存儲介質中,如本發(fā)明實施例中,該程序可存儲于計算機系統(tǒng)的存儲介質中,并被該計算機系統(tǒng)中的至少一個處理器執(zhí)行,以實現包括如上述各方法的實施例的流程。其中,所述存儲介質可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)或隨機存儲記憶體(randomaccessmemory,ram)等。
以上所述實施例的各技術特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特征所有可能的組合都進行描述,然而,只要這些技術特征的組合不存在矛盾,都應當認為是本說明書記載的范圍。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。