一種基于網(wǎng)絡(luò)信息的搜索方法及裝置的制造方法
【專利摘要】本發(fā)明提供一種基于網(wǎng)絡(luò)信息的搜索方法及裝置。本發(fā)明基于網(wǎng)絡(luò)信息的搜索方法,包括:接收用戶請(qǐng)求信息,并獲取與用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息;根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)網(wǎng)絡(luò)文本信息進(jìn)行分類,并根據(jù)所述分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;根據(jù)業(yè)務(wù)類型,提取網(wǎng)絡(luò)文本信息中與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞;根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,以獲取修正后的用戶請(qǐng)求信息;根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行搜索。本發(fā)明能夠根據(jù)網(wǎng)絡(luò)中獲取的相關(guān)文本信息,糾正定位錯(cuò)誤的用戶請(qǐng)求,并根據(jù)網(wǎng)絡(luò)中獲取的相關(guān)文本信息中的關(guān)鍵詞對(duì)用戶請(qǐng)求信息進(jìn)行補(bǔ)充,以便于后續(xù)的業(yè)務(wù)處理。
【專利說明】
-種基于網(wǎng)絡(luò)信息的搜索方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其設(shè)及一種基于網(wǎng)絡(luò)信息的捜索方法及裝 置。
【背景技術(shù)】
[0002] 近年來,語(yǔ)音助手作為用戶與終端設(shè)備人機(jī)交互的一種新方式,受到越來越多用 戶的喜愛,語(yǔ)音助手是一種在終端設(shè)備中運(yùn)行的智能語(yǔ)音對(duì)話軟件。
[0003] 在用戶利用語(yǔ)音助手進(jìn)行人機(jī)交互時(shí),尤其是在進(jìn)行音、視頻檢索過程中,由于用 戶針對(duì)請(qǐng)求信息的表達(dá)多為口語(yǔ)化短文本,信息包含量較低;而且,在口語(yǔ)化的表達(dá)中,極 易出現(xiàn)表達(dá)不準(zhǔn)確、同一概念的多樣化表達(dá)等問題;進(jìn)一步的,由于用戶的方言和口音的影 響,語(yǔ)音識(shí)別錯(cuò)誤的現(xiàn)象也經(jīng)常出現(xiàn)。運(yùn)些問題共同造成了用戶的請(qǐng)求信息與知識(shí)庫(kù)中的 先驗(yàn)知識(shí)表達(dá)不一致的問題。因此在進(jìn)行用戶意圖分析時(shí),由于缺乏先驗(yàn)知識(shí)的支撐,很難 將該用戶的請(qǐng)求信息定位到與之相關(guān)的業(yè)務(wù),更無法進(jìn)行后續(xù)的捜索過程。
[0004] 示例的,用戶在通過語(yǔ)音助手捜索電視節(jié)目《極限挑戰(zhàn)》時(shí),極易表達(dá)為"挑戰(zhàn)極 限",此時(shí),用戶輸入的請(qǐng)求信息"挑戰(zhàn)極限"與知識(shí)庫(kù)中的先驗(yàn)知識(shí)"極限挑戰(zhàn)"不一致,進(jìn) 而不能將此用戶請(qǐng)求準(zhǔn)確定位到音視頻檢索的相關(guān)處理邏輯,最終不能完成對(duì)電視節(jié)目 《極限挑戰(zhàn)》的相關(guān)檢索。
[0005] 現(xiàn)有技術(shù)中,針對(duì)上述問題的通用做法是進(jìn)行語(yǔ)義映射,即利用知識(shí)圖譜、同義詞 典中的先驗(yàn)知識(shí),將用戶的請(qǐng)求信息映射為標(biāo)準(zhǔn)化表達(dá)。但是該種解決方式對(duì)知識(shí)圖譜與 同義詞典中先驗(yàn)知識(shí)的依賴性較強(qiáng),對(duì)于錯(cuò)誤表達(dá)、語(yǔ)音收錄不全W及語(yǔ)音識(shí)別錯(cuò)誤等問 題,先驗(yàn)知識(shí)很難完全覆蓋,因此依然存在無法準(zhǔn)確定位業(yè)務(wù)并無法完成捜索的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供一種基于網(wǎng)絡(luò)信息的捜索方法及裝置,旨在解決語(yǔ)音捜索過程中,由 于請(qǐng)求信息缺失、請(qǐng)求信息表達(dá)不準(zhǔn)確所導(dǎo)致的無法準(zhǔn)確定位捜索業(yè)務(wù)的問題。
[0007] 第一方面,本發(fā)明提供一種基于網(wǎng)絡(luò)信息的捜索方法,包括:
[000引接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息;
[0009] 根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分類, 并根據(jù)分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;
[0010] 根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞;
[0011] 根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,W獲取修正后的用戶請(qǐng)求信息;
[0012] 根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行捜索。
[0013] 第二方面,本發(fā)明提供一種基于網(wǎng)絡(luò)信息的捜索裝置,包括:
[0014] 獲取模塊,用于接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本 f胃息;
[0015] 確定模塊,用于根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本 信息進(jìn)行分類,并根據(jù)分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;
[0016] 關(guān)鍵詞提取模塊,用于根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù) 類型相關(guān)的關(guān)鍵詞;
[0017] 第一處理模塊,用于根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,W獲取修正 后的用戶請(qǐng)求信息;
[0018] 第二處理模塊,用于根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行捜索。
[0019] 本發(fā)明基于網(wǎng)絡(luò)信息的捜索方法及裝置,通過接收用戶請(qǐng)求信息,并獲取與所述 用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息;根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所 述網(wǎng)絡(luò)文本信息進(jìn)行分類,并根據(jù)所述分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型; 根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞;根據(jù)所述關(guān) 鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,W獲取修正后的用戶請(qǐng)求信息;根據(jù)所述修正后的用 戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行捜索,本發(fā)明能夠根據(jù)獲取的用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文 本信息,確定出用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型,還可W根據(jù)該網(wǎng)絡(luò)文本信息中與業(yè)務(wù)類型 相關(guān)關(guān)鍵詞對(duì)用戶請(qǐng)求信息進(jìn)行修正,根據(jù)修正后的用戶請(qǐng)求信息W及業(yè)務(wù)類型進(jìn)行捜 索,捜索時(shí)采用的用戶請(qǐng)求信息W及業(yè)務(wù)類型的準(zhǔn)確性較高,解決了現(xiàn)有技術(shù)中由于請(qǐng)求 信息缺失、請(qǐng)求信息表達(dá)不準(zhǔn)確所導(dǎo)致的無法準(zhǔn)確定位捜索業(yè)務(wù)的問題。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可W 根據(jù)運(yùn)些附圖獲得其他的附圖。
[0021 ]圖1為本發(fā)明基于網(wǎng)絡(luò)信息的捜索方法一實(shí)施例的流程示意圖;
[0022] 圖2為本發(fā)明方法一實(shí)施例的文本信息的文本分類流程示意圖;
[0023] 圖3為本發(fā)明方法一實(shí)施例的文本信息的向量特征空間構(gòu)建流程示意圖;
[0024] 圖4為本發(fā)明方法一實(shí)施例的文本信息的關(guān)鍵詞提取流程示意圖;
[0025] 圖5為本發(fā)明方法一實(shí)施例的知識(shí)自學(xué)習(xí)流程示意圖;
[0026] 圖6為本發(fā)明基于網(wǎng)絡(luò)信息的捜索裝置一實(shí)施例的結(jié)構(gòu)示意圖;
[0027] 圖7為本發(fā)明基于網(wǎng)絡(luò)信息的捜索設(shè)備一實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029] 本發(fā)明實(shí)施例提供一種基于網(wǎng)絡(luò)信息的捜索方法和裝置,應(yīng)用于智能電視、智能 手機(jī)、平板電腦、智能手表等具有聯(lián)網(wǎng)功能的終端設(shè)備上,示例的,本發(fā)明實(shí)施例的捜索方 法和裝置,可W應(yīng)用于智能電視、智能手機(jī)、平板電腦、智能手表等終端設(shè)備的語(yǔ)音助手,語(yǔ) 音助手是一種在終端設(shè)備中運(yùn)行的智能語(yǔ)音對(duì)話軟件。用戶可W通過語(yǔ)音助手來實(shí)現(xiàn)或替 代部分我們?cè)谥悄芙K端上的查詢與操作。語(yǔ)音助手通過智能對(duì)話與即時(shí)問答的智能交互, 來實(shí)現(xiàn)幫忙用戶解決問題。本發(fā)明實(shí)施例的技術(shù)方案是針對(duì)音視頻領(lǐng)域語(yǔ)音助手進(jìn)行業(yè)務(wù) 捜索時(shí),基于網(wǎng)絡(luò)信息進(jìn)行業(yè)務(wù)類型補(bǔ)充,并且基于網(wǎng)絡(luò)關(guān)鍵詞對(duì)語(yǔ)音輸入內(nèi)容進(jìn)行補(bǔ)充 完善,然后進(jìn)行業(yè)務(wù)捜索。
[0030]圖1為本發(fā)明基于網(wǎng)絡(luò)信息的捜索方法一實(shí)施例的流程示意圖。如圖1所示,本實(shí) 施例的方法,包括:
[0031 ]步驟101、接收用戶請(qǐng)求信息,并獲取與用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息;
[0032] 步驟102、根據(jù)用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)網(wǎng)絡(luò)文本信息進(jìn)行分類, 并根據(jù)分類結(jié)果確定用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;
[0033] 步驟103、根據(jù)業(yè)務(wù)類型,提取網(wǎng)絡(luò)文本信息中與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞;
[0034] 步驟104、根據(jù)關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,W獲取修正后的用戶請(qǐng)求信 息;
[0035] 步驟105、根據(jù)修正后的用戶請(qǐng)求信息和業(yè)務(wù)類型進(jìn)行捜索。
[0036] 示例的,用戶請(qǐng)求信息可W通過語(yǔ)音助手語(yǔ)音輸入,也可W通過實(shí)體鍵盤或虛擬 鍵盤輸入,還可W通過觸摸屏輸入,本發(fā)明對(duì)此不做限定。
[0037] 具體的,首先,對(duì)于接收到的用戶請(qǐng)求信息,可W利用網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中爬取與 用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息。然后,根據(jù)用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)網(wǎng) 絡(luò)文本信息進(jìn)行分類,并根據(jù)分類結(jié)果確定與用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型,并根據(jù)業(yè)務(wù) 類型,利用關(guān)鍵詞提取算法提取文本信息中與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞,然后,利用關(guān)鍵詞對(duì) 用戶請(qǐng)求信息進(jìn)行修正,最后根據(jù)修正后的用戶請(qǐng)求信息和確定的業(yè)務(wù)類型進(jìn)行捜索。
[0038] 其中,在實(shí)際應(yīng)用中,可W將修正后的用戶請(qǐng)求信息與業(yè)務(wù)類型交由用戶進(jìn)行確 認(rèn),根據(jù)用戶的確認(rèn)結(jié)果,執(zhí)行后續(xù)處理。
[0039] 舉例來說,業(yè)務(wù)類型可W包括=類:音樂捜索、視頻捜索和聊天,用戶請(qǐng)求信息例 如為:揮舞著翅膀的女孩,現(xiàn)有技術(shù)由于該用戶請(qǐng)求信息中存在錯(cuò)誤而無法將該用戶請(qǐng)求 信息對(duì)應(yīng)的業(yè)務(wù)定位為捜索音樂《揮著翅膀的女孩》而本發(fā)明實(shí)施例中對(duì)根據(jù)上述獲取的 網(wǎng)絡(luò)文本信息進(jìn)行分類,得到的分類結(jié)果都屬于音樂捜索,因此確定出來的業(yè)務(wù)類型為音 樂捜索,根據(jù)獲取的文本信息提取的關(guān)鍵詞包括:揮著翅膀的女孩和容祖兒,根據(jù)提取的關(guān) 鍵詞對(duì)用戶請(qǐng)求信息進(jìn)行修正,修正后的用戶請(qǐng)求信息為揮著翅膀的女孩,最終可W利用 確定的業(yè)務(wù)類型與修正后的用戶請(qǐng)求信息完成音樂捜索過程。進(jìn)一步的,可W根據(jù)用戶將 "揮著翅膀的女孩"表達(dá)為"揮舞著翅膀的女孩"的頻次,決定是否將"揮舞著翅膀的女孩"直 接映射為"揮著翅膀的女孩",并在預(yù)設(shè)知識(shí)庫(kù)中存儲(chǔ),完成知識(shí)的自學(xué)習(xí)過程。
[0040] 本實(shí)施例提供的方法,通過接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān) 的網(wǎng)絡(luò)文本信息;根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本信息進(jìn) 行分類,并根據(jù)所述分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;根據(jù)所述業(yè)務(wù)類型, 提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞;根據(jù)關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息 進(jìn)行修正,W獲取修正后的用戶請(qǐng)求信息;根據(jù)修正后的用戶請(qǐng)求信息和業(yè)務(wù)類型進(jìn)行捜 索,本實(shí)施例提供的方法能夠根據(jù)獲取的與用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息,確定出用 戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型,還可W根據(jù)網(wǎng)絡(luò)文本信息中與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞對(duì)用戶 請(qǐng)求信息進(jìn)行修正,根據(jù)修正后的用戶請(qǐng)求信息W及業(yè)務(wù)類型進(jìn)行捜索,捜索時(shí)采用的用 戶請(qǐng)求信息W及業(yè)務(wù)類型的準(zhǔn)確性較高,解決了現(xiàn)有技術(shù)中由于請(qǐng)求信息缺失、請(qǐng)求信息 表達(dá)不準(zhǔn)確所導(dǎo)致的無法準(zhǔn)確定位捜索業(yè)務(wù)的問題。
[0041] 在上述實(shí)施例的基礎(chǔ)上,獲取與用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息的具體實(shí)施方 式有多種,在本實(shí)施例中,作為一種可實(shí)施的方式,具體可W通過如下方式實(shí)現(xiàn):
[0042] 通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中獲取與用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息。
[0043] 如用戶請(qǐng)求信息為"揮舞著翅膀的女孩",通過網(wǎng)絡(luò)爬蟲獲取與用戶請(qǐng)求信息相關(guān) 的文本信息,則獲取到相關(guān)的網(wǎng)絡(luò)文本信息,例如,文本信息中包括演唱者姓名為容祖兒, 專輯名稱為"獨(dú)照"等信息。
[0044] 圖2為本發(fā)明方法一實(shí)施例的文本信息的文本分類流程示意圖。進(jìn)一步的,作為一 種可實(shí)施的方式,步驟102具體可W通過如下方式實(shí)現(xiàn):
[0045] 根據(jù)用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的分類模型對(duì)網(wǎng)絡(luò)文本信 息進(jìn)行文本分類;
[0046] 根據(jù)網(wǎng)絡(luò)文本信息的文本分類結(jié)果確定用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型。
[0047] 具體來說,本實(shí)施例中預(yù)設(shè)知識(shí)庫(kù),如音視頻領(lǐng)域知識(shí)庫(kù),在預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn) 練分類模型,并根據(jù)預(yù)先訓(xùn)練的分類模型對(duì)獲取到的網(wǎng)絡(luò)文本信息進(jìn)行文本分類,根據(jù)網(wǎng) 絡(luò)文本信息的文本分類結(jié)果確定用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型。
[0048] 其中,在實(shí)際應(yīng)用中,根據(jù)用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的分 類模型對(duì)網(wǎng)絡(luò)文本信息進(jìn)行文本分類,具體可W通過如下方式實(shí)現(xiàn):
[0049] 分別根據(jù)預(yù)設(shè)知識(shí)庫(kù)獲取訓(xùn)練語(yǔ)料和網(wǎng)絡(luò)文本信息的向量特征;
[0050] 根據(jù)訓(xùn)練語(yǔ)料的向量特征訓(xùn)練分類模型;
[0051] 根據(jù)訓(xùn)練得到的分類模型對(duì)網(wǎng)絡(luò)文本信息的向量特征進(jìn)行分類。
[0052] 具體的,如圖2所示,網(wǎng)絡(luò)文本信息的向量特征空間的構(gòu)建是網(wǎng)絡(luò)文本信息轉(zhuǎn)換為 向量表達(dá)的過程,W方便后續(xù)利用分類模型進(jìn)行文本分類。首先,分別根據(jù)預(yù)設(shè)知識(shí)庫(kù)獲取 訓(xùn)練語(yǔ)料W及網(wǎng)絡(luò)文本信息的向量特征;該預(yù)設(shè)知識(shí)庫(kù)為用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知 識(shí)庫(kù),然后根據(jù)訓(xùn)練語(yǔ)料的向量特征訓(xùn)練分類模型;最終,根據(jù)訓(xùn)練得到的分類模型對(duì)網(wǎng)絡(luò) 文本信息的向量特征進(jìn)行文本分類。
[0053] 文本分類算法有許多,下面WK順?biāo)惴槔?,?duì)文本分類過程進(jìn)行說明。K順?biāo)惴ǖ?基本思想是把未知文本d與訓(xùn)練集中的每篇文本進(jìn)行比較,找出最鄰近的k篇文本,用運(yùn)k篇 文本的類別來判斷未知文本的類別。類別判斷方法如下:對(duì)找到的k篇文本,為每個(gè)類別打 分,然后排序,只有分值超過指定闊值的類別才判定為文本d的類別。每個(gè)類別的分值 ;)的計(jì)算公式如下:
[0化4]
[0化5]其中,J為待分類文本d的向量特征;^為最近鄰的k篇文本之一d非勺向量特征; ?如(3,為)為;與式的相似度,通常使用余弦相似度;.1,爲(wèi)Cj為文本y',在類別Ci中的權(quán)重, 通常苗屬于Cl時(shí)取1,?不屬于Cl時(shí)取〇;bi為訓(xùn)練得到的闊值。所有使得化。re(3,討>0的類 別均判定為文本d的類別,上述公式對(duì)應(yīng)的為分類模型。若文本分類的結(jié)果為多個(gè)不同的類 另IJ,可W反饋給用戶,由用戶進(jìn)行選擇,確定最終屬于的類別。
[0056] 示例的,通過百度捜索用戶請(qǐng)求信息"極限挑戰(zhàn)",捜索的結(jié)果例如有6個(gè)與該用戶 請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息的結(jié)果,其中有5個(gè)結(jié)果中的網(wǎng)絡(luò)文本信息都包括"極限挑 戰(zhàn)"的真人秀綜藝節(jié)目,只有1個(gè)結(jié)果中的網(wǎng)絡(luò)文本信息包括"挑戰(zhàn)極限"圖書,5個(gè)結(jié)果為與 預(yù)設(shè)知識(shí)庫(kù)的訓(xùn)練語(yǔ)料相關(guān),因此可W用運(yùn)5個(gè)結(jié)果的類別,作為用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù) 類型,即確定該業(yè)務(wù)類型為視頻捜索。
[0057] 再例如,通過百度捜索用戶請(qǐng)求信息"揮舞著翅膀的女孩",捜索的結(jié)果例如有10 個(gè)與該用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息的結(jié)果,其中都包括容祖兒演唱的"揮著翅膀的 女孩"的歌曲,因此可W用運(yùn)10個(gè)結(jié)果的類別,作為用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型,即最終 將該用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型確定為音樂捜索。
[0058] 圖3為本發(fā)明方法一實(shí)施例的文本信息的向量特征空間構(gòu)建流程示意圖。在上述 實(shí)施例的基礎(chǔ)上,進(jìn)一步的,根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)獲取所述網(wǎng)絡(luò)文本信息的向量特征,具體 可W通過W下方式實(shí)現(xiàn):
[0059] 根據(jù)預(yù)設(shè)知識(shí)庫(kù)對(duì)網(wǎng)絡(luò)文本信息進(jìn)行分詞處理獲取m個(gè)分詞結(jié)果;
[0060] 分別確定分詞結(jié)果對(duì)應(yīng)的n個(gè)語(yǔ)義屬性在網(wǎng)絡(luò)文本信息中的權(quán)值,將n個(gè)語(yǔ)義屬性 的權(quán)值組成網(wǎng)絡(luò)文本信息的向量特征;其中,m和n均為大于0的整數(shù)。
[0061] 具體來說,與普通文本分類不同,本發(fā)明設(shè)及的專業(yè)領(lǐng)域?yàn)橐粢曨l領(lǐng)域,該類文本 信息包含大量的音視頻作品名稱、相關(guān)人物名稱(演唱者、演員、導(dǎo)演)等信息,運(yùn)些詞語(yǔ)本 身在不同網(wǎng)絡(luò)文本之間的共現(xiàn)概率較小。運(yùn)就導(dǎo)致了傳統(tǒng)基于詞語(yǔ)本身的IF-IDF文本向量 空間構(gòu)建方法,對(duì)音視頻檢索領(lǐng)域的文本分類效果較差。而發(fā)明人分析發(fā)現(xiàn)運(yùn)些詞語(yǔ)的語(yǔ) 義屬性卻有著較大共性因此本發(fā)明充分利用詞語(yǔ)的語(yǔ)義屬性信息,本實(shí)施例的網(wǎng)絡(luò)文本信 息的向量特征空間構(gòu)建流程如圖3所示,網(wǎng)絡(luò)文本信息(文本d)的向量特征空間結(jié)構(gòu)如表1 所示。
[0062] 表1向量特征空間結(jié)構(gòu)
[0064]為保證語(yǔ)義屬性提取的領(lǐng)域相關(guān)性,首先基于預(yù)設(shè)知識(shí)庫(kù)對(duì)獲取的網(wǎng)絡(luò)文本信息 進(jìn)行分詞處理,分詞后結(jié)果用(Wi,化,...,Wt,...,Wm)表示;t取值為1至m。然后對(duì)分詞結(jié)果 進(jìn)行語(yǔ)義屬性的標(biāo)注,得到m個(gè)分詞對(duì)應(yīng)的n個(gè)語(yǔ)義屬性,例如對(duì)Wi的語(yǔ)義屬性的標(biāo)注結(jié)果 為ai,a日,ai6;W2的語(yǔ)義屬性的標(biāo)注結(jié)果為朋,aio,aii。最后,利用如下的公式計(jì)算各語(yǔ)義屬性 對(duì)應(yīng)的叔估。
[00 化]
[0066] 其中,W(a,d)為語(yǔ)義屬性a在文本d中的權(quán)值,tf(a,d)為語(yǔ)義屬性a在文本d中的詞 頻,N為文本總數(shù),na為所有文本中出現(xiàn)a的文本數(shù)。
[0067] 例如,假設(shè)Wi、化、恥的語(yǔ)義屬性的標(biāo)注結(jié)果出現(xiàn)語(yǔ)義屬性曰1,則語(yǔ)義屬性曰1在文本d 中的詞頻等于分詞Wi、化、Ws在文本d中的詞頻之和。
[0068] 然后,根據(jù)n個(gè)語(yǔ)義屬性的權(quán)值,得到網(wǎng)絡(luò)文本信息d的向量特征:
[0069]
其中,S取值為 1 至n;ai,. . .,as,. . .,an為n個(gè) 語(yǔ)義屬性,例如上表中n取值為17?;诖朔N方法分別對(duì)訓(xùn)練語(yǔ)料、與用戶請(qǐng)求信息相關(guān)的 網(wǎng)絡(luò)文本信息進(jìn)行向量特征空間的構(gòu)建,利用訓(xùn)練語(yǔ)料獲得的向量特征訓(xùn)練分類模型。然 后基于此分類模型完成對(duì)實(shí)時(shí)的網(wǎng)絡(luò)文本信息的分類,從而確定出與用戶請(qǐng)求信息對(duì)應(yīng)的 業(yè)務(wù)類型。
[0070] 圖4為本發(fā)明方法一實(shí)施例的文本信息的關(guān)鍵詞提取流程示意圖。在上述實(shí)施例 的基礎(chǔ)上,進(jìn)一步的,步驟103中提取文本信息中與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞,具體可W采用 如下方式實(shí)現(xiàn):
[0071] 根據(jù)預(yù)設(shè)知識(shí)庫(kù)通過命名實(shí)體識(shí)別算法獲取網(wǎng)絡(luò)文本信息中的實(shí)體名稱;
[0072] 根據(jù)關(guān)鍵詞提取算法從分詞結(jié)果和實(shí)體名稱中提取與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞。
[0073] 具體來說,在經(jīng)過文本分類之后,就可W完成對(duì)業(yè)務(wù)類型的確定,將用戶請(qǐng)求信息 準(zhǔn)確定位到相關(guān)業(yè)務(wù)處理流程。但是,由于關(guān)鍵信息的缺乏,在定位到相關(guān)業(yè)務(wù)類型之后, 依然無法進(jìn)行后續(xù)處理,因此也達(dá)不到準(zhǔn)確理解用戶請(qǐng)求的目的。例如,用戶請(qǐng)求信息為 "揮舞著翅膀的女孩"(用戶的真實(shí)意圖為查詢歌曲"揮著翅膀的女孩"),經(jīng)過對(duì)網(wǎng)絡(luò)中相關(guān) 文本信息的文本分類,可W理解用戶是要進(jìn)行音樂捜索,將其定位音樂捜索業(yè)務(wù),并進(jìn)入到 音樂業(yè)務(wù)處理邏輯。但是,僅僅通過文本分類的結(jié)果,依然無法確定用戶最終的目的是查詢 歌曲名稱為"揮著翅膀的女孩"的歌曲。運(yùn)就需要對(duì)網(wǎng)絡(luò)文本信息進(jìn)行進(jìn)一步的挖掘,提取 其中的關(guān)鍵詞信息,來對(duì)用戶請(qǐng)求信息進(jìn)行修正。本實(shí)施例的流程參考圖4所示。
[0074] 對(duì)于音視頻領(lǐng)域的捜索來說,最為重要的關(guān)鍵信息為作品名稱、相關(guān)人物姓名(演 唱者、演員、導(dǎo)演等)。而運(yùn)類關(guān)鍵詞數(shù)量眾多,且更新頻率較快,分詞語(yǔ)料庫(kù)很難保證對(duì)所 有作品名稱W及人名的完全收錄。而收錄不完全的狀況會(huì)在最初的分詞過程中就出現(xiàn)錯(cuò) 誤,使得關(guān)鍵詞提取效果也較差。因此,本發(fā)明在進(jìn)行關(guān)鍵詞提取之前首先根據(jù)預(yù)設(shè)知識(shí)庫(kù) 進(jìn)行命名實(shí)體識(shí)別的過程,即通過命名實(shí)體識(shí)別算法獲取文本信息中的實(shí)體名稱。
[0075] 然后,從分詞結(jié)果和實(shí)體名稱中進(jìn)行與業(yè)務(wù)類型相關(guān)的關(guān)鍵詞的提取。目前,對(duì)關(guān) 鍵詞提取的研究已相對(duì)成熟,采用的方法主要有:基于統(tǒng)計(jì)信息的關(guān)鍵詞提取方法、基于機(jī) 器學(xué)習(xí)的關(guān)鍵詞提取算法和基于語(yǔ)義的關(guān)鍵詞提取算法??紤]到本發(fā)明進(jìn)行音視頻檢索的 領(lǐng)域特性,W及后續(xù)業(yè)務(wù)處理中對(duì)語(yǔ)義信息的特殊需求,本發(fā)明優(yōu)選的方案是采用了基于 語(yǔ)義的關(guān)鍵詞提取算法。
[0076] 其中,在上述任一實(shí)施例中,用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域包括:音視頻領(lǐng)域。
[0077] 圖5為本發(fā)明方法一實(shí)施例的知識(shí)自學(xué)習(xí)流程示意圖。在上述實(shí)施例的基礎(chǔ)上,本 實(shí)施例中,進(jìn)一步的,為了充分利用當(dāng)前自然語(yǔ)言檢索的信息,步驟104之后還可W進(jìn)行如 下操作:
[0078] 存儲(chǔ)經(jīng)過用戶確認(rèn)的關(guān)鍵詞、業(yè)務(wù)類型和用戶請(qǐng)求信息對(duì)應(yīng)的記錄信息。
[0079] 具體來說,在完成關(guān)鍵詞信息提取之后,就可W根據(jù)所提取的關(guān)鍵詞信息進(jìn)行后 續(xù)的具體業(yè)務(wù)處理,從而完成捜索過程。然而,該處理仍為一次性過程,在用戶下次進(jìn)行相 同捜索請(qǐng)求時(shí),還需重復(fù)上述過程,運(yùn)在一定程度上會(huì)對(duì)系統(tǒng)的整體效率產(chǎn)生影響。為完成 對(duì)當(dāng)次網(wǎng)絡(luò)文本信息的挖掘信息的充分利用,實(shí)現(xiàn)系統(tǒng)的知識(shí)自學(xué)習(xí)過程,本實(shí)施例的流 程參考圖5所示。
[0080] 為保證知識(shí)自學(xué)習(xí)、信息捜索過程的準(zhǔn)確性,首先將網(wǎng)絡(luò)文本信息解析后的文本 分類信息(即業(yè)務(wù)定位信息)與關(guān)鍵詞信息,交由用戶確認(rèn)。將用戶確認(rèn)之后的信息在臨時(shí) 數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ),臨時(shí)數(shù)據(jù)庫(kù)結(jié)構(gòu)如表2所示。
[0081] 表2臨時(shí)數(shù)據(jù)庫(kù)表結(jié)構(gòu)
[0082]
[0083] 結(jié)合用戶請(qǐng)求信息、請(qǐng)求頻次等信息,不定期對(duì)臨時(shí)數(shù)據(jù)庫(kù)進(jìn)行進(jìn)一步挖掘,挖掘 未登錄詞信息、不同用戶的常用說法信息等,將運(yùn)些信息存儲(chǔ)到預(yù)設(shè)知識(shí)庫(kù)中,完成系統(tǒng)的 自學(xué)習(xí)過程。
[0084] 圖6為本發(fā)明基于網(wǎng)絡(luò)信息的捜索裝置一實(shí)施例的結(jié)構(gòu)示意圖。如圖6所示,本實(shí) 施例的基于網(wǎng)絡(luò)信息的捜索裝置,包括:
[0085] 獲取模塊601,用于接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文 本倍息;
[0086] 確定模塊602,用于根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文 本信息進(jìn)行分類,并根據(jù)所述分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型;
[0087] 關(guān)鍵詞提取模塊603,用于根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè) 務(wù)類型相關(guān)的關(guān)鍵詞;
[0088] 第一處理模塊604,用于根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,W獲取修 正后的用戶請(qǐng)求信息;
[0089] 第二處理模塊605,用于根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行捜 索。
[0090] 可選地,作為一種可實(shí)施的方式,所述獲取模塊601,具體用于:
[0091] 通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息。
[0092] 可選地,作為一種可實(shí)施的方式,所述確定模塊602,包括:
[0093] 第一確定單元,用于根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的 分類模型對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行文本分類;
[0094] 第二確定單元,用于根據(jù)所述網(wǎng)絡(luò)文本信息的文本分類結(jié)果確定所述用戶請(qǐng)求信 息對(duì)應(yīng)的業(yè)務(wù)類型。
[00M]可選地,作為一種可實(shí)施的方式,所述第一確定單元,具體用于:
[0096] 分別根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)獲取訓(xùn)練語(yǔ)料和所述網(wǎng)絡(luò)文本信息的向量特征;
[0097] 根據(jù)訓(xùn)練語(yǔ)料的向量特征訓(xùn)練分類模型;
[0098] 根據(jù)訓(xùn)練得到的分類模型對(duì)所述網(wǎng)絡(luò)文本信息的向量特征進(jìn)行文本分類。
[0099] 可選地,作為一種可實(shí)施的方式,所述第一確定單元,還具體用于:
[0100] 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分詞處理獲取m個(gè)分詞結(jié)果;
[0101] 分別確定所述分詞結(jié)果對(duì)應(yīng)的n個(gè)語(yǔ)義屬性在所述網(wǎng)絡(luò)文本信息中的權(quán)值,將所 述n個(gè)語(yǔ)義屬性的權(quán)值組成所述網(wǎng)絡(luò)文本信息的向量特征;其中,m和n均為大于0的整數(shù)。
[0102] 可選地,作為一種可實(shí)施的方式,所述關(guān)鍵詞提取模塊603,具體用于:
[0103] 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)通過命名實(shí)體識(shí)別算法獲取所述網(wǎng)絡(luò)文本信息中的實(shí)體名 稱;
[0104] 根據(jù)關(guān)鍵詞提取算法從所述分詞結(jié)果和所述實(shí)體名稱中提取所述網(wǎng)絡(luò)文本信息 中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞。
[0105] 可選地,作為一種可實(shí)施的方式,所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域包括:音視頻領(lǐng)域。
[0106] 可選地,作為一種可實(shí)施的方式,還包括:
[0107] 存儲(chǔ)模塊,用于存儲(chǔ)經(jīng)過用戶確認(rèn)的所述關(guān)鍵詞、所述業(yè)務(wù)類型和所述用戶請(qǐng)求 f目息對(duì)應(yīng)的記錄f目息。
[0108] 本實(shí)施例的裝置,可W用于執(zhí)行上述任一方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和 技術(shù)效果類似,此處不再寶述。
[0109] 圖7為本發(fā)明基于網(wǎng)絡(luò)信息的捜索設(shè)備的一實(shí)施例的結(jié)構(gòu)示意圖。如圖7所示,本 實(shí)施例的基于自然語(yǔ)言檢索的業(yè)務(wù)定位設(shè)備,可W包括:存儲(chǔ)器701、處理器702和通信接口 703;其中,存儲(chǔ)器701,用于存儲(chǔ)程序;具體地,程序可W包括程序代碼,所述程序代碼包括 計(jì)算機(jī)操作指令。存儲(chǔ)器701可能包含隨機(jī)存取存儲(chǔ)器(random access memo巧,簡(jiǎn)稱RAM), 也可能還包括非易失性存儲(chǔ)器(non-volatile memory),例如至少一個(gè)磁盤存儲(chǔ)器。
[0110] 處理器702,用于執(zhí)行存儲(chǔ)器701存儲(chǔ)的程序,用于執(zhí)行本發(fā)明法實(shí)施例所提供的 技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,可參考上述任一項(xiàng)方法實(shí)施例,此處不再寶述。
[0111] 通信接口 703,用于接收用戶請(qǐng)求信息;
[0112] 上述裝置中獲取模塊、確定模塊、關(guān)鍵詞提取模塊、第一處理模塊和第二處理模塊 的功能可W通過處理器702實(shí)現(xiàn)。
[0113] 上述部件通過一條或多條總線進(jìn)行通信。本領(lǐng)域技術(shù)人員可W理解,圖7中示出的 設(shè)備的結(jié)構(gòu)并不構(gòu)成對(duì)本發(fā)明的限定,它既可W是總線形結(jié)構(gòu),也可W是星型結(jié)構(gòu),還可W 包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
[0114] 需要說明的是,對(duì)于設(shè)備實(shí)施例而言,由于其基本相應(yīng)于方法實(shí)施例,所W相關(guān)之 處參見方法實(shí)施例的部分說明即可。
[0115] 本領(lǐng)域普通技術(shù)人員可W理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可W通過 程序指令相關(guān)的硬件來完成,前述的程序可W存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序 在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:R〇M、RAM、磁碟或者光 盤等各種可W存儲(chǔ)程序代碼的介質(zhì)。
[0116] 最后應(yīng)說明的是:W上各實(shí)施例僅用W說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡 管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依 然可W對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn) 行等同替換;而運(yùn)些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù) 方案的范圍。
【主權(quán)項(xiàng)】
1. 一種基于網(wǎng)絡(luò)信息的搜索方法,其特征在于,包括: 接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息; 根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分類,并根 據(jù)分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型; 根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞; 根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,以獲取修正后的用戶請(qǐng)求信息; 根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行搜索。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本 信息,包括: 通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息。3. 根據(jù)權(quán)利要求1所述方法,其特征在于,所述根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè) 知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分類,并根據(jù)分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè) 務(wù)類型,包括: 根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的分類模型對(duì)所述網(wǎng)絡(luò)文 本信息進(jìn)行文本分類; 根據(jù)所述網(wǎng)絡(luò)文本信息的文本分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù) 設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的分類模型對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行文本分類,包括: 分別根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)獲取訓(xùn)練語(yǔ)料和所述網(wǎng)絡(luò)文本信息的向量特征; 根據(jù)訓(xùn)練語(yǔ)料的向量特征訓(xùn)練分類模型; 根據(jù)訓(xùn)練得到的分類模型對(duì)所述網(wǎng)絡(luò)文本信息的向量特征進(jìn)行分類。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)獲取所述網(wǎng)絡(luò)文本信 息的向量特征,包括: 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分詞處理獲取m個(gè)分詞結(jié)果; 分別確定所述分詞結(jié)果對(duì)應(yīng)的η個(gè)語(yǔ)義屬性在所述網(wǎng)絡(luò)文本信息中的權(quán)值,將所述η個(gè) 語(yǔ)義屬性的權(quán)值組成所述網(wǎng)絡(luò)文本信息的向量特征;其中,m和η均為大于O的整數(shù)。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文 本信息中與所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞,包括: 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)通過命名實(shí)體識(shí)別算法獲取所述網(wǎng)絡(luò)文本信息中的實(shí)體名稱; 從所述分詞結(jié)果和所述實(shí)體名稱中提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型相關(guān)的 關(guān)鍵詞。7. -種基于網(wǎng)絡(luò)信息的搜索裝置,其特征在于,包括: 獲取模塊,用于接收用戶請(qǐng)求信息,并獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息; 確定模塊,用于根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù),對(duì)所述網(wǎng)絡(luò)文本信息 進(jìn)行分類,并根據(jù)分類結(jié)果確定所述用戶請(qǐng)求信息對(duì)應(yīng)的業(yè)務(wù)類型; 關(guān)鍵詞提取模塊,用于根據(jù)所述業(yè)務(wù)類型,提取所述網(wǎng)絡(luò)文本信息中與所述業(yè)務(wù)類型 相關(guān)的關(guān)鍵詞; 第一處理模塊,用于根據(jù)所述關(guān)鍵詞對(duì)所述用戶請(qǐng)求信息進(jìn)行修正,以獲取修正后的 用戶請(qǐng)求信息; 第二處理模塊,用于根據(jù)所述修正后的用戶請(qǐng)求信息和所述業(yè)務(wù)類型進(jìn)行搜索。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲取模塊,具體用于: 通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中獲取與所述用戶請(qǐng)求信息相關(guān)的網(wǎng)絡(luò)文本信息。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊,包括: 第一確定單元,用于根據(jù)所述用戶請(qǐng)求信息對(duì)應(yīng)領(lǐng)域的預(yù)設(shè)知識(shí)庫(kù)中預(yù)先訓(xùn)練的分類 模型對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行文本分類; 第二確定單元,用于根據(jù)所述網(wǎng)絡(luò)文本信息的文本分類結(jié)果確定所述用戶請(qǐng)求信息對(duì) 應(yīng)的業(yè)務(wù)類型。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一確定單元,具體用于: 分別根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)獲取訓(xùn)練語(yǔ)料和所述網(wǎng)絡(luò)文本信息的向量特征; 根據(jù)訓(xùn)練語(yǔ)料的向量特征訓(xùn)練分類模型; 根據(jù)訓(xùn)練得到的分類模型對(duì)所述網(wǎng)絡(luò)文本信息的向量特征進(jìn)行文本分類。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一確定單元,還具體用于: 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)對(duì)所述網(wǎng)絡(luò)文本信息進(jìn)行分詞處理獲取m個(gè)分詞結(jié)果; 分別確定所述分詞結(jié)果對(duì)應(yīng)的η個(gè)語(yǔ)義屬性在所述網(wǎng)絡(luò)文本信息中的權(quán)值,將所述η個(gè) 語(yǔ)義屬性的權(quán)值組成所述網(wǎng)絡(luò)文本信息的向量特征;其中,m和η均為大于0的整數(shù)。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述關(guān)鍵詞提取模塊,具體用于: 根據(jù)所述預(yù)設(shè)知識(shí)庫(kù)通過命名實(shí)體識(shí)別算法獲取所述網(wǎng)絡(luò)文本信息中的實(shí)體名稱; 根據(jù)關(guān)鍵詞提取算法從所述分詞結(jié)果和所述實(shí)體名稱中提取所述網(wǎng)絡(luò)文本信息中與 所述業(yè)務(wù)類型相關(guān)的關(guān)鍵詞。
【文檔編號(hào)】G06F17/27GK105956053SQ201610268134
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月27日
【發(fā)明人】李金凱, 王峰, 殷騰龍
【申請(qǐng)人】海信集團(tuán)有限公司