本發(fā)明實(shí)施例屬于信息處理領(lǐng)域,尤其涉及一種搜索庫(kù)生成方法及裝置。
背景技術(shù):
在IPTV/OTT、智能電視等產(chǎn)品中,由于遙控器的限制,不能直接輸入漢字,基于漢字拼音或者漢字拼音首字母的輸入和搜索方法是很常用的一種查詢方法。
而漢字存在多音字,同一個(gè)字在不同詞語(yǔ)或語(yǔ)句中可以有不同的讀音。例如,新聞《殼牌重啟北冰洋油氣勘探遭抗議》中“殼”的讀音應(yīng)為[qiào],但現(xiàn)實(shí)情況是很多人會(huì)把“殼”讀為[ké],以至于在百度搜索中詢問(wèn)“殼牌怎么讀”的結(jié)果超過(guò)千條?,F(xiàn)有技術(shù)中,詞句中漢字對(duì)應(yīng)的拼音是由計(jì)算機(jī)根據(jù)詞句中每個(gè)漢字對(duì)應(yīng)的標(biāo)準(zhǔn)拼音讀音拼接起來(lái)的,因?yàn)樽x音只能有一個(gè)并且漢字有多音字的問(wèn)題,詞句翻譯的漢字拼音很可能出現(xiàn)錯(cuò)誤,最簡(jiǎn)單的方法是通過(guò)人工糾正錯(cuò)誤拼音讀音進(jìn)行搜索。某些復(fù)雜系統(tǒng)是根據(jù)詞語(yǔ)在語(yǔ)句中的語(yǔ)義、位置、文法來(lái)分析漢字的多音字讀音,這種方法需要維護(hù)一個(gè)復(fù)雜的語(yǔ)義庫(kù),而且隨著多音字使用語(yǔ)義、位置、文法的不同,語(yǔ)義庫(kù)需要不斷擴(kuò)展和更新,需要較高的技術(shù)實(shí)現(xiàn)能力和維護(hù)成本。針對(duì)上述技術(shù)方法實(shí)現(xiàn)的詞句用拼音搜索準(zhǔn)確度較低,搜索效率也比較低,開(kāi)發(fā)維護(hù)成本較高,自動(dòng)化程度低。
故,有必要提出一種新的技術(shù)方案,以解決上述技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種搜索庫(kù)生成方法及裝置,旨在解決現(xiàn)有的拼音輸入搜索因存在多音字導(dǎo)致搜索不準(zhǔn)確且搜索效率較低的問(wèn)題。
本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種搜索庫(kù)生成方法,所述方法包括:
建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合;
獲取用戶輸入的搜索關(guān)鍵字;
按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合;
基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合,包括:
獲取用戶采納的搜索結(jié)果詞句;
將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄;
基于所述關(guān)聯(lián)記錄,獲取同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字;
基于所述同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字,生成第一搜索拼音組合。
進(jìn)一步地,所述基于所述同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字,生成第一搜索拼音組合,包括:
基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù)占比;
過(guò)濾所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字,以生成第二搜索拼音組合;
對(duì)應(yīng)的,所述基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù),包括:
基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述基于第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù),包括:
刪除所述第一拼音搜索庫(kù)中,除第一搜索拼音組合和預(yù)設(shè)拼音組合之外的其他拼音組合,以生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合,包括:
獲取詞句中的文字個(gè)數(shù)和多音字個(gè)數(shù);
基于所述文字個(gè)數(shù)和所述多音字個(gè)數(shù),獲取所述詞句的全部拼音組合;
基于詞句的全部拼音組合建立第一拼音搜索庫(kù)。
本發(fā)明實(shí)施例的另一目的在于提供一種搜索庫(kù)生成裝置,所述裝置包括:
第一拼音搜索庫(kù)建立單元,用于建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合;
搜索關(guān)鍵字獲取單元,用于獲取用戶輸入的搜索關(guān)鍵字;
第一搜索拼音組合生成單元,用于按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合;
第二拼音搜索庫(kù)生成單元,用于基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述第一搜索拼音組合生成單元包括:
搜索結(jié)果詞句獲取模塊,用于獲取用戶采納的搜索結(jié)果詞句;
關(guān)聯(lián)記錄生成模塊,用于將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄;
搜索關(guān)鍵字獲取模塊,用于基于所述關(guān)聯(lián)記錄,獲取同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字;
第一搜索拼音組合生成模塊,用于基于所述同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字,生成第一搜索拼音組合。
進(jìn)一步地,所述第一搜索拼音組合生成模塊,包括:
關(guān)聯(lián)次數(shù)占比統(tǒng)計(jì)模塊,用于基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù)占比;
第二搜索拼音組合生成模塊,用于過(guò)濾所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字,以生成第二搜索拼音組合;
對(duì)應(yīng)的,所述第二拼音搜索庫(kù)生成單元,包括:
第二拼音搜索庫(kù)生成模塊,用于基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述第二拼音搜索庫(kù)生成單元包括:
第二拼音搜索庫(kù)生成模塊,還用于刪除所述第一拼音搜索庫(kù)中,除第一搜索拼音組合和預(yù)設(shè)拼音組合之外的其他拼音組合,以生成第二拼音搜索庫(kù)。
進(jìn)一步地,所述第一拼音搜索庫(kù)建立單元包括:
個(gè)數(shù)獲取模塊,用于獲取詞句中的文字個(gè)數(shù)和多音字個(gè)數(shù);
拼音組合獲取模塊,用于基于所述文字個(gè)數(shù)和所述多音字個(gè)數(shù),獲取所述詞句的全部拼音組合;
第一拼音搜索庫(kù)建立模塊,用于基于詞句的全部拼音組合建立第一拼音搜索庫(kù)。
在本發(fā)明實(shí)施例中,通過(guò)建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合,獲取用戶輸入的搜索關(guān)鍵字,按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合,基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù),將用戶輸入的搜索關(guān)鍵字結(jié)合用戶搜索習(xí)慣過(guò)濾后生成拼音搜索庫(kù),從而提高多音字拼音搜索效率和搜索準(zhǔn)確率。
附圖說(shuō)明
圖1是本發(fā)明第一實(shí)施例提供的一種搜索庫(kù)生成方法的流程圖;
圖2是本發(fā)明第二實(shí)施例提供的一種搜索庫(kù)生成方法的流程圖;
圖3是本發(fā)明第三實(shí)施例提供的一種搜索庫(kù)生成裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
應(yīng)當(dāng)理解,當(dāng)在本說(shuō)明書(shū)和所附權(quán)利要求書(shū)中使用時(shí),術(shù)語(yǔ)“包括”指示所描述特征、整體、步驟、操作、元素和/或組件的存在,但并不排除一個(gè)或多個(gè)其它特征、整體、步驟、操作、元素、組件和/或其集合的存在或添加。
還應(yīng)當(dāng)理解,在此本發(fā)明說(shuō)明書(shū)中所使用的術(shù)語(yǔ)僅僅是出于描述特定實(shí)施例的目的而并不意在限制本發(fā)明。如在本發(fā)明說(shuō)明書(shū)和所附權(quán)利要求書(shū)中所使用的那樣,除非上下文清楚地指明其它情況,否則單數(shù)形式的“一”、“一個(gè)”及“該”意在包括復(fù)數(shù)形式。
還應(yīng)當(dāng)進(jìn)一步理解,在本發(fā)明說(shuō)明書(shū)和所附權(quán)利要求書(shū)中使用的術(shù)語(yǔ)“和/或”是指相關(guān)聯(lián)列出的項(xiàng)中的一個(gè)或多個(gè)的任何組合以及所有可能組合,并且包括這些組合。
如在本說(shuō)明書(shū)和所附權(quán)利要求書(shū)中所使用的那樣,術(shù)語(yǔ)“如果”可以依據(jù)上下文被解釋為“當(dāng)...時(shí)”或“一旦”或“響應(yīng)于確定”或“響應(yīng)于檢測(cè)到”。類似地,短語(yǔ)“如果確定”或“如果檢測(cè)到[所描述條件或事件]”可以依據(jù)上下文被解釋為意指“一旦確定”或“響應(yīng)于確定”或“一旦檢測(cè)到[所描述條件或事件]”或“響應(yīng)于檢測(cè)到[所描述條件或事件]”。
本發(fā)明實(shí)施例中,建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合,獲取用戶輸入的搜索關(guān)鍵字,按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合,基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
為了說(shuō)明本發(fā)明所述的技術(shù)方案,下面通過(guò)具體實(shí)施例來(lái)進(jìn)行說(shuō)明。
實(shí)施例一:
圖1示出了本發(fā)明第一實(shí)施例提供的一種搜索庫(kù)生成方法的流程圖,詳述如下:
步驟S11,建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合。
可選地,所述步驟S11包括:
A1、獲取詞句中的文字個(gè)數(shù)和多音字個(gè)數(shù)。
A2、基于所述文字個(gè)數(shù)和所述多音字個(gè)數(shù),獲取所述詞句的全部拼音組合。
A3、基于詞句的全部拼音組合建立第一拼音搜索庫(kù)。其中,將所述詞句的全部拼音組合都建立索引。
具體地,當(dāng)詞句中不存在多音字時(shí),當(dāng)詞句中存在至少一個(gè)字不止一個(gè)讀音時(shí),基于所述文字個(gè)數(shù)和所述多音字個(gè)數(shù)利用如下公式計(jì)算詞句的拼音組合個(gè)數(shù):
其中D表示詞句的拼音組合個(gè)數(shù),ni表示詞句中漢字的有效讀音個(gè)數(shù),其中,1≤i≤m。當(dāng)ni=1時(shí),該漢字為單音字,當(dāng)ni>1時(shí),該漢字為多音字,m表示詞句中漢字的個(gè)數(shù)。如,當(dāng)m=4時(shí),例如,“哪吒鬧?!币辉~中,“哪”字有4中讀音,分別是:[nǎ],[něi],[na],[né];“吒”字有2種讀音:[zhà],[zhā];“鬧”字有1種讀音:[nào];“?!弊钟?種讀音:[hǎi]?;谏鲜龉娇芍?/p>
即,“哪吒鬧?!币辉~全部拼音組合共有8個(gè),分別如下:
1.[nǎ][zhà][nào][hǎi];
2.[něi][zhà][nào][hǎi];
3.[na][zhà][nào][hǎi];
4.[né][zhà][nào][hǎi];
5.[nǎ][zhā][nào][hǎi];
6.[něi][zhā][nào][hǎi];
7.[na][zhā][nào][hǎi];
8.[né][zhā][nào][hǎi]。
其中,第8種為標(biāo)準(zhǔn)讀音。將這8個(gè)拼音組合全部存入第一拼音搜索庫(kù),其他詞句做相似處理,基于詞句的全部拼音組合建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)中包括詞句的標(biāo)準(zhǔn)拼音組合。對(duì)詞句的標(biāo)準(zhǔn)拼音組合進(jìn)行標(biāo)記。
步驟S12,獲取用戶輸入的搜索關(guān)鍵字。
其中,用戶輸入的搜索關(guān)鍵字可以是搜索關(guān)鍵字的拼音,也可以是搜索關(guān)鍵字的拼音首字母。例如,在IPTV機(jī)頂盒、OTT機(jī)頂盒等媒體播放業(yè)務(wù)中,可以通過(guò)遙控器輸入搜索關(guān)鍵字的拼音首字母進(jìn)行搜索。對(duì)應(yīng)地,所述步驟S11中所述第一拼音搜索庫(kù)可以是基于由拼音首字母組合建立。
步驟S13,按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合。
可選地,結(jié)合用戶搜索輸入習(xí)慣,所述步驟S13包括:
B1、獲取用戶采納的搜索結(jié)果詞句。
B2、將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄。
B3、基于所述關(guān)聯(lián)記錄,獲取同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字。
B4、基于所述同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字,生成第一搜索拼音組合。
通過(guò)將用戶輸入的搜索關(guān)鍵字和用戶采納的搜索結(jié)果詞句建立關(guān)聯(lián),結(jié)合用戶的輸入習(xí)慣生成第一搜索拼音組合,提高用戶的搜索效率。
可選地,針對(duì)涉及多音字的詞句的搜索,為提高搜索的準(zhǔn)確率,所述B4包括:
B41、獲取每一個(gè)搜索關(guān)鍵字中的多音字個(gè)數(shù)。
B42、選取多音字個(gè)數(shù)大于或等于1的搜索關(guān)鍵字,生成第一搜索拼音組合。
具體地,若用戶最后采納的搜索結(jié)果詞句中包含多音字,通過(guò)獲取所述搜索結(jié)果詞句關(guān)聯(lián)的搜索關(guān)鍵字的多音字的個(gè)數(shù),將不包含多音字的搜索關(guān)鍵字過(guò)濾,生成第一搜索拼音組合。
步驟S14,基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
可選地,為了進(jìn)一步提高用戶使用拼音搜索的準(zhǔn)確率,所述步驟S14包括:
C1、刪除所述第一拼音搜索庫(kù)中,除第一搜索拼音組合和預(yù)設(shè)拼音組合之外的其他拼音組合,以生成第二拼音搜索庫(kù)。
具體地,所述第一拼音搜索庫(kù)中包含詞句的全部拼音組合,結(jié)合所述第一搜索拼音組合和預(yù)設(shè)拼音組合,如,詞句的標(biāo)準(zhǔn)拼音組合,對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,將除第一搜索拼音組合(即用戶采納的結(jié)果詞句)和預(yù)設(shè)拼音組合(詞句的標(biāo)準(zhǔn)拼音組合)以外的其余拼音組合刪除。
本發(fā)明第一實(shí)施例中,通過(guò)建立第一拼音搜索庫(kù),獲取用戶輸入的搜索關(guān)鍵字,按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合,基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù),將用戶輸入的搜索關(guān)鍵字結(jié)合用戶搜索習(xí)慣過(guò)濾后生成拼音搜索庫(kù),從而提高多音字拼音搜索效率和搜索準(zhǔn)確率。
實(shí)施例二:
圖2示出了本發(fā)明第二實(shí)施例提供的一種搜索庫(kù)生成方法的流程圖,本實(shí)施例是對(duì)實(shí)施例一種步驟S13的進(jìn)一步描述,詳述如下:
步驟S21,建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合。具體步驟內(nèi)容請(qǐng)參考實(shí)施例一步驟S11,在此不再贅述。
步驟S22,獲取用戶輸入的搜索關(guān)鍵字。具體步驟內(nèi)容請(qǐng)參考實(shí)施例一驟S12,在此不再贅述。
步驟S23,獲取用戶采納的搜索結(jié)果詞句。
步驟S24,將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄。
通過(guò)將用戶輸入的搜索關(guān)鍵字和用戶采納的搜索結(jié)果詞句建立關(guān)聯(lián),結(jié)合用戶的輸入習(xí)慣生成第一搜索拼音組合,提高用戶的搜索效率。
步驟S25,基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù)占比。
可選地,在預(yù)設(shè)時(shí)間間隔內(nèi)更新統(tǒng)計(jì)所述關(guān)聯(lián)次數(shù)占比,以便確保搜索的準(zhǔn)確性。
可選地,針對(duì)涉及多音字的詞句的搜索,為提高搜索的準(zhǔn)確率,在所述步驟S25之前,包括:
D1、基于所述關(guān)聯(lián)記錄,獲取同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字。
D2、獲取每一個(gè)搜索關(guān)鍵字中的多音字個(gè)數(shù)。
D3、選取多音字個(gè)數(shù)大于或等于1的搜索關(guān)鍵字,生成第一搜索拼音組合。
具體地,若用戶最后采納的搜索結(jié)果詞句中包含多音字,通過(guò)獲取所述搜索結(jié)果詞句關(guān)聯(lián)的搜索關(guān)鍵字的多音字的個(gè)數(shù),將不包含多音字的搜索關(guān)鍵字過(guò)濾,生成第一搜索拼音組合。
步驟S26,過(guò)濾所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字,以生成第二搜索拼音組合。
步驟S27,根據(jù)所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
具體地,所述第一拼音搜索庫(kù)中包含詞句的全部拼音組合,結(jié)合所述第一搜索拼音組合和預(yù)設(shè)拼音組合,如,詞句的標(biāo)準(zhǔn)拼音組合,對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,將除第一搜索拼音組合(即用戶采納的結(jié)果詞句)和預(yù)設(shè)拼音組合(詞句的標(biāo)準(zhǔn)拼音組合)以外的其余拼音組合刪除。
以一個(gè)應(yīng)用場(chǎng)景為例,用戶輸入搜索關(guān)鍵字查找電影《諜影重重》,搜索結(jié)果詞句為“諜影重重”,其中,多音字為第3、4個(gè)字“重”,其讀音有2種,分別為[zhòng]和[chóng]。以拼音首字母建立索引,該詞句的全部拼音組合為:DYCC,DYCZ,DYZC,DYZZ,用戶以此四種拼音首字母為搜索關(guān)鍵字進(jìn)行搜索可能出現(xiàn)的情況如下:
1.搜索關(guān)鍵字:D,搜索關(guān)聯(lián)次數(shù):1302次;
2.搜索關(guān)鍵字:DY,搜索關(guān)聯(lián)次數(shù):1988次;
3.搜索關(guān)鍵字:DYCC,搜索關(guān)聯(lián)次數(shù):73089次;
4.搜索關(guān)鍵字:DYZZ,搜索關(guān)聯(lián)次數(shù):885次;
5.搜索關(guān)鍵字:DYC,搜索關(guān)聯(lián)次數(shù):3280次;
6.搜索關(guān)鍵字:DYZ,搜索關(guān)聯(lián)次數(shù):23次;
7.搜索關(guān)鍵字:DYZC,搜索關(guān)聯(lián)次數(shù):0次;
8.搜索關(guān)鍵字:DYCZ,搜索關(guān)聯(lián)次數(shù):0次。
其中,標(biāo)記DYCC為標(biāo)準(zhǔn)拼音組合。獲取搜索關(guān)鍵字中的多音字個(gè)數(shù),選取多音字個(gè)數(shù)大于等于1的搜索關(guān)鍵字,即,選取序號(hào)3-8,即DYCC、DYZZ、DYC、DYZ、DYZC以及DYCZ6種組合生成第一搜索拼音組合,在這6種組合中選取與搜索結(jié)果詞句字?jǐn)?shù)相同的搜索關(guān)鍵字DYCC、DYZZ、DYZC以及DYCZ,而將字?jǐn)?shù)少于搜索結(jié)果詞句字?jǐn)?shù)的搜索關(guān)鍵字的關(guān)聯(lián)次數(shù)合并至包含其全部搜索關(guān)鍵字的組合中,如,DYCC的實(shí)際搜索關(guān)聯(lián)次數(shù)為76369次,即為搜索關(guān)鍵字DYCC的搜索關(guān)聯(lián)次數(shù)73089次與DYC的搜索關(guān)聯(lián)次數(shù)3280次之和,同樣的,DYZC的實(shí)際搜索關(guān)聯(lián)次數(shù)為23次,即為搜索關(guān)鍵字DYZC的搜索關(guān)聯(lián)次數(shù)0次與搜索關(guān)鍵字DYZ的搜索關(guān)聯(lián)次數(shù)23次之和,其他組合的實(shí)際搜索關(guān)聯(lián)次數(shù)也是如此?;谒鲫P(guān)聯(lián)次數(shù),統(tǒng)計(jì)搜索關(guān)鍵字的關(guān)聯(lián)次數(shù)占比,將所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字過(guò)濾,通過(guò)計(jì)算可知,DYCZ和DYZC被過(guò)濾刪除,根據(jù)標(biāo)準(zhǔn)拼音組合DYCC和用戶習(xí)慣搜索拼音組合DYZZ生成第二搜索拼音組合,基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。用戶可使用該拼音搜索庫(kù)進(jìn)行搜索查找。
本發(fā)明第二實(shí)施例中,通過(guò)建立第一拼音搜索庫(kù),獲取用戶輸入的搜索關(guān)鍵字,再獲取用戶采納的搜索結(jié)果詞句,將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄,基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù),將所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字過(guò)濾,生成第二搜索拼音組合,基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。將用戶輸入的搜索關(guān)鍵字結(jié)合用戶搜索拼音輸入習(xí)慣生成拼音搜索庫(kù),從而提高多音字拼音搜索效率和搜索準(zhǔn)確率。
應(yīng)理解,在本發(fā)明實(shí)施例一和實(shí)施例二中,上述各過(guò)程的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過(guò)程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過(guò)程構(gòu)成任何限定。
實(shí)施例三:
圖3示出了本發(fā)明第三實(shí)施例提供的一種搜索庫(kù)生成裝置的結(jié)構(gòu)圖,該裝置可以用于但不限于集成播控平臺(tái)、IPTV系統(tǒng)、OTT互聯(lián)網(wǎng)視頻系統(tǒng)、互動(dòng)數(shù)字電視系統(tǒng)或智能電視。為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。
該搜索庫(kù)生成裝置包括:第一拼音搜索庫(kù)建立單元31、搜索關(guān)鍵字獲取單元32、第一搜索拼音組合生成單元33、第二拼音搜索庫(kù)生成單元34,其中:
第一拼音搜索庫(kù)建立單元31,用于建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)包括詞句的全部拼音組合。
可選地,所述第一拼音搜索庫(kù)建立單元31包括:
個(gè)數(shù)獲取模塊,用于獲取詞句中的文字個(gè)數(shù)和多音字個(gè)數(shù);
拼音組合獲取模塊,用于基于所述文字個(gè)數(shù)和所述多音字個(gè)數(shù),獲取所述詞句的全部拼音組合;
第一拼音搜索庫(kù)建立模塊,用于基于詞句的全部拼音組合建立第一拼音搜索庫(kù)。其中,將所述詞句的全部拼音組合都建立索引。
具體地,基于詞句的全部拼音組合建立第一拼音搜索庫(kù),所述第一拼音搜索庫(kù)中包括詞句的標(biāo)準(zhǔn)拼音組合。對(duì)詞句的標(biāo)準(zhǔn)拼音組合進(jìn)行標(biāo)記。
搜索關(guān)鍵字獲取單元32,用于獲取用戶輸入的搜索關(guān)鍵字。
其中,用戶輸入的搜索關(guān)鍵字可以是搜索關(guān)鍵字的拼音,也可以是搜索關(guān)鍵字的拼音首字母。例如,在IPTV機(jī)頂盒、OTT機(jī)頂盒等媒體播放業(yè)務(wù)中,可以通過(guò)遙控器輸入搜索關(guān)鍵字的拼音首字母進(jìn)行搜索。對(duì)應(yīng)地,所述第一拼音搜索庫(kù)可以是基于由拼音首字母組合建立。
第一搜索拼音組合生成單元33,用于按預(yù)設(shè)拼音組合規(guī)則對(duì)所述搜索關(guān)鍵字進(jìn)行過(guò)濾,生成第一搜索拼音組合。
可選地,結(jié)合用戶搜索輸入習(xí)慣,所述第一搜索拼音組合生成單元33包括:
搜索結(jié)果詞句獲取模塊,用于獲取用戶采納的搜索結(jié)果詞句;
關(guān)聯(lián)記錄生成模塊,用于將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄;
搜索關(guān)鍵字獲取模塊,用于基于所述關(guān)聯(lián)記錄,獲取同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字;
第一搜索拼音組合生成模塊,用于基于所述同一個(gè)搜索結(jié)果詞句所對(duì)應(yīng)的所有搜索關(guān)鍵字,生成第一搜索拼音組合。
通過(guò)將用戶輸入的搜索關(guān)鍵字和用戶采納的搜索結(jié)果詞句建立關(guān)聯(lián),結(jié)合用戶的輸入習(xí)慣生成第一搜索拼音組合,提高用戶的搜索效率。
可選地,針對(duì)涉及多音字的詞句的搜索,為提高搜索的準(zhǔn)確率,所述第一搜索拼音組合生成模塊包括:
多音字個(gè)數(shù)獲取模塊,用于獲取每一個(gè)搜索關(guān)鍵字中的多音字個(gè)數(shù);
搜索關(guān)鍵字選取模塊,用于選取多音字個(gè)數(shù)大于或等于1的搜索關(guān)鍵字;
第一搜索拼音組合生成模塊,用于生成第一搜索拼音組合。
具體地,若用戶最后采納的搜索結(jié)果詞句中包含多音字,通過(guò)獲取所述搜索結(jié)果詞句關(guān)聯(lián)的搜索關(guān)鍵字的多音字的個(gè)數(shù),將不包含多音字的搜索關(guān)鍵字過(guò)濾,生成第一搜索拼音組合。
可選地,所述第一搜索拼音組合生成模塊,還包括:
關(guān)聯(lián)次數(shù)占比統(tǒng)計(jì)模塊,用于基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù)占比。
第二搜索拼音組合生成模塊,用于過(guò)濾所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字,以生成第二搜索拼音組合。
第二拼音搜索庫(kù)生成單元34,用于基于所述第一搜索拼音組合,按預(yù)設(shè)多音字搜索規(guī)則對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
可選地,為了進(jìn)一步提高用戶使用拼音搜索的準(zhǔn)確率,所述第二拼音搜索庫(kù)生成單元34包括:
第二拼音搜索庫(kù)生成模塊,還用于刪除所述第一拼音搜索庫(kù)中,除第一搜索拼音組合和預(yù)設(shè)拼音組合之外的其他拼音組合,以生成第二拼音搜索庫(kù)。
具體地,所述第一拼音搜索庫(kù)中包含詞句的全部拼音組合,結(jié)合所述第一搜索拼音組合和預(yù)設(shè)拼音組合,如,詞句的標(biāo)準(zhǔn)拼音組合,對(duì)所述第一拼音搜索庫(kù)進(jìn)行過(guò)濾,將除第一搜索拼音組合(即用戶采納的結(jié)果詞句)和預(yù)設(shè)拼音組合(詞句的標(biāo)準(zhǔn)拼音組合)以外的其余拼音組合刪除。
可選地,在所述第一搜索拼音組合生成模塊還包括:關(guān)聯(lián)次數(shù)占比統(tǒng)計(jì)模塊和第二搜索拼音組合生成模塊時(shí),對(duì)應(yīng)地,所述第二拼音搜索庫(kù)生成模塊,還用于基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。
本發(fā)明第三實(shí)施例中,通過(guò)建立第一拼音搜索庫(kù),獲取用戶輸入的搜索關(guān)鍵字,再獲取用戶采納的搜索結(jié)果詞句,將所述搜索關(guān)鍵字和所述搜索結(jié)果詞句建立關(guān)聯(lián),并生成關(guān)聯(lián)記錄,基于所述關(guān)聯(lián)記錄,統(tǒng)計(jì)所述關(guān)聯(lián)記錄中同一個(gè)搜索關(guān)鍵字關(guān)聯(lián)同一個(gè)搜索結(jié)果詞句的關(guān)聯(lián)次數(shù),將所述第一搜索拼音組合中,所述關(guān)聯(lián)次數(shù)占比小于預(yù)設(shè)關(guān)聯(lián)次數(shù)占比閾值的搜索關(guān)鍵字過(guò)濾,生成第二搜索拼音組合,基于所述第二搜索拼音組合對(duì)第一拼音搜索庫(kù)進(jìn)行過(guò)濾,生成第二拼音搜索庫(kù)。將用戶輸入的搜索關(guān)鍵字結(jié)合用戶搜索拼音輸入習(xí)慣生成拼音搜索庫(kù),從而提高多音字拼音搜索效率和搜索準(zhǔn)確率。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。