一種同類信息的搜索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種同類信息的搜索方法及裝置。
【背景技術(shù)】
[0002] 運(yùn)營商在閱讀類產(chǎn)品運(yùn)營過程中,將用戶經(jīng)常瀏覽的資訊打包推送給用戶,例如, 用戶經(jīng)常會(huì)瀏覽王力宏相關(guān)的資訊,那么可W將王力宏相關(guān)的資訊打包推送給用戶,既契 合了用戶興趣又提升了產(chǎn)品個(gè)性化推送。進(jìn)一步地,若用戶較喜歡瀏覽王力宏的資訊,那么 可能也喜歡其他娛樂明星的相關(guān)資訊,因此,也可W將同類信息的資訊推送給用戶,在一定 程度上拓展用戶的興趣。
[0003] 其中,在進(jìn)行同類信息的資訊推送前,由人工在搜索引擎工具上輸入已知的用戶 經(jīng)常瀏覽的信息,搜索得到其相關(guān)的信息,然后從相關(guān)的信息中選出比較流行的同類信息, 再將該同類信息有關(guān)的資訊推送給用戶,同類信息選取過程主要依靠人工操作,相對代價(jià) 太高,難W維持。
【發(fā)明內(nèi)容】
[0004] 針對上述缺陷,本發(fā)明實(shí)施例提供了一種同類信息的搜索方法及裝置,用于自動(dòng) 化搜索同類信息,速度快、準(zhǔn)確性高。
[0005] 本發(fā)明實(shí)施例一方面提供了一種同類信息的搜索方法,可包括:
[0006] 接收用戶輸入的信息搜索種子;
[0007] 根據(jù)所述信息搜索種子,在信息庫中查找目標(biāo)信息表,所述信息庫包括多個(gè)信息 表,所述信息表包括特征信息W及多個(gè)搜索信息,所述多個(gè)搜索信息屬于同類信息;
[000引根據(jù)所述目標(biāo)信息表的特征信息,對所述目標(biāo)信息表的搜索信息進(jìn)行排序并輸出 排序結(jié)果。
[0009] 本發(fā)明實(shí)施例另一方面提供了一種同類信息的搜索裝置,可包括:
[0010] 接收單元,用于接收用戶輸入的信息搜索種子;
[0011] 查找單元,用于根據(jù)所述信息搜索種子,在信息庫中查找目標(biāo)信息表,所述信息庫 包括多個(gè)信息表,所述信息表包括特征信息W及多個(gè)搜索信息,所述多個(gè)搜索信息屬于同 類信息;
[0012] 輸出單元,用于根據(jù)所述目標(biāo)信息表的特征信息,對所述目標(biāo)信息表的搜索信息 進(jìn)行排序并輸出排序結(jié)果。
[0013] 從W上技術(shù)方案可W看出,本發(fā)明實(shí)施例提供的同類信息的搜索方法具有W下優(yōu) 點(diǎn):首先,根據(jù)用戶輸入的信息搜索種子,該信息搜索種子可W是一個(gè)或者多個(gè),若是輸入 多個(gè)信息搜索種子,那么該多個(gè)信息搜索種子屬于同類信息,然后根據(jù)信息搜索種子,在信 息庫中查找目標(biāo)信息表,然后根據(jù)目標(biāo)信息表的特征信息,對搜索信息進(jìn)行排序,最后輸出 排序結(jié)果,實(shí)現(xiàn)自動(dòng)化搜索,搜索速度快,準(zhǔn)確性高。
【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對本發(fā)明實(shí)施例中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)該些附圖獲得其他 的附圖。
[0015] 圖1為本發(fā)明實(shí)施例提供的同類信息的搜索方法的流程示意圖;
[0016]圖2a為本發(fā)明另一實(shí)施例提供的同類信息的搜索方法的流程示意圖;
[0017] 圖化為本發(fā)明實(shí)施例提供的排序結(jié)果的示意圖;
[0018]圖3為本發(fā)明實(shí)施例提供的同類信息的搜索裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019] 本發(fā)明實(shí)施例提供了一種同類信息的搜索方法,用于搜索同類信息,搜索速度快、 準(zhǔn)確性高,本發(fā)明實(shí)施例還提供了一種同類信息的搜索方法對應(yīng)的裝置。
[0020] 下面將結(jié)合本發(fā)明實(shí)施例的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整 地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本 發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí) 施例,都屬于本發(fā)明保護(hù)的范圍。
[0021] 本發(fā)明實(shí)施例可W用于運(yùn)營商進(jìn)行閱讀類業(yè)務(wù)推送,也可W用于用戶興趣搜索 等,在此不作限定。同類信息的搜索裝置具體可W是一個(gè)搜索引擎,在同類信息的搜索裝置 的顯示界面上設(shè)置有搜索輸入欄,用于用戶輸入信息搜索種子進(jìn)行同類信息搜索。該同類 信息為相同領(lǐng)域中具有相同屬性的信息,可W是人名、機(jī)構(gòu)名、產(chǎn)品名等,例如,在娛樂領(lǐng)域 中的明星名字,像王力宏、蔡依林、張惠妹等,在娛樂領(lǐng)域中具有明星名字該一相同屬性。
[0022] 在同類信息的搜索裝置中還分配有信息庫,用于存儲信息表,該信息表中包括特 征信息和多個(gè)搜索信息。其中,在信息庫中每一個(gè)信息表W索引值存儲,即每一個(gè)信息表對 應(yīng)一個(gè)索引值,信息表中的搜索信息與該索引值屬于同類信息。
[0023] 優(yōu)選地,上述特征信息可W包括權(quán)重信息和綜合值,其中,權(quán)重信息可W包括同類 信息權(quán)重、百科信息、標(biāo)題比例和主題分布率中的至少一種,而綜合值通過權(quán)重信息得到。
[0024] 舉例來說,若權(quán)重信息中只包括同類信息權(quán)重,那么綜合值也就是該同類信息權(quán) 重;若權(quán)重信息中包括同類信息權(quán)重和百科信息,那么綜合值等于同類信息權(quán)重與百科信 息的乘積??蒞理解,若權(quán)重信息中只有一種信息,那么該種信息也作為綜合值,若權(quán)重信 息中包括2種W上信息,那么綜合值是2種W上信息的乘積。
[0025] 其中,由于資訊在不斷更新變化,為了保證搜索信息和特征信息是最新數(shù)據(jù),在預(yù) 設(shè)周期內(nèi),需要對搜索信息和特征信息進(jìn)行更新,可W將預(yù)設(shè)周期設(shè)為一個(gè)星期、半個(gè)月或 1個(gè)月。
[0026] 具體地,搜索信息的更新主要是通過word2vec(wordtovector)工具分別對上 述所有信息表的索引值進(jìn)行處理,得到與信息表相同數(shù)量的處理結(jié)果,即一個(gè)索引值對應(yīng) 一個(gè)處理結(jié)果,每一個(gè)處理結(jié)果包括相關(guān)信息和相關(guān)度,該相關(guān)信息包括第一搜索信息和/ 或第二搜索信息,該第一搜索信息與索引值屬于同類信息,該第二搜索信息與索引值屬于 非同類信息,上述相關(guān)度表示相關(guān)信息與索引值的相關(guān)性。將處理結(jié)果中的第二搜索信息 刪除后或者直接使用處理結(jié)果中的第一搜索信息更新相應(yīng)的搜索信息表中的搜索信息。
[0027] 在特征信息的權(quán)重信息包括有同類信息權(quán)重時(shí),在更新搜索信息后,利用上述處 理結(jié)果中的相關(guān)度更新該權(quán)重信息中的同類信息權(quán)重,即相關(guān)度作為上述同類信息權(quán)重, 同時(shí),也要結(jié)合權(quán)重信息中其它信息是否被更新,然后更新綜合值。
[0028] 可W理解的是,若上述任意兩個(gè)或多個(gè)處理結(jié)果中具有重復(fù)的第一搜索信息,那 么對該重復(fù)的第一搜索信息的所有相關(guān)度求和得到新的相關(guān)度,并用新的相關(guān)表替換處理 結(jié)果中原來的相關(guān)度。
[0029] 舉例來說,有3個(gè)信息表,分別W王力宏、蔡依林和張惠妹作為索引值,那么在預(yù) 設(shè)周期內(nèi),分別利用word2vec工具對王力宏、蔡依林和張惠妹H個(gè)索引值進(jìn)行處理,分別 得到第一處理結(jié)果、第二處理結(jié)果和第H處理結(jié)果,其中,第一處理結(jié)果和第二處理結(jié)果 中均包括庚澄慶該一搜索信息,且其相關(guān)度分別為0. 760032和0. 823202,先對0. 760032 與0. 823202求和,其和為1. 583234,之后將第一處理結(jié)果中庚澄慶對應(yīng)的相關(guān)度修改為 1. 583234,同樣地,將第二處理結(jié)果中庚澄慶對應(yīng)的相關(guān)度修改為1. 583234。然后用修改后 的處理結(jié)果中的第一搜索信息和相關(guān)度更新信息表。
[0030] 其中,word2vec工具是google公司開源的一種詞向量的搜索方法,其具體工作過 程為現(xiàn)有技術(shù),在此不進(jìn)行詳細(xì)介紹。如下表1是word2vec工具對王力宏進(jìn)行搜索處理后 輸出的結(jié)果:
[0031]表1
[0032]
劉若英~|〇. 757014
[0033] 若上述權(quán)重信息包括百科信息,那么在更新信息表中的搜索信息后,將獲取百科 信息更新特征信息中的權(quán)重信息的百