中查找至少一個資源關鍵詞各自的標識。
[0080]在本發(fā)明一實施例中,詞語關聯(lián)表的數(shù)據(jù)項架構包括關聯(lián)的兩個詞的標識和對應的關聯(lián)深度值。
[0081]在本發(fā)明一實施例中,上述第二查找模塊63還用于:
[0082]根據(jù)至少一個資源關鍵詞各自的標識,從詞語關聯(lián)表中選擇對應的關聯(lián)深度值滿足預設數(shù)值條件的詞的標識,作為各個資源關鍵詞對應的關聯(lián)詞匯的標識。
[0083]在本發(fā)明一實施例中,上述第二查找模塊63還用于:
[0084]從詞語關聯(lián)表中選擇至少一個資源關鍵詞各自的標識對應的至少一個數(shù)據(jù)項;
[0085]對至少一個數(shù)據(jù)項的關聯(lián)深度值進行降序排列;
[0086]選取前η個關聯(lián)深度值對應的數(shù)據(jù)項;
[0087]將選取的數(shù)據(jù)項的詞的標識作為滿足預設數(shù)值條件的詞的標識。
[0088]本發(fā)明實施例的上述裝置:從給定數(shù)據(jù)資源中提取至少一個資源關鍵詞,進而在詞典表中查找至少一個資源關鍵詞各自的標識,隨后根據(jù)至少一個資源關鍵詞各自的標識,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯的標識,最后在詞典表中查找關聯(lián)詞匯的標識對應的各個詞,作為給定數(shù)據(jù)資源的關聯(lián)詞匯。由此可見,本發(fā)明利用資源關鍵詞各自的標識去查找對應的關聯(lián)詞匯,相比于現(xiàn)有技術中直接匹配文字本身,能夠提高查找速度。并且,本發(fā)明的詞語關聯(lián)表中記錄了關聯(lián)的詞語,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯提高了查找結果的準確性。
[0089]本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0090]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0091]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0092]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0093]顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。
【主權項】
1.一種基于給定數(shù)據(jù)資源的信息檢索方法,其特征在于,包括: 從給定數(shù)據(jù)資源中提取至少一個資源關鍵詞; 在詞典表中查找所述至少一個資源關鍵詞各自的標識,其中,所述詞典表的數(shù)據(jù)項架構包括詞的標識、詞的哈希hash值以及詞本身; 根據(jù)所述至少一個資源關鍵詞各自的標識,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯的標識; 在所述詞典表中查找所述關聯(lián)詞匯的標識對應的各個詞,作為所述給定數(shù)據(jù)資源的關聯(lián)詞匯。
2.根據(jù)權利要求1所述的方法,其特征在于,所述在詞典表中查找所述至少一個資源關鍵詞各自的標識,包括: 計算所述至少一個資源關鍵詞各自的hash值; 根據(jù)所述至少一個資源關鍵詞各自的hash值,在詞典表中查找所述至少一個資源關鍵詞各自的標識。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述詞語關聯(lián)表的數(shù)據(jù)項架構包括關聯(lián)的兩個詞的標識和對應的關聯(lián)深度值。
4.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述至少一個資源關鍵詞各自的標識,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯的標識,包括: 根據(jù)所述至少一個資源關鍵詞各自的標識,從詞語關聯(lián)表中選擇對應的關聯(lián)深度值滿足預設數(shù)值條件的詞的標識,作為各個資源關鍵詞對應的關聯(lián)詞匯的標識。
5.根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)所述至少一個資源關鍵詞各自的標識,從詞語關聯(lián)表中選擇對應的關聯(lián)深度值滿足預設數(shù)值條件的詞的標識,包括: 從詞語關聯(lián)表中選擇所述至少一個資源關鍵詞各自的標識對應的至少一個數(shù)據(jù)項; 對所述至少一個數(shù)據(jù)項的關聯(lián)深度值進行降序排列; 選取前η個關聯(lián)深度值對應的數(shù)據(jù)項; 將所述選取的數(shù)據(jù)項的詞的標識作為滿足預設數(shù)值條件的詞的標識。
6.一種基于給定數(shù)據(jù)資源的信息檢索裝置,其特征在于,包括: 提取模塊,用于從給定數(shù)據(jù)資源中提取至少一個資源關鍵詞; 第一查找模塊,用于在詞典表中查找所述至少一個資源關鍵詞各自的標識,其中,所述詞典表的數(shù)據(jù)項架構包括詞的標識、詞的哈希hash值以及詞本身; 第二查找模塊,用于根據(jù)所述至少一個資源關鍵詞各自的標識,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯的標識; 第三查找模塊,用于在所述詞典表中查找所述關聯(lián)詞匯的標識對應的各個詞,作為所述給定數(shù)據(jù)資源的關聯(lián)詞匯。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述第一查找模塊還包括: 計算單元,用于計算所述至少一個資源關鍵詞各自的hash值; 查找單元,用于根據(jù)所述至少一個資源關鍵詞各自的hash值,在詞典表中查找所述至少一個資源關鍵詞各自的標識。
8.根據(jù)權利要求6或7所述的裝置,其特征在于,所述詞語關聯(lián)表的數(shù)據(jù)項架構包括關聯(lián)的兩個詞的標識和對應的關聯(lián)深度值。
9.根據(jù)權利要求8所述的裝置,其特征在于,所述第二查找模塊還用于: 根據(jù)所述至少一個資源關鍵詞各自的標識,從詞語關聯(lián)表中選擇對應的關聯(lián)深度值滿足預設數(shù)值條件的詞的標識,作為各個資源關鍵詞對應的關聯(lián)詞匯的標識。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述第二查找模塊還用于: 從詞語關聯(lián)表中選擇所述至少一個資源關鍵詞各自的標識對應的至少一個數(shù)據(jù)項; 對所述至少一個數(shù)據(jù)項的關聯(lián)深度值進行降序排列; 選取前η個關聯(lián)深度值對應的數(shù)據(jù)項; 將所述選取的數(shù)據(jù)項的詞的標識作為滿足預設數(shù)值條件的詞的標識。
【專利摘要】本發(fā)明公開了一種基于給定數(shù)據(jù)資源的信息檢索方法及裝置,用以實現(xiàn)提高信息檢索的速度和準確性的目的。所述方法包括:從給定數(shù)據(jù)資源中提取至少一個資源關鍵詞;在詞典表中查找所述至少一個資源關鍵詞各自的標識,其中,所述詞典表的數(shù)據(jù)項架構包括詞的標識、詞的哈希hash值以及詞本身;根據(jù)所述至少一個資源關鍵詞各自的標識,在詞語關聯(lián)表中查找各個資源關鍵詞對應的關聯(lián)詞匯的標識;在所述詞典表中查找所述關聯(lián)詞匯的標識對應的各個詞,作為所述給定數(shù)據(jù)資源的關聯(lián)詞匯。
【IPC分類】G06F17-30
【公開號】CN104778247
【申請?zhí)枴緾N201510173337
【發(fā)明人】楊乾磊
【申請人】天脈聚源(北京)傳媒科技有限公司
【公開日】2015年7月15日
【申請日】2015年4月13日