本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種支持檢索的數(shù)據(jù)存儲方法、索引方法及存儲系統(tǒng)。
背景技術(shù):
1、互聯(lián)網(wǎng)時代,業(yè)務(wù)應(yīng)用飛速增長,隨之而來的大數(shù)據(jù)運營已成為常態(tài),海量數(shù)據(jù)的運營且數(shù)據(jù)內(nèi)容繁雜也為對于數(shù)據(jù)庫內(nèi)數(shù)據(jù)的檢索帶來巨大壓力。
2、現(xiàn)有技術(shù)中公開了一種數(shù)據(jù)存儲與檢索裝置,包括:索引文件管理模塊,為數(shù)據(jù)制定索引信息,并將所述數(shù)據(jù)的索引信息記錄在索引文件中;定位文件管理模塊,為所述數(shù)據(jù)制定存儲位置信息,并將所述數(shù)據(jù)的存儲位置信息記錄在定位文件中;數(shù)據(jù)文件管理模塊,按所述存儲文件信息,將所述數(shù)據(jù)存儲為數(shù)據(jù)文件以供檢索。通過該技術(shù)方案,可以在數(shù)據(jù)應(yīng)用,尤其是在使用海量數(shù)據(jù)的場合下,避免一次性加載過量數(shù)據(jù),減輕系統(tǒng)壓力,同時,提高數(shù)據(jù)存儲、檢索和恢復(fù)的效率。
3、但上述技術(shù)方案中,不能在保證對于數(shù)據(jù)的檢索效率的同時保證檢索效果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于:提供一種支持檢索的數(shù)據(jù)存儲方法、索引方法及存儲系統(tǒng),能夠在存儲數(shù)據(jù)的同時兼顧對于數(shù)據(jù)的后期檢索,有效避免了對于數(shù)據(jù)無效檢索現(xiàn)象的發(fā)生。
2、為此,第一方面,本發(fā)明提供了一種支持檢索的數(shù)據(jù)存儲方法,所述支持檢索的數(shù)據(jù)存儲方法包括:
3、將單個存儲主體的內(nèi)容與停用詞表比對確定單個存儲主體中的若干特征詞;
4、確定各特征詞對于存儲主體的表征能力參數(shù);
5、將存儲主體的特征詞以及特征詞的表征能力參數(shù)生成為索引信息表并與存儲主體共同存儲;
6、其中,所述特征詞為排除所述停用詞表包含的詞語的情況下,在所述存儲主體內(nèi)出現(xiàn)次數(shù)排名前預(yù)設(shè)數(shù)量名次的詞語;
7、所述表征能力參數(shù)根據(jù)特征詞的連續(xù)特征值和出現(xiàn)次數(shù)確定,且表征能力參數(shù)分別與所述連續(xù)特征值和所述出現(xiàn)次數(shù)成正相關(guān);
8、其中,針對文本類型的存儲主體,連續(xù)特征值為連續(xù)的若干相同間隔的字段內(nèi),特征詞連續(xù)出現(xiàn)的最大連續(xù)字段數(shù)量與存儲主體包含的總字段數(shù)量的比值;
9、針對視頻或音頻類型的存儲主體,連續(xù)特征值為連續(xù)的若干相同間隔的時段內(nèi),特征詞連續(xù)出現(xiàn)的最大連續(xù)時段數(shù)量與存儲主體包含的總時段數(shù)量的比值。
10、作為支持檢索的數(shù)據(jù)存儲方法的優(yōu)選技術(shù)方案,在所述確定各特征詞對于存儲主體的表征能力參數(shù)中,將特征詞的連續(xù)特征值和特征詞的出現(xiàn)次數(shù)的乘積確定為特征詞對于存儲主體的表征能力參數(shù)。
11、作為支持檢索的數(shù)據(jù)存儲方法的優(yōu)選技術(shù)方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為文本,執(zhí)行以下步驟:
12、統(tǒng)計存儲主體中出現(xiàn)次數(shù)大于一次的詞語;
13、比對統(tǒng)計出的各詞語的出現(xiàn)次數(shù),將排名前預(yù)設(shè)數(shù)量名次的詞語確定為該存儲主體的特征詞。
14、作為支持檢索的數(shù)據(jù)存儲方法的優(yōu)選技術(shù)方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為音頻執(zhí)行以下步驟:
15、對存儲主體進(jìn)行音頻文字識別;
16、統(tǒng)計存儲主體中出現(xiàn)次數(shù)大于一次的詞語;
17、比對統(tǒng)計出的各詞語的出現(xiàn)次數(shù),將排名前預(yù)設(shè)數(shù)量名次的詞語確定為該存儲主體的特征詞。
18、作為支持檢索的數(shù)據(jù)存儲方法的優(yōu)選技術(shù)方案,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為視頻執(zhí)行以下步驟;
19、對存儲主體分別進(jìn)行音頻文字識別和圖像文字識別;
20、統(tǒng)計存儲主體中出現(xiàn)次數(shù)大于一次的詞語;
21、比對統(tǒng)計出的各詞語的出現(xiàn)次數(shù),將排名前預(yù)設(shè)數(shù)量名次的詞語確定為該存儲主體的特征詞。
22、作為支持檢索的數(shù)據(jù)存儲方法的優(yōu)選技術(shù)方案,在所述確定特征詞對于存儲主體的表征能力參數(shù)之后還包括:
23、對存儲主體的特征詞進(jìn)行語義分析,將語義相同的若干特征詞的表征能力參數(shù)均確定為語義相同的各特征詞中的表征能力參數(shù)中的數(shù)值最高的一項。
24、第二方面,本發(fā)明提供了一種索引方法,用于上述方案中的支持檢索的數(shù)據(jù)存儲方法得到的數(shù)據(jù)庫的檢索,包括:
25、確定特征詞與檢索內(nèi)容匹配的存儲主體;
26、讀取對應(yīng)的索引信息表,根據(jù)特征詞對于存儲主體的表征能力參數(shù)確定索引信息對于存儲主體的展示順序。
27、作為索引方法的優(yōu)選技術(shù)方案,根據(jù)特征詞對于存儲主體的表征能力參數(shù)確定索引信息對于存儲主體的展示順序包括:
28、確定各存儲主體與檢索內(nèi)容匹配的特征詞;
29、以各存儲主體與檢索內(nèi)容匹配的特征詞的表征能力參數(shù)之和由大到小的順序作為所述索引信息對于各存儲主體的展示順序。
30、第三方面,本發(fā)明提供一種數(shù)據(jù)存儲系統(tǒng),應(yīng)用上述的支持檢索的數(shù)據(jù)存儲方法進(jìn)行數(shù)據(jù)存儲,包括:
31、數(shù)據(jù)存儲模塊,用于存儲主體的存儲;
32、提取模塊,與所述數(shù)據(jù)存儲模塊連接,用于提取存儲主體的特征詞并統(tǒng)計特征詞的出現(xiàn)次數(shù)和出現(xiàn)節(jié)點;
33、計算模塊,與所述提取模塊連接,用于計算特征詞的連續(xù)特征值和表征能力參數(shù);
34、索引支持模塊,分別與所述提取模塊和所述計算模塊連接,用于生成包括存儲主體的特征詞以及存儲主體的特征詞的表征能力參數(shù)的索引數(shù)據(jù)表并存儲。
35、作為數(shù)據(jù)存儲系統(tǒng)的優(yōu)選技術(shù)方案,所述計算模塊設(shè)有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數(shù)。
36、本發(fā)明的有益效果為:
37、本發(fā)明提供的支持檢索的數(shù)據(jù)存儲方法通過對于表征能力參數(shù)的確定,考慮到了詞語在存儲主體內(nèi)連續(xù)性與詞語對于存儲主體的表征能力的相關(guān)關(guān)系,由于在實際應(yīng)用中,存在特征詞集中出現(xiàn)于某一時段的情況,由于這一情況下特征詞大多僅能表征對應(yīng)時段的內(nèi)容,這使得特征詞的出現(xiàn)次數(shù)的表征性較弱,相比之下,特征詞在若干相鄰的時段連續(xù)出現(xiàn)更具表征性,說明特征詞較大程度地貫穿在存儲主體內(nèi),如此通過出現(xiàn)次數(shù)和連續(xù)特征值確定的表征能力參數(shù)能夠更好的體現(xiàn)特征詞與存儲主體的相關(guān)度,綜上,本申請的數(shù)據(jù)存儲方法能夠在存儲數(shù)據(jù)的同時兼顧對于數(shù)據(jù)的后期檢索,保證了對數(shù)據(jù)庫內(nèi)檢索內(nèi)容的有效索引,進(jìn)而有效避免了對于數(shù)據(jù)無效檢索現(xiàn)象的發(fā)生。
38、進(jìn)一步的,本發(fā)明對于不同類型的存儲主體的連續(xù)特征值分別采用字段與總字段比值和時段和總時段比值的方式進(jìn)行確定,如此設(shè)定能夠使音頻、視頻和文本類型的存儲主體在響應(yīng)檢索時具有良好的統(tǒng)一性,使表征能力參數(shù)對于不同類型的存儲主體具有可比對性,在對于多種文件類型檢索的情況下展示的索引信息準(zhǔn)確可靠,進(jìn)一步保證了對數(shù)據(jù)庫內(nèi)檢索內(nèi)容的有效索引。
1.一種支持檢索的數(shù)據(jù)存儲方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的支持檢索的數(shù)據(jù)存儲方法,其特征在于,在所述確定各特征詞對于存儲主體的表征能力參數(shù)中,將特征詞的連續(xù)特征值和特征詞的出現(xiàn)次數(shù)的乘積確定為特征詞對于存儲主體的表征能力參數(shù)。
3.根據(jù)權(quán)利要求2所述的支持檢索的數(shù)據(jù)存儲方法,其特征在于,在所述確定特征詞對于存儲主體的表征能力參數(shù)之后還包括:
4.根據(jù)權(quán)利要求3所述的支持檢索的數(shù)據(jù)存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為文本,執(zhí)行以下步驟:
5.根據(jù)權(quán)利要求4所述的支持檢索的數(shù)據(jù)存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為音頻執(zhí)行以下步驟:
6.根據(jù)權(quán)利要求5所述的支持檢索的數(shù)據(jù)存儲方法,其特征在于,在排除所述停用詞表包含的詞語的情況下,對于存儲主體中特征詞的確定,響應(yīng)于存儲主體類別為視頻執(zhí)行以下步驟;
7.一種索引方法,用于以權(quán)利要求1至權(quán)利要求6中任一項所述的支持檢索的數(shù)據(jù)存儲方法得到的數(shù)據(jù)庫的檢索,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的索引方法,其特征在于,根據(jù)特征詞對于存儲主體的表征能力參數(shù)確定索引信息對于存儲主體的展示順序包括:
9.一種數(shù)據(jù)存儲系統(tǒng),應(yīng)用權(quán)利要求1至權(quán)利要求6任一項所述的支持檢索的數(shù)據(jù)存儲方法進(jìn)行數(shù)據(jù)存儲,其特征在于,包括:
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)存儲系統(tǒng),其特征在于,所述計算模塊設(shè)有語義分析單元,所述語義分析單元用于確定語義相同的特征詞并刷新語義相同的特征詞的表征能力參數(shù)。