一種博客數(shù)據(jù)搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種博客數(shù)據(jù)搜索方法及系統(tǒng),其中,所述博客數(shù)據(jù)搜索方法,包括:根據(jù)博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù),在倒排數(shù)據(jù)中添加時(shí)間戳跳表建立數(shù)據(jù)索引;接收微博數(shù)據(jù)檢索請(qǐng)求;接收檢索指令,根據(jù)各時(shí)間段采樣情況和每個(gè)檢索詞在每個(gè)時(shí)間段內(nèi)的文章數(shù)計(jì)算出所述時(shí)間段數(shù)據(jù)的總量,并給出各時(shí)間段博客數(shù)據(jù)的分布情況。本發(fā)明實(shí)施例的博客數(shù)據(jù)搜索方法及系統(tǒng)在博客數(shù)據(jù)建立數(shù)據(jù)索引,通過數(shù)據(jù)索引使檢索更為快捷和方便,保證了檢索的快速性及完整性,在不增加額外服務(wù)器的情況下可以方便、快捷的得到博客數(shù)據(jù)分布。
【專利說明】一種博客數(shù)據(jù)搜索方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是涉及一種博客數(shù)據(jù)搜索方法及系統(tǒng)。
【背景技術(shù)】
[0002]近年來,以Internet為核心的現(xiàn)代網(wǎng)絡(luò)技術(shù)和通信技術(shù)得到快速發(fā)展和廣泛應(yīng)用,其中,博客作為一種網(wǎng)絡(luò)交流互動(dòng)工具受到廣泛的使用。博客特別是微博由于使用人數(shù)眾多,信息量大,每天產(chǎn)生上億的數(shù)據(jù),現(xiàn)有技術(shù)中由于受限于檢索服務(wù)器的數(shù)量以及龐大的數(shù)據(jù),無(wú)法獲取全部的博客數(shù)據(jù)進(jìn)行檢索,造成檢索或者統(tǒng)計(jì)結(jié)果不準(zhǔn)確。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供了一種博客數(shù)據(jù)搜索方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中受限于檢索服務(wù)器的數(shù)量以及龐大的數(shù)據(jù),無(wú)法獲取全部的博客數(shù)據(jù)進(jìn)行檢索,造成檢索或者統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題。
[0004]本發(fā)明的目的及解決其技術(shù)問題是采用以下技術(shù)方案來實(shí)現(xiàn)的。
[0005]本發(fā)明提供一種博客數(shù)據(jù)搜索方法,包括:
[0006]根據(jù)博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù),在倒排數(shù)據(jù)中添加時(shí)間戳跳表建立數(shù)據(jù)索引;
[0007]接收微博數(shù)據(jù)檢索請(qǐng)求;
`[0008]接收檢索指令,根據(jù)各時(shí)間段采樣情況和每個(gè)檢索詞在每個(gè)時(shí)間段內(nèi)的文章數(shù)計(jì)算出所述時(shí)間段數(shù)據(jù)的總量,并給出各時(shí)間段博客數(shù)據(jù)的分布情況。
[0009]本發(fā)明還提供一種博客數(shù)據(jù)搜索系統(tǒng),包括:
[0010]至少一建索引模塊,用于根據(jù)博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù),在倒排數(shù)據(jù)中添加時(shí)間戳跳表建立數(shù)據(jù)索引;
[0011]代理模塊,用于接收搜索需求并產(chǎn)生相應(yīng)的檢索指令;
[0012]至少一檢索模塊:用于接收代理模塊發(fā)送的檢索指令,調(diào)用建索引模塊中的數(shù)據(jù)進(jìn)行檢索,并根據(jù)各時(shí)間段采樣情況和每個(gè)檢索詞在每個(gè)時(shí)間段內(nèi)的文章數(shù)計(jì)算出所述時(shí)間段數(shù)據(jù)的總量,給出各時(shí)間段博客數(shù)據(jù)的分布情況。
[0013]本發(fā)明的技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:本發(fā)明實(shí)施例的博客數(shù)據(jù)搜索方法及系統(tǒng)在博客數(shù)據(jù)建立數(shù)據(jù)索引,通過數(shù)據(jù)索引使檢索更為快捷和方便,保證了檢索的快速性及完整性,在不增加額外服務(wù)器的情況下可以方便、快捷的得到博客數(shù)據(jù)分布。
[0014]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說明如下。
【專利附圖】
【附圖說明】
[0015]附圖1是本發(fā)明實(shí)施例的博客數(shù)據(jù)搜索系統(tǒng)的結(jié)構(gòu)示意圖;[0016]附圖2是本發(fā)明第一實(shí)施例的博客數(shù)據(jù)搜索方法的結(jié)構(gòu)示意圖;
[0017]附圖3是本發(fā)明第二實(shí)施例的博客數(shù)據(jù)搜索方法的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018]為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的用戶原創(chuàng)內(nèi)容的推薦方法及推薦裝置其【具體實(shí)施方式】、方法、步驟、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如下。
[0019]有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點(diǎn)及功效,在以下配合參考圖式的較佳實(shí)施例的詳細(xì)說明中將可清楚呈現(xiàn)。通過【具體實(shí)施方式】的說明,當(dāng)可對(duì)本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖式僅是提供參考與說明之用,并非用來對(duì)本發(fā)明加以限制。
[0020]圖1是本發(fā)明第一實(shí)施例的博客數(shù)據(jù)搜索方法的流程圖。如圖2所示,本發(fā)明第一實(shí)施例的博客數(shù)據(jù)搜索方法包括以下步驟:
[0021]步驟110:根據(jù)博客數(shù)據(jù)建立數(shù)據(jù)索引;
[0022]在步驟110中,在博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù)中添加時(shí)間戳跳表以建立數(shù)據(jù)索引。其中,可以按照博客數(shù)據(jù)發(fā)表時(shí)間逆序的順序生成倒排數(shù)據(jù),另外,由于博客內(nèi)容在時(shí)新性方面比較敏感,也可以按照博客數(shù)據(jù)生成時(shí)間進(jìn)行排序;時(shí)間戳跳表可以添加在倒排數(shù)據(jù)的頭部,通過時(shí)間戳跳表,可以根據(jù)用戶輸入的檢索需求直接跳到可能取到結(jié)果的塊操作,具體的數(shù)據(jù)索引倒排頭部的部分格式如下所示:
【權(quán)利要求】
1.一種博客數(shù)據(jù)搜索方法,包括: 根據(jù)博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù),在倒排數(shù)據(jù)中添加時(shí)間戳跳表建立數(shù)據(jù)索引; 接收微博數(shù)據(jù)檢索請(qǐng)求; 接收檢索指令,根據(jù)各時(shí)間段采樣情況和每個(gè)檢索詞在每個(gè)時(shí)間段內(nèi)的文章數(shù)計(jì)算出所述時(shí)間段數(shù)據(jù)的總量,并給出各時(shí)間段博客數(shù)據(jù)的分布情況。
2.根據(jù)權(quán)利要求1所述的博客數(shù)據(jù)搜索方法,其特征在于,所述倒排數(shù)據(jù)按照博客數(shù)據(jù)發(fā)表或生成時(shí)間逆序的順序生成,所述時(shí)間戳跳表添加在倒排數(shù)據(jù)的頭部。
3.根據(jù)權(quán)利要求2所述的博客數(shù)據(jù)搜索方法,其特征在于,所述時(shí)間戳跳表為每個(gè)倒排塊最后一篇文章的生成時(shí)間戳,所述時(shí)間戳跳表添加在倒排數(shù)據(jù)的頭部。
4.根據(jù)權(quán)利要求2或3所述的博客數(shù)據(jù)搜索方法,其特征在于,所述接收微博數(shù)據(jù)檢索請(qǐng)求步驟后還包括:判斷檢索請(qǐng)求是否是請(qǐng)求博客數(shù)據(jù)分布的檢索,如果是請(qǐng)求博客數(shù)據(jù)分布的檢索,獲取數(shù)據(jù)索引并確定進(jìn)行檢索的檢索模塊,根據(jù)檢索請(qǐng)求跳轉(zhuǎn)到包含符合條件數(shù)據(jù)的倒排塊,如果不是請(qǐng)求博客數(shù)據(jù)分布的檢索,則根據(jù)檢索請(qǐng)求的檢索詞進(jìn)行檢索。
5.根據(jù)權(quán)利要求4所述的博客數(shù)據(jù)搜索方法,其特征在于,所述接收檢索指令,調(diào)用數(shù)據(jù)索引進(jìn)行檢索步驟后還包括:判斷是否所有的時(shí)間段都采樣到,如果都采樣到,統(tǒng)計(jì)檢索結(jié)果并返回博客數(shù)據(jù)分布;否則重新獲取數(shù)據(jù)索引,根據(jù)檢索請(qǐng)求跳轉(zhuǎn)到包含符合條件數(shù)據(jù)的倒排塊。
6.—種博客數(shù)據(jù)搜索系統(tǒng),包括: 至少一建索引模塊,用于根據(jù)博客數(shù)據(jù)發(fā)表或生成時(shí)間生成倒排數(shù)據(jù),在倒排數(shù)據(jù)中添加時(shí)間戳跳表建立數(shù)據(jù)索引; 代理模塊,用于接收搜索需求并產(chǎn)生相應(yīng)的檢索指令; 至少一檢索模塊:用于接收代理模塊發(fā)送的檢索指令,調(diào)用建索引模塊中的數(shù)據(jù)進(jìn)行檢索,并根據(jù)各時(shí)間段采樣情況和每個(gè)檢索詞在每個(gè)時(shí)間段內(nèi)的文章數(shù)計(jì)算出所述時(shí)間段數(shù)據(jù)的總量,給出各時(shí)間段博客數(shù)據(jù)的分布情況。
7.根據(jù)權(quán)利要求6所述的博客數(shù)據(jù)搜索系統(tǒng),其特征在于,所述倒排數(shù)據(jù)按照博客數(shù)據(jù)發(fā)表或生成時(shí)間逆序的順序生成,所述時(shí)間戳跳表添加在倒排數(shù)據(jù)的頭部。
8.根據(jù)權(quán)利要求7所述的博客數(shù)據(jù)搜索系統(tǒng),其特征在于,所述時(shí)間戳跳表包括至少一個(gè)時(shí)間數(shù)組,每個(gè)數(shù)組元素均為每個(gè)倒排塊最后一篇文章生成的時(shí)間戳。
9.根據(jù)權(quán)利要求7或8所述的博客數(shù)據(jù)搜索系統(tǒng),其特征在于,所述倒排數(shù)據(jù)按照博客數(shù)據(jù)發(fā)表時(shí)間或博客數(shù)據(jù)生成時(shí)間逆序的順序生成。
10.根據(jù)權(quán)利要求7或8所述的博客數(shù)據(jù)搜索系統(tǒng),其特征在于,所述檢索模塊調(diào)用建索引模塊中的數(shù)據(jù)進(jìn)行檢索具體為:所述檢索模塊根據(jù)檢索請(qǐng)求所要請(qǐng)求的時(shí)間段,根據(jù)時(shí)間戳跳表跳轉(zhuǎn)到可能歸并出符合要求的結(jié)果的倒排塊,根據(jù)時(shí)間數(shù)組采樣情況和檢索詞出現(xiàn)數(shù)統(tǒng)計(jì)搜素結(jié)果。
【文檔編號(hào)】G06F17/30GK103778129SQ201210397767
【公開日】2014年5月7日 申請(qǐng)日期:2012年10月18日 優(yōu)先權(quán)日:2012年10月18日
【發(fā)明者】王佳強(qiáng) 申請(qǐng)人:騰訊科技(深圳)有限公司