專利名稱:中文信息檢索方法、中文信息檢索引擎及嵌入式終端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種中文信息檢索方法、中文信息檢索 引擎及嵌入式終端。
背景技術(shù):
隨著信息化時(shí)代的到來和發(fā)展步伐的不斷加快,形成了大量的中文信息,人們?cè)?日常工作、生活、學(xué)習(xí)中不得不經(jīng)常面臨如何從海量中文信息中,找到有用信息的問題。為了解決上述問題,科研人員提出了各種中文信息檢索技術(shù),目前,常用的中文信 息檢索技術(shù)包括文本檢索技術(shù),該技術(shù)改進(jìn)和應(yīng)用了三種流行的檢索模型布爾模型、概 率模型和向量空間模型。發(fā)明人在對(duì)現(xiàn)有中文信息檢索技術(shù)進(jìn)行研究和實(shí)踐過程中,發(fā)現(xiàn)現(xiàn)有中文信息檢 索技術(shù),要么在中文信息資源比較龐大的情況下,檢索速度緩慢,檢索的目標(biāo)中文信息中有 很大一部分不是用戶真實(shí)需要的,要么在輸入檢索信息較少情況下,不具備檢索到目標(biāo)中 文信息的能力。因此,亟需提出一種能夠從海量中文信息中快速檢索目標(biāo)中文信息的中文 信息檢索技術(shù)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例要解決的技術(shù)問題是提供一種中文信息檢索方法、中文信息檢索引 擎及嵌入式終端,能夠從海量目標(biāo)中文信息中快速檢索目標(biāo)中文信息。為解決上述技術(shù)問題,本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明實(shí)施例提供了一種中文信息檢索方法,所述方法包括接收檢索關(guān)鍵字的全拼組合,若所述全拼組合是接收的第一個(gè)全拼組合,則從所述全拼組合中提取聲母的首字母及韻母;在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì)應(yīng)的起始偏移量;在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始,檢索所述首字母和韻母構(gòu) 成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;從預(yù)置的檢索索引集中,讀取所述起始偏移量到終止偏移量之間的全拼索引記 錄,每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量;判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼 組合是否相同,如果相同,則根據(jù)所述目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文信息索引集中,檢索目標(biāo)中文 fn息ο優(yōu)選地,上述方法進(jìn)一步包括將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果,添加 到第一檢索結(jié)果集中。優(yōu)選地,若所述全拼組合是第i個(gè)全拼組合,則上述方法進(jìn)一步包括
從第i-Ι檢索結(jié)果集的檢索結(jié)果中,讀取目標(biāo)中文信息全拼組合序列;若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾,則判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j + Ι個(gè)分詞的第一個(gè)全拼 組合序列是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中;其中,i為大于等于2的自然數(shù),j為大于等于1的自然數(shù)。優(yōu)選地,若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的 第k個(gè)全拼組合,則上述方法進(jìn)一步包括判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè)全拼組合是否相同,如果相同,則將 所述檢索結(jié)果添加到第i檢索結(jié)果集中。優(yōu)選地,上述方法進(jìn)一步包括從目標(biāo)中文信息索引集中,讀取目標(biāo)中文信息,對(duì)所述目標(biāo)中文信息進(jìn)行分詞,獲 得η個(gè)分詞;解析構(gòu)成目標(biāo)中文信息每個(gè)漢字的拼音,獲取所述拼音的全拼組合;按照分詞結(jié)果,對(duì)拼音的全拼組合進(jìn)行排列組合,得到η條全拼組合序列,η為大 于等于1的自然數(shù);獲取所述目標(biāo)中文信息在目標(biāo)中文信息索引集中的偏移量;將所述偏移量分別與η條全拼組合序列進(jìn)行組合,得到η條全拼索引記錄;將所述η條全拼索引記錄存入全拼組合序列中首個(gè)全拼組合對(duì)應(yīng)的拼音在檢索 索引集中對(duì)應(yīng)的數(shù)據(jù)簇內(nèi);其中,η是大于等于1的自然數(shù)。本發(fā)明實(shí)施例還提供了一種中文信息檢索引擎,所述引擎包括全拼組合接收單元,用于接收檢索關(guān)鍵字的全拼組合;接收信息記錄單元,用于判斷所述全拼組合接收單元接收的全拼組合是否為第一 個(gè)全拼組合,如果是,則觸發(fā)字母提取單元;字母提取單元,用于從所述全拼組合中提取所述檢索關(guān)鍵字對(duì)應(yīng)拼音的聲母的首 字母及韻母;一級(jí)索引偏移量檢索單元,用于在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì) 應(yīng)的起始偏移量;索引偏移量檢索單元,用于在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開 始,檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;全拼索引記錄讀取單元,用于從預(yù)置的檢索索引集中,讀取所述起始偏移量到終 止偏移量之間的全拼索引記錄,每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目 標(biāo)中文信息偏移量;全拼組合匹配單元,用于判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組 合序列中的第一個(gè)全拼組合是否相同,如果相同,則觸發(fā)目標(biāo)信息第一檢索單元;目標(biāo)信息第一檢索單元,用于根據(jù)所述目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文 信息索引集中,檢索目標(biāo)中文信息。優(yōu)選地,上述引擎進(jìn)一步包括檢索結(jié)果保存單元,用于將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列 作為一條檢索結(jié)果,添加到第一檢索結(jié)果集中。
5
優(yōu)選地,上述引擎進(jìn)一步包括全拼組合序列讀取單元,目標(biāo)信息第二檢索單元;所述接收信息記錄單元,若判斷所述全拼組合接收單元接收的全拼組合是第i個(gè) 全拼組合,則觸發(fā)所述全拼組合序列讀取單元;全拼組合序列讀取單元,用于從第i_l檢索結(jié)果集的檢索結(jié)果中,讀取目標(biāo)中文 信息全拼組合序列;全拼組合位置判斷單元,用于判斷第i_l個(gè)全拼組合在所述目標(biāo)中文信息全拼組 合序列中的位置,若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的 結(jié)尾,則觸發(fā)所述目標(biāo)信息第二檢索單元;所述目標(biāo)信息第二檢索單元,用于判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合 序列中第j+Ι個(gè)分詞的第一個(gè)全拼組合序列是否相同,如果相同,則將所述檢索結(jié)果添加 到第i檢索結(jié)果集中;其中,i為大于等于2的自然數(shù),j為大于等于1的自然數(shù)。優(yōu)選地,上述引擎進(jìn)一步包括目標(biāo)信息第三檢索單元;所屬全拼組合位置判斷單元,若判斷得到第i_l個(gè)全拼組合是所述目標(biāo)中文信息 全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合,則觸發(fā)所述目標(biāo)信息第三檢索單元;所述目標(biāo)信息第三檢索單元,用于判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè) 全拼組合是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中;其中,k為大于 等于1的自然數(shù)。本發(fā)明實(shí)施例還提供了一種嵌入式終端包括前文所述任意一種中文信息檢索引擎。上述技術(shù)方案具有如下有益效果本發(fā)明實(shí)施例提供了一種中文信息檢索技術(shù),該檢索技術(shù)以預(yù)先構(gòu)建的4種檢索 索引目標(biāo)中文信息索引集,檢索索引,一級(jí)檢索索引及二級(jí)檢索索引,作為目標(biāo)中文信息 的檢索基礎(chǔ),實(shí)現(xiàn)了從海量目標(biāo)中文信息中快速檢索目標(biāo)中文信息。
圖1為本發(fā)明實(shí)施例一提供的中文信息檢索方法流程圖;圖2為本發(fā)明實(shí)施例二提供的中文信息檢索方法流程圖;圖3為本發(fā)明實(shí)施例提供的檢索索引集的構(gòu)建方法流程圖;圖4為本發(fā)明實(shí)施例提供的中文信息檢索引擎的組成示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案、及優(yōu)點(diǎn)更加清楚明白,以下首先對(duì)本發(fā)明提 供的技術(shù)方案采用的技術(shù)術(shù)語進(jìn)行介紹。第一、全拼組合。一個(gè)漢字的讀音(或拼音)是由“聲母+韻母”共同組成的,本 發(fā)明所稱全拼組合是指“聲母”和“韻母”的組合,不過全拼組合中的“聲母”和“韻母”均被 賦予了新的對(duì)應(yīng)值(或宏定義)。請(qǐng)參見漢字聲母表1,該表記錄了 23個(gè)聲母的對(duì)應(yīng)值和數(shù)值,表1所示對(duì)應(yīng)值及數(shù) 值僅為一種舉例,不應(yīng)視為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種中文信息檢索方法,其特征在于,所述方法包括接收檢索關(guān)鍵字的全拼組合,若所述全拼組合是接收的第一個(gè)全拼組合,則 從所述全拼組合中提取聲母的首字母及韻母; 在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì)應(yīng)的起始偏移量; 在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始,檢索所述首字母和韻母構(gòu)成的 拼音對(duì)應(yīng)的起始偏移量和終止偏移量;從預(yù)置的檢索索引集中,讀取所述起始偏移量到終止偏移量之間的全拼索引記錄,每 條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量;判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合 是否相同,如果相同,則根據(jù)所述目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文信息索引集中,檢索目標(biāo)中文信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果,添加到第 一檢索結(jié)果集中。
3.如權(quán)利要求2所述的方法,其特征在于,若所述全拼組合是第i個(gè)全拼組合,則所述 方法進(jìn)一步包括從第i_l檢索結(jié)果集的檢索結(jié)果中,讀取目標(biāo)中文信息全拼組合序列; 若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾,則 判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j+ι個(gè)分詞的第一個(gè)全拼組合 序列是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中; 其中,i為大于等于2的自然數(shù),j為大于等于1的自然數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全 拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合,則所述方法進(jìn)一步包括判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè)全拼組合是否相同,如果相同,則將所述 檢索結(jié)果添加到第i檢索結(jié)果集中。
5.如權(quán)利要求1-4中任一項(xiàng)權(quán)利要求所述的方法,其特征在于,所述方法進(jìn)一步包括 從目標(biāo)中文信息索引集中,讀取目標(biāo)中文信息,對(duì)所述目標(biāo)中文信息進(jìn)行分詞,獲得η個(gè)分詞;解析構(gòu)成目標(biāo)中文信息每個(gè)漢字的拼音,獲取所述拼音的全拼組合; 按照分詞結(jié)果,對(duì)拼音的全拼組合進(jìn)行排列組合,得到η條全拼組合序列,η為大于等 于1的自然數(shù);獲取所述目標(biāo)中文信息在目標(biāo)中文信息索引集中的偏移量; 將所述偏移量分別與η條全拼組合序列進(jìn)行組合,得到η條全拼索引記錄; 將所述η條全拼索引記錄存入全拼組合序列中首個(gè)全拼組合對(duì)應(yīng)的拼音在檢索索引 集中對(duì)應(yīng)的數(shù)據(jù)簇內(nèi);其中,η是大于等于1的自然數(shù)。
6.一種中文信息檢索引擎,其特征在于,所述引擎包括 全拼組合接收單元,用于接收檢索關(guān)鍵字的全拼組合;接收信息記錄單元,用于判斷所述全拼組合接收單元接收的全拼組合是否為第一個(gè)全 拼組合,如果是,則觸發(fā)字母提取單元;字母提取單元,用于從所述全拼組合中提取所述檢索關(guān)鍵字對(duì)應(yīng)拼音的聲母的首字母 及韻母;一級(jí)索引偏移量檢索單元,用于在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì)應(yīng)的 起始偏移量;索引偏移量檢索單元,用于在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始,檢 索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;全拼索引記錄讀取單元,用于從預(yù)置的檢索索引集中,讀取所述起始偏移量到終止偏 移量之間的全拼索引記錄,每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中 文信息偏移量;全拼組合匹配單元,用于判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序 列中的第一個(gè)全拼組合是否相同,如果相同,則觸發(fā)目標(biāo)信息第一檢索單元;目標(biāo)信息第一檢索單元,用于根據(jù)所述目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文信息 索引集中,檢索目標(biāo)中文信息。
7.如權(quán)利要求6所述的引擎,其特征在于,所述引擎進(jìn)一步包括檢索結(jié)果保存單元,用于將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為 一條檢索結(jié)果,添加到第一檢索結(jié)果集中。
8.如權(quán)利要求7所述的引擎,其特征在于,所述引擎進(jìn)一步包括全拼組合序列讀取單 元,目標(biāo)信息第二檢索單元;所述接收信息記錄單元,若判斷所述全拼組合接收單元接收的全拼組合是第i個(gè)全拼 組合,則觸發(fā)所述全拼組合序列讀取單元;全拼組合序列讀取單元,用于從第i_l檢索結(jié)果集的檢索結(jié)果中,讀取目標(biāo)中文信息 全拼組合序列;全拼組合位置判斷單元,用于判斷第i_l個(gè)全拼組合在所述目標(biāo)中文信息全拼組合序 列中的位置,若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾, 則觸發(fā)所述目標(biāo)信息第二檢索單元;所述目標(biāo)信息第二檢索單元,用于判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列 中第j+Ι個(gè)分詞的第一個(gè)全拼組合序列是否相同,如果相同,則將所述檢索結(jié)果添加到第i 檢索結(jié)果集中;其中,i為大于等于2的自然數(shù),j為大于等于1的自然數(shù)。
9.如權(quán)利要求8所述的引擎,其特征在于,進(jìn)一步包括目標(biāo)信息第三檢索單元;所屬全拼組合位置判斷單元,若判斷得到第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼 組合序列中第j個(gè)分詞的第k個(gè)全拼組合,則觸發(fā)所述目標(biāo)信息第三檢索單元;所述目標(biāo)信息第三檢索單元,用于判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+1個(gè)全拼 組合是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中;其中,k為大于等于 1的自然數(shù)。
10.一種嵌入式終端包括如權(quán)利要求6-9中任一項(xiàng)權(quán)利要求所述的中文信息檢索引擎。
全文摘要
本發(fā)明實(shí)施例提供了一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端。所述方法包括接收檢索關(guān)鍵字的全拼組合,從全拼組合中提取聲母的首字母及韻母;在預(yù)置的二級(jí)檢索索引集中,檢索首字母對(duì)應(yīng)的起始偏移量;在一級(jí)檢索索引集中起始偏移量對(duì)應(yīng)的位置開始,檢索首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;從預(yù)置的檢索索引集中,讀取起始偏移量到終止偏移量之間的全拼索引記錄;判斷檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同,如果相同,則根據(jù)目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文信息索引集中,檢索目標(biāo)中文信息。本發(fā)明提供的檢索技術(shù)能夠從海量目標(biāo)中文信息中快速準(zhǔn)確檢索目標(biāo)中文信息。
文檔編號(hào)G06F17/30GK102033891SQ20091023559
公開日2011年4月27日 申請(qǐng)日期2009年9月29日 優(yōu)先權(quán)日2009年9月29日
發(fā)明者吳躍進(jìn) 申請(qǐng)人:高德軟件有限公司