中文信息檢索方法、中文信息檢索引擎及嵌入式終端的制作方法

文檔序號(hào)：6584397閱讀：561來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：中文信息檢索方法、中文信息檢索引擎及嵌入式終端的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域，尤其涉及一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端。
背景技術(shù)：
隨著信息化時(shí)代的到來和發(fā)展步伐的不斷加快，形成了大量的中文信息，人們?cè)?日常工作、生活、學(xué)習(xí)中不得不經(jīng)常面臨如何從海量中文信息中，找到有用信息的問題。為了解決上述問題，科研人員提出了各種中文信息檢索技術(shù)，目前，常用的中文信息檢索技術(shù)包括文本檢索技術(shù)，該技術(shù)改進(jìn)和應(yīng)用了三種流行的檢索模型布爾模型、概率模型和向量空間模型。發(fā)明人在對(duì)現(xiàn)有中文信息檢索技術(shù)進(jìn)行研究和實(shí)踐過程中，發(fā)現(xiàn)現(xiàn)有中文信息檢索技術(shù)，要么在中文信息資源比較龐大的情況下，檢索速度緩慢，檢索的目標(biāo)中文信息中有很大一部分不是用戶真實(shí)需要的，要么在輸入檢索信息較少情況下，不具備檢索到目標(biāo)中文信息的能力。因此，亟需提出一種能夠從海量中文信息中快速檢索目標(biāo)中文信息的中文信息檢索技術(shù)。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例要解決的技術(shù)問題是提供一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端，能夠從海量目標(biāo)中文信息中快速檢索目標(biāo)中文信息。為解決上述技術(shù)問題，本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明實(shí)施例提供了一種中文信息檢索方法，所述方法包括接收檢索關(guān)鍵字的全拼組合，若所述全拼組合是接收的第一個(gè)全拼組合，則從所述全拼組合中提取聲母的首字母及韻母；在預(yù)置的二級(jí)檢索索引集中，檢索所述首字母對(duì)應(yīng)的起始偏移量；在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始，檢索所述首字母和韻母構(gòu) 成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量；從預(yù)置的檢索索引集中，讀取所述起始偏移量到終止偏移量之間的全拼索引記錄，每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量；判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同，如果相同，則根據(jù)所述目標(biāo)中文信息偏移量，從預(yù)置的目標(biāo)中文信息索引集中，檢索目標(biāo)中文 fn息ο優(yōu)選地，上述方法進(jìn)一步包括將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果，添加到第一檢索結(jié)果集中。優(yōu)選地，若所述全拼組合是第i個(gè)全拼組合，則上述方法進(jìn)一步包括
從第i-Ι檢索結(jié)果集的檢索結(jié)果中，讀取目標(biāo)中文信息全拼組合序列；若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾，則判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j + Ι個(gè)分詞的第一個(gè)全拼組合序列是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中；其中，i為大于等于2的自然數(shù)，j為大于等于1的自然數(shù)。優(yōu)選地，若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合，則上述方法進(jìn)一步包括判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè)全拼組合是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中。優(yōu)選地，上述方法進(jìn)一步包括從目標(biāo)中文信息索引集中，讀取目標(biāo)中文信息，對(duì)所述目標(biāo)中文信息進(jìn)行分詞，獲得η個(gè)分詞；解析構(gòu)成目標(biāo)中文信息每個(gè)漢字的拼音，獲取所述拼音的全拼組合；按照分詞結(jié)果，對(duì)拼音的全拼組合進(jìn)行排列組合，得到η條全拼組合序列，η為大于等于1的自然數(shù)；獲取所述目標(biāo)中文信息在目標(biāo)中文信息索引集中的偏移量；將所述偏移量分別與η條全拼組合序列進(jìn)行組合，得到η條全拼索引記錄；將所述η條全拼索引記錄存入全拼組合序列中首個(gè)全拼組合對(duì)應(yīng)的拼音在檢索索引集中對(duì)應(yīng)的數(shù)據(jù)簇內(nèi)；其中，η是大于等于1的自然數(shù)。本發(fā)明實(shí)施例還提供了一種中文信息檢索引擎，所述引擎包括全拼組合接收單元，用于接收檢索關(guān)鍵字的全拼組合；接收信息記錄單元，用于判斷所述全拼組合接收單元接收的全拼組合是否為第一個(gè)全拼組合，如果是，則觸發(fā)字母提取單元；字母提取單元，用于從所述全拼組合中提取所述檢索關(guān)鍵字對(duì)應(yīng)拼音的聲母的首字母及韻母；一級(jí)索引偏移量檢索單元，用于在預(yù)置的二級(jí)檢索索引集中，檢索所述首字母對(duì) 應(yīng)的起始偏移量；索引偏移量檢索單元，用于在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始，檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量；全拼索引記錄讀取單元，用于從預(yù)置的檢索索引集中，讀取所述起始偏移量到終止偏移量之間的全拼索引記錄，每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量；全拼組合匹配單元，用于判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同，如果相同，則觸發(fā)目標(biāo)信息第一檢索單元；目標(biāo)信息第一檢索單元，用于根據(jù)所述目標(biāo)中文信息偏移量，從預(yù)置的目標(biāo)中文信息索引集中，檢索目標(biāo)中文信息。優(yōu)選地，上述引擎進(jìn)一步包括檢索結(jié)果保存單元，用于將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果，添加到第一檢索結(jié)果集中。
5
優(yōu)選地，上述引擎進(jìn)一步包括全拼組合序列讀取單元，目標(biāo)信息第二檢索單元；所述接收信息記錄單元，若判斷所述全拼組合接收單元接收的全拼組合是第i個(gè) 全拼組合，則觸發(fā)所述全拼組合序列讀取單元；全拼組合序列讀取單元，用于從第i_l檢索結(jié)果集的檢索結(jié)果中，讀取目標(biāo)中文信息全拼組合序列；全拼組合位置判斷單元，用于判斷第i_l個(gè)全拼組合在所述目標(biāo)中文信息全拼組合序列中的位置，若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾，則觸發(fā)所述目標(biāo)信息第二檢索單元；所述目標(biāo)信息第二檢索單元，用于判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j+Ι個(gè)分詞的第一個(gè)全拼組合序列是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中；其中，i為大于等于2的自然數(shù)，j為大于等于1的自然數(shù)。優(yōu)選地，上述引擎進(jìn)一步包括目標(biāo)信息第三檢索單元；所屬全拼組合位置判斷單元，若判斷得到第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合，則觸發(fā)所述目標(biāo)信息第三檢索單元；所述目標(biāo)信息第三檢索單元，用于判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè) 全拼組合是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中；其中，k為大于等于1的自然數(shù)。本發(fā)明實(shí)施例還提供了一種嵌入式終端包括前文所述任意一種中文信息檢索引擎。上述技術(shù)方案具有如下有益效果本發(fā)明實(shí)施例提供了一種中文信息檢索技術(shù)，該檢索技術(shù)以預(yù)先構(gòu)建的4種檢索索引目標(biāo)中文信息索引集，檢索索引，一級(jí)檢索索引及二級(jí)檢索索引，作為目標(biāo)中文信息的檢索基礎(chǔ)，實(shí)現(xiàn)了從海量目標(biāo)中文信息中快速檢索目標(biāo)中文信息。

圖1為本發(fā)明實(shí)施例一提供的中文信息檢索方法流程圖；圖2為本發(fā)明實(shí)施例二提供的中文信息檢索方法流程圖；圖3為本發(fā)明實(shí)施例提供的檢索索引集的構(gòu)建方法流程圖；圖4為本發(fā)明實(shí)施例提供的中文信息檢索引擎的組成示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案、及優(yōu)點(diǎn)更加清楚明白，以下首先對(duì)本發(fā)明提供的技術(shù)方案采用的技術(shù)術(shù)語進(jìn)行介紹。第一、全拼組合。一個(gè)漢字的讀音(或拼音)是由“聲母+韻母”共同組成的，本發(fā)明所稱全拼組合是指“聲母”和“韻母”的組合，不過全拼組合中的“聲母”和“韻母”均被賦予了新的對(duì)應(yīng)值(或宏定義)。請(qǐng)參見漢字聲母表1，該表記錄了 23個(gè)聲母的對(duì)應(yīng)值和數(shù)值，表1所示對(duì)應(yīng)值及數(shù) 值僅為一種舉例，不應(yīng)視為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種中文信息檢索方法，其特征在于，所述方法包括接收檢索關(guān)鍵字的全拼組合，若所述全拼組合是接收的第一個(gè)全拼組合，則從所述全拼組合中提取聲母的首字母及韻母；在預(yù)置的二級(jí)檢索索引集中，檢索所述首字母對(duì)應(yīng)的起始偏移量；在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始，檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量；從預(yù)置的檢索索引集中，讀取所述起始偏移量到終止偏移量之間的全拼索引記錄，每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量；判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同，如果相同，則根據(jù)所述目標(biāo)中文信息偏移量，從預(yù)置的目標(biāo)中文信息索引集中，檢索目標(biāo)中文信息。
2.如權(quán)利要求1所述的方法，其特征在于，所述方法進(jìn)一步包括將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果，添加到第一檢索結(jié)果集中。
3.如權(quán)利要求2所述的方法，其特征在于，若所述全拼組合是第i個(gè)全拼組合，則所述方法進(jìn)一步包括從第i_l檢索結(jié)果集的檢索結(jié)果中，讀取目標(biāo)中文信息全拼組合序列；若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾，則判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j+ι個(gè)分詞的第一個(gè)全拼組合序列是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中；其中，i為大于等于2的自然數(shù)，j為大于等于1的自然數(shù)。
4.如權(quán)利要求3所述的方法，其特征在于，若第i-Ι個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合，則所述方法進(jìn)一步包括判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+Ι個(gè)全拼組合是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中。
5.如權(quán)利要求1-4中任一項(xiàng)權(quán)利要求所述的方法，其特征在于，所述方法進(jìn)一步包括從目標(biāo)中文信息索引集中，讀取目標(biāo)中文信息，對(duì)所述目標(biāo)中文信息進(jìn)行分詞，獲得η個(gè)分詞；解析構(gòu)成目標(biāo)中文信息每個(gè)漢字的拼音，獲取所述拼音的全拼組合；按照分詞結(jié)果，對(duì)拼音的全拼組合進(jìn)行排列組合，得到η條全拼組合序列，η為大于等于1的自然數(shù)；獲取所述目標(biāo)中文信息在目標(biāo)中文信息索引集中的偏移量；將所述偏移量分別與η條全拼組合序列進(jìn)行組合，得到η條全拼索引記錄；將所述η條全拼索引記錄存入全拼組合序列中首個(gè)全拼組合對(duì)應(yīng)的拼音在檢索索引集中對(duì)應(yīng)的數(shù)據(jù)簇內(nèi)；其中，η是大于等于1的自然數(shù)。
6.一種中文信息檢索引擎，其特征在于，所述引擎包括全拼組合接收單元，用于接收檢索關(guān)鍵字的全拼組合；接收信息記錄單元，用于判斷所述全拼組合接收單元接收的全拼組合是否為第一個(gè)全拼組合，如果是，則觸發(fā)字母提取單元；字母提取單元，用于從所述全拼組合中提取所述檢索關(guān)鍵字對(duì)應(yīng)拼音的聲母的首字母及韻母；一級(jí)索引偏移量檢索單元，用于在預(yù)置的二級(jí)檢索索引集中，檢索所述首字母對(duì)應(yīng)的起始偏移量；索引偏移量檢索單元，用于在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始，檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量；全拼索引記錄讀取單元，用于從預(yù)置的檢索索引集中，讀取所述起始偏移量到終止偏移量之間的全拼索引記錄，每條全拼索引記錄包括目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量；全拼組合匹配單元，用于判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同，如果相同，則觸發(fā)目標(biāo)信息第一檢索單元；目標(biāo)信息第一檢索單元，用于根據(jù)所述目標(biāo)中文信息偏移量，從預(yù)置的目標(biāo)中文信息索引集中，檢索目標(biāo)中文信息。
7.如權(quán)利要求6所述的引擎，其特征在于，所述引擎進(jìn)一步包括檢索結(jié)果保存單元，用于將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果，添加到第一檢索結(jié)果集中。
8.如權(quán)利要求7所述的引擎，其特征在于，所述引擎進(jìn)一步包括全拼組合序列讀取單元，目標(biāo)信息第二檢索單元；所述接收信息記錄單元，若判斷所述全拼組合接收單元接收的全拼組合是第i個(gè)全拼組合，則觸發(fā)所述全拼組合序列讀取單元；全拼組合序列讀取單元，用于從第i_l檢索結(jié)果集的檢索結(jié)果中，讀取目標(biāo)中文信息全拼組合序列；全拼組合位置判斷單元，用于判斷第i_l個(gè)全拼組合在所述目標(biāo)中文信息全拼組合序列中的位置，若第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾，則觸發(fā)所述目標(biāo)信息第二檢索單元；所述目標(biāo)信息第二檢索單元，用于判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j+Ι個(gè)分詞的第一個(gè)全拼組合序列是否相同，如果相同，則將所述檢索結(jié)果添加到第i 檢索結(jié)果集中；其中，i為大于等于2的自然數(shù)，j為大于等于1的自然數(shù)。
9.如權(quán)利要求8所述的引擎，其特征在于，進(jìn)一步包括目標(biāo)信息第三檢索單元；所屬全拼組合位置判斷單元，若判斷得到第i_l個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合，則觸發(fā)所述目標(biāo)信息第三檢索單元；所述目標(biāo)信息第三檢索單元，用于判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+1個(gè)全拼組合是否相同，如果相同，則將所述檢索結(jié)果添加到第i檢索結(jié)果集中；其中，k為大于等于 1的自然數(shù)。
10.一種嵌入式終端包括如權(quán)利要求6-9中任一項(xiàng)權(quán)利要求所述的中文信息檢索引擎。
全文摘要
本發(fā)明實(shí)施例提供了一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端。所述方法包括接收檢索關(guān)鍵字的全拼組合，從全拼組合中提取聲母的首字母及韻母；在預(yù)置的二級(jí)檢索索引集中，檢索首字母對(duì)應(yīng)的起始偏移量；在一級(jí)檢索索引集中起始偏移量對(duì)應(yīng)的位置開始，檢索首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量；從預(yù)置的檢索索引集中，讀取起始偏移量到終止偏移量之間的全拼索引記錄；判斷檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同，如果相同，則根據(jù)目標(biāo)中文信息偏移量，從預(yù)置的目標(biāo)中文信息索引集中，檢索目標(biāo)中文信息。本發(fā)明提供的檢索技術(shù)能夠從海量目標(biāo)中文信息中快速準(zhǔn)確檢索目標(biāo)中文信息。
文檔編號(hào)G06F17/30GK102033891SQ20091023559
公開日2011年4月27日申請(qǐng)日期2009年9月29日優(yōu)先權(quán)日2009年9月29日
發(fā)明者吳躍進(jìn) 申請(qǐng)人:高德軟件有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳躍進(jìn)
技術(shù)所有人：高德軟件有限公司
我是此專利的發(fā)明人

上一篇：基于Unicode的跨平臺(tái)蒙古文顯示及智能輸入方法
上一篇：基于建筑圖紙的中國古代建筑過程建模方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

搜索引擎信息檢索實(shí)踐相關(guān)技術(shù)

信息檢索與搜索引擎相關(guān)技術(shù)

信息檢索相關(guān)技術(shù)

excel信息檢索相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

中文信息檢索方法、中文信息檢索引擎及嵌入式終端的制作方法

中文信息檢索方法、中文信息檢索引擎及嵌入式終端的制作方法