国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數據查詢系統(tǒng)及方法

      文檔序號:6610714閱讀:240來源:國知局
      專利名稱:數據查詢系統(tǒng)及方法
      技術領域
      本發(fā)明涉及搜索引擎領域,更具體地涉及一種數據查詢系統(tǒng)及方法。
      背景技術
      搜索引擎系統(tǒng)是一種對信息資源進行搜集,并在對信息進行處理和組織之后,為用戶提供信息查詢的系統(tǒng)。用戶可以輸入想要查詢的內容,搜索引擎系統(tǒng)根據用戶的輸入在海量信息中快速準確地定位用戶需要的信息,并將搜索結果返回給用戶。
      目前,搜索引擎在進行用戶輸入串的查詢分析時,一般采取以下幾種方式目錄搜索方式,采用系統(tǒng)預置搜索詞的方式,用戶通過目錄分級選擇,選擇關鍵詞;直接將用戶輸入作為關鍵字進行查詢;以及將用戶的查詢結果按照詞典進行分詞后,將分詞結果作為關鍵字進行查詢。
      上述幾種方式存在以下缺陷1)如果由用戶選擇系統(tǒng)事先預置的關鍵詞,所選擇的內容有限,不能滿足各種用戶需求。
      2)如果采取目錄方式選擇關鍵詞,由于分類眾多、關鍵詞眾多,用戶選擇需要的關鍵詞比較費時。
      3)如果直接對用戶輸入關鍵字進行查詢,則要求用戶描述特別簡潔,清晰。而由于搜索引擎面對的是海量數據,數據的來源眾多,結構多樣,信息的描述可能與用戶輸入不盡相同。所以容易造成用戶無法得到真正需要的信息,搜索得到的信息相對較少的問題。若用戶輸入不準確,甚至有可能無法得到搜索結果。
      4)如果按照詞典進行分詞,若用戶輸入錯誤,可能造成分詞失敗,則搜索引擎系統(tǒng)會直接將該詞分為單字進行查詢,這樣搜索結果眾多,且多數為垃圾結果,用戶無法從這些海量數據中找到自己真正想要的結果。

      發(fā)明內容
      鑒于以上所述的一個或多個問題,本發(fā)明提供了一種數據查詢系統(tǒng)及方法。
      根據本發(fā)明的數據查詢系統(tǒng)包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對初步分詞結果進行處理;以及查詢模塊,用于根據經過處理的最終分詞結果進行數據查詢。
      其中,分詞模塊包括中文分詞模塊,用于根據特定規(guī)則對查詢串進行初步分詞,以及在不需要對初步分詞結果進行同音詞搜索的情況下,將初步分詞結果發(fā)送至入口模塊;搜索判斷模塊,用于判斷是否需要對初步分詞結果進行同音詞搜索;以及同音詞處理模塊,用于在需要對初步分詞結果進行同音詞搜索的情況下,對初步分詞結果進行拼音標注,并根據拼音標注信息對初步分詞結果進行同音詞搜索。
      其中,同音詞處理模塊包括拼音標注模塊,用于對初步分詞結果進行拼音標注;同音詞搜索模塊,用于根據拼音標注信息在同音詞詞典中對初步分詞結果進行同音詞搜索。
      其中,查詢模塊包括數據查詢模塊,用于根據初步分詞結果或最終分詞結果進行數據查詢;數據索引模塊,用于對需要查詢的資料建立索引,并對索引進行維護。
      根據本發(fā)明的數據查詢系統(tǒng)還可以包括同音詞詞典模塊,用于生成并存儲同音詞詞典,并對同音詞詞典進行實時更新。
      根據本發(fā)明的數據查詢方法,包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對初步分詞結果進行處理;以及S306,根據經過處理的最終分詞結果進行數據查詢。
      其中,步驟S304包括以下步驟S3042-1,對查詢串進行初步分詞;S3044-1,判斷是否需要對初步分詞結果進行同音詞搜索;S3046-1,在不需要對初步分詞結果進行同音詞搜索的情況下,直接進行步驟S306。
      其中,步驟S304包括以下步驟S3042-2,對查詢串進行初步分詞;S3044-2,判斷是否需要對初步分詞結果進行同音詞搜索;S3046-2,在需要對初步分詞結果進行同音詞搜索的情況下,在同音詞詞典中對初步分詞結果進行同音詞搜索,然后進行步驟S306。
      其中,在步驟S306中,還對需要查詢的資料建立索引,并對索引進行維護。根據本發(fā)明的數據查詢方法還可以包括以下步驟生成并存儲同音詞詞典,并對同音詞詞典進行實時更新。
      在本發(fā)明中,用戶可以通過輸入準確、簡潔的關鍵字得到準確率高的結果,并可以通過輸入拼音進行搜索。并且在用戶輸入的信息中出現同音別字或模糊音(如前鼻音、后鼻音等)別字時,本發(fā)明可以進行自動糾正,并得到正確的搜索結果。


      此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中圖1是根據本發(fā)明實施例的數據查詢系統(tǒng)的框圖;圖2是根據本發(fā)明另一實施例的數據查詢系統(tǒng)的框圖;以及圖3A至圖3C是圖1和圖2所示的系統(tǒng)完成的數據查詢方法及步驟的流程圖。
      具體實施例方式
      下面參考附圖,詳細說明本發(fā)明的具體實施方式
      。
      參考圖1,說明根據本發(fā)明實施例的數據查詢系統(tǒng)。如圖1所示,該數據查詢系統(tǒng)包括入口模塊102,用于接收用戶欲查詢的查詢串;分詞模塊104,用于對查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對初步分詞結果進行處理;以及查詢模塊106,用于根據經過處理的最終分詞結果進行數據查詢。
      其中,分詞模塊104包括中文分詞模塊1042,用于根據特定規(guī)則對查詢串進行初步分詞,以及在不需要對初步分詞結果進行同音詞搜索的情況下,將初步分詞結果發(fā)送至入口模塊;搜索判斷模塊1044,用于判斷是否需要對初步分詞結果進行同音詞搜索;以及同音詞處理模塊1046,用于在需要對初步分詞結果進行同音詞搜索的情況下,對初步分詞結果進行拼音標注,并根據拼音標注信息對初步分詞結果進行同音詞搜索。
      其中,同音詞處理模塊1046包括拼音標注模塊,用于對初步分詞結果進行拼音標注;同音詞搜索模塊,用于根據拼音標注信息在同音詞詞典中對初步分詞結果進行同音詞搜索。
      其中,查詢模塊106包括數據查詢模塊1062,用于根據初步分詞結果或最終分詞結果進行數據查詢;數據索引模塊1064,用于對需要查詢的資料建立索引,并對索引進行維護。
      根據本發(fā)明的數據查詢系統(tǒng)還可以包括同音詞詞典模塊,用于生成并存儲同音詞詞典,并對同音詞詞典進行實時更新。
      參考圖2,說明根據本發(fā)明另一實施例的數據查詢系統(tǒng)。如圖2所示,該數據查詢系統(tǒng)包括以下幾個部分查詢入口模塊202,用于通過與外部系統(tǒng)的交互完成對用戶輸入內容的接收,并將接收到的文字內容發(fā)送給分詞模塊,以及用于接收從分詞模塊返回的分詞信息,并將分詞信息作為關鍵字進行搜索。
      分詞模塊204,用于調用中文分詞模塊得到初步分詞結果,并根據初步分詞結果判斷是否需要進行同音詞搜索。若需要對分詞信息進行同音詞搜索,則將待處理信息發(fā)送給同音詞處理模塊,并接收從該模塊返回的同音詞信息。將同音詞信息與其他分詞信息一同返回給查詢入口模塊。
      中文分詞模塊206,用于根據不同的分詞策略對用戶的輸入信息進行切分。
      同音詞處理模塊208,用于接收來自分詞模塊的文字信息,將文字信息發(fā)送給拼音標注模塊,并接收從拼音標注模塊返回的拼音標注信息。
      拼音標注模塊210,用于將文字信息轉換為對應的拼音信息。在查詢流程中,將標注結果發(fā)送給查詢入口模塊,在同音詞詞典維護流程中,將標注結果發(fā)送給同音詞典維護模塊。
      同音詞查找模塊212,用于通過查找多音詞詞典的方式,提取出現頻率最高的同音詞,并將查找結果發(fā)送給同音詞處理模塊。
      同音詞典維護模塊214,用于維護同音詞系統(tǒng)需要使用的同音詞詞典。通過調用拼音標注模塊對詞典進行逐詞標注,形成同音詞詞典。并在詞典進行更新的時候同步更新同音詞詞典。在拼音標注過程中,多音字標注多個拼音,形成多個詞條。同音詞詞典按照拼音順序進行排序。
      查詢模塊216,用于接收來自查詢入口模塊的關鍵字,根據關鍵字形成查詢條件對索引文件進行查詢,以得到匹配用戶查詢要求的結果,并將查詢結果返回給用戶索引模塊218,用于維護全文索引。索引模塊通過掃描需要搜索的信息中的每一個詞,對每一個詞建立索引,指明該詞在文章中出現的次數和位置。
      在使用圖2所示的數據查詢系統(tǒng)進行數據查詢時,用戶與查詢入口模塊進行交互,向查詢入口模塊提交查詢串。查詢入口模塊將查詢串發(fā)送給分詞模塊,分詞模塊調用中文分詞模塊根據不同的分詞策略對用戶的查詢串進行分詞,并根據分詞結果判斷是否需要進行同音詞搜索。如果判斷不需進行同音詞搜索,則直接返回分詞結果給查詢模塊,進入數據搜索流程。如果判斷需要進行同音詞搜索,則將待處理信息發(fā)送給同音詞處理模塊。同音詞處理模塊接收待處理信息并將之發(fā)送給拼音標注模塊,拼音標注模塊對文本信息進行拼音標注,并將標注結果返回給同音詞處理模塊。同音詞處理模塊接收到拼音標注信息后,調用同音詞查詢模塊在同音詞詞典中對拼音標注信息進行查找,得到查找結果后將信息返回給分詞模塊。分詞模塊整合從同音詞處理模塊返回的信息與其他分詞所得的關鍵詞信息,作為搜索的關鍵詞返回給查詢入口模塊。查詢入口模塊將關鍵詞發(fā)送給查詢模塊。查詢模塊利用得到的關鍵詞對索引庫進行查找,并將索引庫中匹配的信息返回給查詢入口模塊。由查詢入口模塊對結果進行調整,返回給用戶。另外,該數據查詢系統(tǒng)還可以利用索引模塊對需要搜索的資料建立索引,對索引進行維護,并且在源信息更新時,同步更新索引庫信息。
      參考圖3A至圖3C,說明圖1和圖2所示的系統(tǒng)完成的數據查詢方法。如圖3A所示,該數據查詢方法包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對初步分詞結果進行處理;以及S306,根據經過處理的最終分詞結果進行數據查詢。
      其中,如圖3B所示,步驟S304包括以下步驟S3042-1,對查詢串進行初步分詞;S3044-1,判斷是否需要對初步分詞結果進行同音詞搜索;S3046-1,在不需要對初步分詞結果進行同音詞搜索的情況下,直接進行步驟S306。
      其中,如圖3C所示,步驟S304包括以下步驟S3042-2,對查詢串進行初步分詞;S3044-2,判斷是否需要對初步分詞結果進行同音詞搜索;S3046-2,在需要對初步分詞結果進行同音詞搜索的情況下,在同音詞詞典中對初步分詞結果進行同音詞搜索,然后進行步驟S306。
      其中,在步驟S306中,還對需要查詢的資料建立索引,并對索引進行維護。根據本發(fā)明的數據查詢方法還可以包括以下步驟生成并存儲同音詞詞典,并對同音詞詞典進行實時更新。
      本發(fā)明可以在對用戶輸入進行分析的時候,對用戶輸入的諸如同音字、模糊音等錯誤輸入進行處理,將其自動轉換為標準輸入,在搜索后,返回用戶查詢結果,并對用戶的錯誤輸入進行提示。通過本發(fā)明,用戶可以快捷方便地搜索到自己需要的信息,同時可以降低搜索引擎使用者的門檻。通過本發(fā)明,用戶甚至可以通過直接輸入拼音的形式對信息進行查找。
      以上所述僅為本發(fā)明的實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的權利要求范圍之內。
      權利要求
      1.一種數據查詢系統(tǒng),其特征在于,包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對所述查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對所述初步分詞結果進行處理;以及查詢模塊,用于根據經過處理的最終分詞結果進行數據查詢。
      2.根據權利要求1所述的數據查詢系統(tǒng),其特征在于,所述分詞模塊包括中文分詞模塊,用于根據特定規(guī)則對所述查詢串進行初步分詞,以及在不需要對所述初步分詞結果進行同音詞搜索的情況下,將所述初步分詞結果發(fā)送至所述入口模塊;搜索判斷模塊,用于判斷是否需要對所述初步分詞結果進行同音詞搜索;以及同音詞處理模塊,用于在需要對所述初步分詞結果進行同音詞搜索的情況下,對所述初步分詞結果進行拼音標注,并根據拼音標注信息對所述初步分詞結果進行同音詞搜索。
      3.根據權利要求2所述的數據查詢系統(tǒng),其特征在于,所述同音詞處理模塊包括拼音標注模塊,用于對所述初步分詞結果進行拼音標注;同音詞搜索模塊,用于根據所述拼音標注信息在同音詞詞典中對所述初步分詞結果進行同音詞搜索。
      4.根據權利要求1至3中任一項所述的數據查詢系統(tǒng),其特征在于,所述查詢模塊包括數據查詢模塊,用于根據所述初步分詞結果或所述最終分詞結果進行數據查詢;數據索引模塊,用于對需要查詢的資料建立索引,并對所述索引進行維護。
      5.根據權利要求4所述的數據查詢系統(tǒng),其特征在于,還包括同音詞詞典模塊,用于生成并存儲所述同音詞詞典,并對所述同音詞詞典進行實時更新。
      6.一種數據查詢方法,其特征在于,包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對所述查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對所述初步分詞結果進行處理;以及S306,根據經過處理的最終分詞結果進行數據查詢。
      7.根據權利要求6所述的數據查詢方法,其特征在于,所述步驟S304包括以下步驟S3042-1,對所述查詢串進行初步分詞;S3044-1,判斷是否需要對所述初步分詞結果進行同音詞搜索;S3046-1,在不需要對所述初步分詞結果進行同音詞搜索的情況下,直接進行所述步驟S306。
      8.根據權利要求6所述的數據查詢方法,其特征在于,所述步驟S304包括以下步驟S3042-2,對所述查詢串進行初步分詞;S3044-2,判斷是否需要對所述初步分詞結果進行同音詞搜索;S3046-2,在需要對所述初步分詞結果進行同音詞搜索的情況下,在同音詞詞典中對所述初步分詞結果進行同音詞搜索,然后進行所述步驟S306。
      9.根據權利要求6至8中任一項所述的數據查詢方法,其特征在于,在所述步驟S306中,還對需要查詢的資料建立索引,并對所述索引進行維護。
      10.根據權利要求9所述的數據查詢方法,其特征在于,還包括以下步驟生成并存儲所述同音詞詞典,并對所述同音詞詞典進行實時更新。
      全文摘要
      本發(fā)明公開了一種數據查詢系統(tǒng)及方法。其中,該數據查詢系統(tǒng)包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對查詢串進行初步分詞,判斷是否需要對初步分詞結果進行同音詞搜索,并根據判斷結果對初步分詞結果進行處理;以及查詢模塊,用于根據經過處理的最終分詞結果進行數據查詢。通過本發(fā)明,用戶可以快捷方便地搜索到自己需要的信息,同時可以降低搜索引擎使用者的門檻。
      文檔編號G06F17/30GK101082936SQ20071012603
      公開日2007年12月5日 申請日期2007年6月29日 優(yōu)先權日2007年6月29日
      發(fā)明者劉麗麗, 陸強, 游波 申請人:中興通訊股份有限公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1