字詞檢索方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種字詞檢索方法和裝置。
【背景技術(shù)】
[0002]人們?cè)趥鹘y(tǒng)方式下使用紙質(zhì)的詞典進(jìn)行字詞檢索,隨著信息化的發(fā)展,人們逐步使用電子詞典進(jìn)行字詞檢索。現(xiàn)有技術(shù)中,電子詞典只能回答字詞實(shí)體請(qǐng)求,比如,用戶在搜索中輸入“璇”,現(xiàn)有的電子字典能夠返回相關(guān)結(jié)果。但是,用戶查詢目的不一樣,可能是為了了解這個(gè)字解釋、或者組詞、或者五筆等信息。當(dāng)用戶輸入的是“璇的組詞”,“璇的五筆”,“璇的同音字”后,現(xiàn)有電子字典無法回答。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0004]為此,本發(fā)明的一個(gè)目的在于提出一種字詞檢索方法,該方法可以基于自然語言理解滿足用戶不同的字詞檢索需求,提升用戶體驗(yàn)。
[0005]本發(fā)明的另一個(gè)目的在于提出一種字詞檢索裝置。
[0006]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的字詞檢索方法,包括:接收用戶輸入的查詢?cè)~,并將所述查詢?cè)~轉(zhuǎn)換為格式化文本請(qǐng)求;對(duì)所述格式化文本請(qǐng)求進(jìn)行自然語言理解,獲取對(duì)所述格式化文本請(qǐng)求的標(biāo)注結(jié)果;根據(jù)所述標(biāo)注結(jié)果進(jìn)行數(shù)據(jù)檢索,得到檢索結(jié)果,以將檢索結(jié)果展示給用戶。
[0007]本發(fā)明第一方面實(shí)施例提出的字詞檢索方法,通過對(duì)查詢?cè)~進(jìn)行自然語言理解,可以解析出用戶不同的需求,從而根據(jù)用戶不同的需求檢索出相應(yīng)的檢索結(jié)果,滿足用戶不同的字詞檢索需求,提升用戶體驗(yàn)。
[0008]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的字詞檢索裝置,包括:交互界面模塊,用于接收用戶輸入的查詢?cè)~,并將所述查詢?cè)~轉(zhuǎn)換為格式化文本請(qǐng)求;自然語言理解模塊,用于對(duì)所述格式化文本請(qǐng)求進(jìn)行自然語言理解,獲取對(duì)所述格式化文本請(qǐng)求的標(biāo)注結(jié)果;數(shù)據(jù)檢索模塊,用于根據(jù)所述標(biāo)注結(jié)果進(jìn)行數(shù)據(jù)檢索,得到檢索結(jié)果,以將檢索結(jié)果展示給用戶。
[0009]本發(fā)明第二方面實(shí)施例提出的字詞檢索裝置,通過對(duì)查詢?cè)~進(jìn)行自然語言理解,可以解析出用戶不同的需求,從而根據(jù)用戶不同的需求檢索出相應(yīng)的檢索結(jié)果,滿足用戶不同的字詞檢索需求,提升用戶體驗(yàn)。
[0010]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0011]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0012]圖1是本發(fā)明一實(shí)施例提出的字詞檢索方法的流程示意圖;
[0013]圖2是本發(fā)明實(shí)施例中自然語言理解的流程示意圖;
[0014]圖3是本發(fā)明另一實(shí)施例提出的字詞檢索方法的流程示意圖;
[0015]圖4是本發(fā)明實(shí)施例中語音輸入的查詢?cè)~及檢索結(jié)果的示意圖;
[0016]圖5是本發(fā)明另一實(shí)施例提出的字詞檢索裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0018]圖1是本發(fā)明一實(shí)施例提出的字詞檢索方法的流程示意圖,該方法包括:
[0019]Sll:接收用戶輸入的查詢?cè)~,并將所述查詢?cè)~轉(zhuǎn)換為格式化文本請(qǐng)求。
[0020]其中,用戶可以以自然語言進(jìn)行查詢?cè)~的輸入。
[0021]查詢?cè)~的形式可以是:文本形式、語音形式,或者,圖像形式。
[0022]當(dāng)查詢?cè)~是語音形式或圖像形式時(shí),可以先進(jìn)行轉(zhuǎn)換,以獲取文本形式的查詢?cè)~。例如,當(dāng)查詢?cè)~是語音形式時(shí),進(jìn)行語音識(shí)別,得到文本形式的查詢?cè)~,或者,當(dāng)查詢?cè)~是圖像形式時(shí),進(jìn)行圖像識(shí)別,得到文本形式的查詢?cè)~。
[0023]在獲取到文本形式的查詢?cè)~后,可以將其轉(zhuǎn)換為格式化文本請(qǐng)求,以方便后續(xù)處理。根據(jù)實(shí)際需要的不同,可以設(shè)置不同的規(guī)則進(jìn)行格式化以得到格式化文本請(qǐng)求。例如,格式化時(shí)采用的規(guī)則是去除文本形式的查詢?cè)~中的冗余信息,冗余信息例如包括為什么”,“請(qǐng)問”,“標(biāo)點(diǎn)符號(hào)”這些字符,另外,在格式化時(shí)例如還可以進(jìn)行繁簡體字轉(zhuǎn)化等。
[0024]S12:對(duì)所述格式化文本請(qǐng)求進(jìn)行自然語言理解,獲取對(duì)所述格式化文本請(qǐng)求的標(biāo)注結(jié)果。
[0025]參見圖2,所述對(duì)所述格式化文本請(qǐng)求進(jìn)行自然語言理解,獲取對(duì)所述格式化文本請(qǐng)求的標(biāo)注結(jié)果,包括:
[0026]S21:對(duì)格式化文本請(qǐng)求進(jìn)行切詞,得到格式化文本請(qǐng)求中的分詞。
[0027]例如,用戶輸入的查詢?cè)~是“璇的五筆”,則在上述的格式化轉(zhuǎn)換時(shí),例如可以去掉其中的“的”,得到格式化文本請(qǐng)求“璇五筆”,對(duì)該格式化文本請(qǐng)求進(jìn)行分詞后可以得到“璇”、“五筆”這兩個(gè)分詞。
[0028]又例如,用戶輸入的查詢?cè)~是“一丘之貉的最后一個(gè)字的五筆”,則類似上述的格式化和分詞處理后,可以得到“一丘之貉”、“最后一個(gè)字”、“五筆”這三個(gè)分詞。
[0029]S22:根據(jù)預(yù)先建立的標(biāo)注詞典,對(duì)分詞進(jìn)行標(biāo)注,得到分詞對(duì)應(yīng)的標(biāo)注結(jié)果。
[0030]例如,標(biāo)注結(jié)果包括:分詞被識(shí)別為實(shí)體信息或?qū)傩孕畔ⅲ瑢傩孕畔⒗绨??實(shí)體間關(guān)系信息以及其余的屬性信息,進(jìn)一步的,當(dāng)分詞被識(shí)別為實(shí)體信息時(shí)還可以細(xì)分為實(shí)體類型是字、詞、成語等。另外,當(dāng)分詞被識(shí)別為實(shí)體信息時(shí),標(biāo)注結(jié)果中還可以包含分詞對(duì)應(yīng)的身份標(biāo)識(shí)(ID)信息,或者,當(dāng)分詞被識(shí)別為屬性信息時(shí),標(biāo)注結(jié)果中還可以包含屬性信息的名稱。
[0031]假設(shè)一個(gè)分詞是A,實(shí)體信息例如A是一個(gè)字、詞或成語等;實(shí)體間關(guān)系信息是指字詞實(shí)體之間的語義關(guān)系,如A是同義詞、反義詞等,也可以稱為邊;其余的屬性信息例如A
是:拼首、五筆、筆畫?目息等。
[0032]在標(biāo)注時(shí),例如可以預(yù)先建立不同類別的詞典,如實(shí)體詞典、屬性詞典等,對(duì)應(yīng)每個(gè)分詞,通過在不同詞典內(nèi)查詢可以確定分詞被識(shí)別為實(shí)體信息或?qū)傩孕畔ⅲ?,?duì)應(yīng)分詞“璇”,經(jīng)過查詢,其在實(shí)體詞典中查詢到,則確定“璇”被識(shí)別為實(shí)體信息。當(dāng)然,可以理解的是,實(shí)體詞典可以進(jìn)一步分為字的詞典、詞組的詞典、成語的詞典等,從而可以實(shí)現(xiàn)更細(xì)的標(biāo)注。
[0033]另外,為了更好地唯一表述字詞實(shí)體以及實(shí)體間的語義關(guān)系,詞典內(nèi)實(shí)體有唯一的身份標(biāo)識(shí)(ID)信息,因此還可以在標(biāo)注結(jié)果中標(biāo)注ID信息。
[0034]例如,對(duì)應(yīng)分詞“璇”,可以在字的詞典中查詢到,并且如果“璇”在字的詞典中的ID信息是“id_123”,那么可以確定“璇”被識(shí)別為實(shí)體信息,且實(shí)體類型是字,且ID信息是id_123o
[0035]其余分詞也可以類似處理。因此,經(jīng)過標(biāo)注詞典的標(biāo)注后,可以獲取分詞與對(duì)應(yīng)的標(biāo)識(shí)結(jié)果。
[0036]例如,對(duì)應(yīng)“璇的五筆”這一查詢?cè)~,得到的標(biāo)注結(jié)果包括:[(璇、id_123、word),(五筆、wub1、attribute)]。其中,“璇”和“五筆”是分詞,以及,“璇”被識(shí)別為實(shí)體信息,且實(shí)體類型是“字(word) ”,ID信息是id_123 ;“五筆”被識(shí)別是屬性信息(attrib