本技術(shù)涉及人工智能,尤其涉及一種數(shù)據(jù)檢索方法、文本數(shù)據(jù)庫(kù)生成方法及服務(wù)器。
背景技術(shù):
1、目前知識(shí)問(wèn)答系統(tǒng)回答的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種數(shù)據(jù)檢索方法、文本數(shù)據(jù)庫(kù)生成方法及服務(wù)器,旨在解決知識(shí)問(wèn)答系統(tǒng)回答準(zhǔn)確性的問(wèn)題。
2、第一方面,本技術(shù)實(shí)施例提供一種數(shù)據(jù)檢索方法,包括:
3、基于問(wèn)題文本與文本數(shù)據(jù)庫(kù)中文本塊的第一相似度,從所述文本數(shù)據(jù)庫(kù)中提取出第一數(shù)量的文本塊,所述文本數(shù)據(jù)庫(kù)中包括多個(gè)文本塊及與各個(gè)所述文本塊對(duì)應(yīng)的元數(shù)據(jù),所述元數(shù)據(jù)包括對(duì)應(yīng)文本塊的標(biāo)題路徑、所述文本塊所在文本內(nèi)容在第一文檔中的第一順序標(biāo)識(shí)及所述文本塊在文本內(nèi)容中的第二順序標(biāo)識(shí),所述文本內(nèi)容為所述第一文檔中,隸屬于任意一個(gè)末級(jí)標(biāo)題的文本內(nèi)容;
4、基于預(yù)設(shè)上下文范圍和所述第一數(shù)量的文本塊中每個(gè)文本塊的第一元數(shù)據(jù),確定出所述每個(gè)文本塊的關(guān)聯(lián)文本塊,所述第一元數(shù)據(jù)為所述第一數(shù)量的文本塊中每個(gè)文本塊對(duì)應(yīng)的元數(shù)據(jù);
5、基于所述第一元數(shù)據(jù)以及第二元數(shù)據(jù),對(duì)所述每個(gè)文本塊以及所述每個(gè)文本塊的關(guān)聯(lián)文本塊進(jìn)行排序整合得到每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容,所述第二元數(shù)據(jù)為所述每個(gè)文本塊的關(guān)聯(lián)文本塊的元數(shù)據(jù);
6、基于每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容,確定所述問(wèn)題文本對(duì)應(yīng)的答復(fù)文本。
7、在一種可能的實(shí)現(xiàn)中,所述基于每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容,確定所述問(wèn)題文本對(duì)應(yīng)的答復(fù)文本包括:
8、基于所述第一相似度,從每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容中提取出第二數(shù)量的所述目標(biāo)文本內(nèi)容;
9、將第二數(shù)量的所述目標(biāo)文本內(nèi)容作為提示文本及問(wèn)題文本推送至大語(yǔ)言模型,得到所述問(wèn)題文本的答復(fù)文本。
10、本技術(shù)實(shí)施例提供的數(shù)據(jù)檢索方法,基于元數(shù)據(jù)得到的目標(biāo)文本內(nèi)容在文檔當(dāng)中是一個(gè)完整的組成部分,保證了提示內(nèi)容的完整性和連貫性,進(jìn)而提升知識(shí)問(wèn)答的準(zhǔn)確性。在一種可能的實(shí)現(xiàn)中,所述基于預(yù)設(shè)上下文范圍和所述第一數(shù)量的文本塊中每個(gè)文本塊的第一元數(shù)據(jù),確定出所述每個(gè)文本塊的關(guān)聯(lián)文本塊,包括:
11、基于所述預(yù)設(shè)上下文范圍,確定出所述每個(gè)文本塊的關(guān)聯(lián)文本塊的最大數(shù)量;
12、將所述最大數(shù)量作為所述每個(gè)文本塊的上下文窗口區(qū)間的長(zhǎng)度,確定出所述每個(gè)文本塊的關(guān)聯(lián)文本塊。
13、在一種可能的實(shí)現(xiàn)中,所述數(shù)據(jù)檢索方法還包括:
14、將第一文檔隸屬于末級(jí)標(biāo)題的文本內(nèi)容拆分為至少一個(gè)文本塊,其中,所述第一文檔包含目錄,所述目錄至少包含一個(gè)層級(jí)的標(biāo)題;
15、存儲(chǔ)文本塊索引數(shù)據(jù),以生成所述文本數(shù)據(jù)庫(kù),所述文本塊索引數(shù)據(jù)包括:所述文本塊和所述元數(shù)據(jù)。
16、在一種可能的實(shí)現(xiàn)中,所述將第一文檔隸屬于末級(jí)標(biāo)題的文本內(nèi)容拆分為至少一個(gè)文本塊,包括:
17、對(duì)所述文本內(nèi)容進(jìn)行標(biāo)記處理,得到帶有標(biāo)記符的文本內(nèi)容;
18、基于預(yù)設(shè)切分長(zhǎng)度和預(yù)設(shè)的文本塊切分判斷規(guī)則,對(duì)所述帶有標(biāo)記符的文本內(nèi)容進(jìn)行切分,得到一個(gè)或多個(gè)文本塊。
19、在一種可能的實(shí)現(xiàn)中,所述基于預(yù)設(shè)切分長(zhǎng)度和預(yù)設(shè)的文本塊切分判斷規(guī)則,對(duì)所述帶有標(biāo)記符的文本內(nèi)容進(jìn)行切分,包括:
20、按照預(yù)設(shè)順序從所述標(biāo)記符中選擇出的標(biāo)記符對(duì)所述文本內(nèi)容進(jìn)行切分,并判斷每次切分得到的每個(gè)文本塊長(zhǎng)度是否不大于預(yù)設(shè)切分長(zhǎng)度,且相鄰兩個(gè)文本塊的長(zhǎng)度不小于所述預(yù)設(shè)切分長(zhǎng)度。
21、在一種可能的實(shí)現(xiàn)中,所述按照預(yù)設(shè)順序從所述標(biāo)記符中選擇出的標(biāo)記符對(duì)所述文本內(nèi)容進(jìn)行切分,包括:
22、按照所述標(biāo)記符的優(yōu)先級(jí)由高到低的順序,依次進(jìn)行所述標(biāo)記符的選擇,其中當(dāng)前次選擇的標(biāo)記符的優(yōu)先級(jí)低于前一次選擇的標(biāo)記符的優(yōu)先等級(jí);
23、基于每次選擇出的標(biāo)記符對(duì)前一次切分得到的文本內(nèi)容進(jìn)行切分。
24、在一種可能的實(shí)現(xiàn)中,所述對(duì)所述文本內(nèi)容進(jìn)行標(biāo)記處理,得到帶有標(biāo)記符的文本內(nèi)容,包括:
25、基于預(yù)設(shè)轉(zhuǎn)換工具將所述文本內(nèi)容轉(zhuǎn)換為markdown格式的文本;
26、將所述markdown格式的文本輸入至json轉(zhuǎn)換器進(jìn)行標(biāo)記信息的處理,得到所述帶有標(biāo)記符的文本內(nèi)容。
27、第二方面,本技術(shù)實(shí)施例提供一種文本數(shù)據(jù)庫(kù)生成方法,應(yīng)用于第一文檔,所述第一文檔包含目錄,所述目錄至少包含一個(gè)層級(jí)的標(biāo)題,所述方法包括:
28、將所述第一文檔中隸屬于末級(jí)標(biāo)題的文本內(nèi)容拆分為至少一個(gè)文本塊;
29、存儲(chǔ)文本塊索引數(shù)據(jù),所述文本塊索引數(shù)據(jù)包括:所述文本塊和元數(shù)據(jù),所述元數(shù)據(jù)包括:所述文本塊的標(biāo)題路徑、所述文本塊所在所述文本內(nèi)容在所述第一文檔中的第一順序標(biāo)識(shí)以及文本塊的第二順序標(biāo)識(shí)。
30、第三方面,本技術(shù)實(shí)施例提供一種服務(wù)器,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
31、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
32、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述服務(wù)器能夠?qū)崿F(xiàn)如第一方面或第一方面的任一實(shí)現(xiàn)方式所述的數(shù)據(jù)檢索方法,或第二發(fā)面所述的文本數(shù)據(jù)庫(kù)生成方法。
33、第三方面,本技術(shù)實(shí)施例提供一種文本數(shù)據(jù)庫(kù)生成裝置,應(yīng)用于第一文檔,所述第一文檔包含目錄,所述目錄至少包含一個(gè)層級(jí)的標(biāo)題,所述裝置包括:
34、文檔切分模塊,用于將所述第一文檔中隸屬于末級(jí)標(biāo)題的文本內(nèi)容拆分為至少一個(gè)文本塊;以及
35、數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)文本塊索引數(shù)據(jù),所述文本塊索引數(shù)據(jù)包括:所述文本塊和元數(shù)據(jù),所述元數(shù)據(jù)包括:所述文本塊的標(biāo)題路徑、所述文本塊所在所述文本內(nèi)容在所述第一文檔中的第一順序標(biāo)識(shí)以及文本塊的第二順序標(biāo)識(shí)。
36、第四方面,本技術(shù)實(shí)施例提供一種數(shù)據(jù)檢索裝置,包括:
37、文本塊檢索模塊,用于基于問(wèn)題文本與文本數(shù)據(jù)庫(kù)中文本塊的第一相似度,從所述文本數(shù)據(jù)庫(kù)中提取出第一數(shù)量的文本塊,所述文本數(shù)據(jù)庫(kù)中包括多個(gè)文本塊及與各個(gè)所述文本塊對(duì)應(yīng)的元數(shù)據(jù),所述元數(shù)據(jù)包括對(duì)應(yīng)文本塊的標(biāo)題路徑、所述文本塊所在文本內(nèi)容在第一文檔中的第一順序標(biāo)識(shí)及所述文本塊在文本內(nèi)容中的第二順序標(biāo)識(shí),所述文本內(nèi)容為所述第一文檔中,隸屬于任意一個(gè)末級(jí)標(biāo)題的文本內(nèi)容;
38、關(guān)聯(lián)文本確定模塊,用于基于預(yù)設(shè)上下文范圍和所述第一數(shù)量的文本塊中每個(gè)文本塊的第一元數(shù)據(jù),確定出所述每個(gè)文本塊的關(guān)聯(lián)文本塊,所述第一元數(shù)據(jù)為所述第一數(shù)量的文本塊中每個(gè)文本塊對(duì)應(yīng)的元數(shù)據(jù);
39、文本塊整合模塊,用于基于所述第一元數(shù)據(jù)以及第二元數(shù)據(jù),對(duì)所述每個(gè)文本塊以及所述每個(gè)文本塊的關(guān)聯(lián)文本塊進(jìn)行排序整合得到每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容,所述第二元數(shù)據(jù)為所述每個(gè)文本塊的關(guān)聯(lián)文本塊的元數(shù)據(jù);以及
40、答復(fù)文本生成模塊,用于基于每個(gè)所述文本塊對(duì)應(yīng)的目標(biāo)文本內(nèi)容,確定所述問(wèn)題文本對(duì)應(yīng)的答復(fù)文本。
41、第五方面,本技術(shù)實(shí)施例提供了一種服務(wù)器,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
42、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
43、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述服務(wù)器能夠?qū)崿F(xiàn)如第一方面任意一項(xiàng)所述的數(shù)據(jù)檢索方法,或第二方面所述的文本數(shù)據(jù)庫(kù)生成方法。
44、第六方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備如第一方面任意一項(xiàng)所述的數(shù)據(jù)檢索方法,或第二方面所述的文本數(shù)據(jù)庫(kù)生成方法。
45、第七方面,本技術(shù)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀指令,當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備實(shí)現(xiàn)如第一方面任意一項(xiàng)所述的數(shù)據(jù)檢索方法,或第二方面所述的文本數(shù)據(jù)庫(kù)生成方法。