本申請(qǐng)涉及信息檢索和自然語(yǔ)言處理,尤其涉及一種地址信息處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在日常生活中,人們經(jīng)常需要查詢特定的poi(point?of?interest,興趣點(diǎn)),如餐館、銀行、超市等。隨著移動(dòng)互聯(lián)網(wǎng)和智能設(shè)備的普及,越來(lái)越多的用戶通過語(yǔ)音輸入的方式進(jìn)行搜索。然而,語(yǔ)音輸入往往由于識(shí)別錯(cuò)誤、口音差異等因素,導(dǎo)致搜索結(jié)果的準(zhǔn)確性受到影響。如用戶想搜索“xx銀行”,但語(yǔ)音識(shí)別的結(jié)果是“xx營(yíng)行”。
2、相關(guān)技術(shù)中,深度學(xué)習(xí)模型雖然理論上能夠提供更準(zhǔn)確的糾錯(cuò)匹配,但其對(duì)大量訓(xùn)練數(shù)據(jù)的需求和計(jì)算資源的消耗限制了在移動(dòng)設(shè)備上的應(yīng)用。同時(shí),深度學(xué)習(xí)模型較長(zhǎng)的推理時(shí)間也給模型實(shí)施帶來(lái)困難,降低用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
2、為此,本申請(qǐng)的第一個(gè)目的在于提出一種地址信息處理方法,以實(shí)現(xiàn)基于地址信息數(shù)據(jù)庫(kù)中至少一個(gè)第一地址信息切割得到的多個(gè)第一子串與用戶輸入的第二地址信息之間的相近程度,對(duì)多個(gè)第一子串進(jìn)行初篩,減少需要深度學(xué)習(xí)模型處理的數(shù)據(jù)量,降低計(jì)算復(fù)雜度,提高處理效率和用戶體驗(yàn)。
3、本申請(qǐng)的第二個(gè)目的在于提出一種地址信息處理裝置。
4、本申請(qǐng)的第三個(gè)目的在于提出一種電子設(shè)備。
5、本申請(qǐng)的第四個(gè)目的在于提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
6、本申請(qǐng)的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
7、為達(dá)上述目的,本申請(qǐng)第一方面實(shí)施例提出了一種地址信息處理方法,包括:響應(yīng)于用戶輸入待查詢的第二地址信息,讀取地址信息數(shù)據(jù)庫(kù)中的第一地址信息,其中,所述第一地址信息是基于預(yù)先設(shè)定標(biāo)準(zhǔn)地址描述生成;根據(jù)所述第一地址信息切割得到的多個(gè)第一子串與所述第二地址信息之間的相近程度,從所述多個(gè)第一子串中確定與所述第二地址信息相近的多個(gè)第二子串;采用訓(xùn)練好的表征向量計(jì)算模型,生成所述第二地址信息的表征向量,以及各所述第二子串的表征向量;根據(jù)所述第二地址信息的表征向量與各所述第二子串的表征向量在特征空間中的余弦相似度,確定是否采用訓(xùn)練好的生成模型對(duì)所述第二地址信息進(jìn)行修正處理。
8、為達(dá)上述目的,本申請(qǐng)第二方面實(shí)施例提出了一種地址信息處理裝置,包括:讀取模塊,用于響應(yīng)于用戶輸入待查詢的第二地址信息,讀取地址信息數(shù)據(jù)庫(kù)中的第一地址信息,其中,所述第一地址信息是基于預(yù)先設(shè)定標(biāo)準(zhǔn)地址描述生成;第一確定模塊,用于根據(jù)所述第一地址信息切割得到的多個(gè)第一子串與所述第二地址信息之間的相近程度,從所述多個(gè)第一子串中確定與所述第二地址信息相近的多個(gè)第二子串;第一生成模塊,用于采用訓(xùn)練好的表征向量計(jì)算模型,生成所述第二地址信息的表征向量,以及各所述第二子串的表征向量;第二確定模塊,用于根據(jù)所述第二地址信息的表征向量與各所述第二子串的表征向量在特征空間中的余弦相似度,確定是否采用訓(xùn)練好的生成模型對(duì)所述第二地址信息進(jìn)行修正處理。
9、為達(dá)上述目的,本申請(qǐng)第三方面實(shí)施例提出了一種電子設(shè)備,包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器,其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)如本申請(qǐng)上述實(shí)施例所述的地址信息處理方法。
10、為達(dá)上述目的,本申請(qǐng)第四方面實(shí)施例提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如本申請(qǐng)上述實(shí)施例所述的地址信息處理方法。
11、為達(dá)上述目的,本申請(qǐng)第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)上述實(shí)施例所述的地址信息處理方法。
12、本申請(qǐng)?zhí)峁┑牡刂沸畔⑻幚矸椒ā⒀b置、電子設(shè)備及存儲(chǔ)介質(zhì),響應(yīng)于用戶輸入待查詢的第二地址信息,讀取地址信息數(shù)據(jù)庫(kù)中的第一地址信息,其中,第一地址信息是基于預(yù)先設(shè)定標(biāo)準(zhǔn)地址描述生成;根據(jù)第一地址信息切割得到的多個(gè)第一子串與第二地址信息之間的相近程度,從多個(gè)第一子串中確定與第二地址信息相近的多個(gè)第二子串;采用訓(xùn)練好的表征向量計(jì)算模型,生成第二地址信息的表征向量,以及各第二子串的表征向量;根據(jù)第二地址信息的表征向量與各第二子串的表征向量在特征空間中的余弦相似度,確定是否采用訓(xùn)練好的生成模型對(duì)第二地址信息進(jìn)行修正處理。由此,通過基于地址信息數(shù)據(jù)庫(kù)中各第一地址信息切割得到的多個(gè)第一子串與用戶輸入的第二地址信息之間的相近程度,對(duì)多個(gè)第一子串進(jìn)行初篩,能夠在大規(guī)模數(shù)據(jù)中迅速縮小目標(biāo)范圍,減少需要深度學(xué)習(xí)模型處理的數(shù)據(jù)量,降低計(jì)算復(fù)雜度,提高處理效率和用戶體驗(yàn)。
13、本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請(qǐng)的實(shí)踐了解到。
1.一種地址信息處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一地址信息切割得到的多個(gè)第一子串與所述第二地址信息之間的相近程度,從所述多個(gè)第一子串中確定與所述第二地址信息相近的多個(gè)第二子串,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述多個(gè)第一子串中包含的第一語(yǔ)言字符,以及每個(gè)所述第一語(yǔ)言字符對(duì)應(yīng)的表示所述第一語(yǔ)言字符的讀音的第一符號(hào)字符構(gòu)建倒排索引,以得到每個(gè)所述第一語(yǔ)言字符對(duì)應(yīng)的倒排索引和每個(gè)所述第一符號(hào)字符對(duì)應(yīng)的倒排索引,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)所述第一語(yǔ)言字符對(duì)應(yīng)的倒排索引、每個(gè)所述第一符號(hào)字符對(duì)應(yīng)的倒排索引、所述第二地址信息中包含的第二語(yǔ)言字符,以及每個(gè)所述第二語(yǔ)言字符對(duì)應(yīng)的表示所述第二語(yǔ)言字符的讀音的第二符號(hào)字符,確定所述多個(gè)第一子串中包含所述第二語(yǔ)言字符和/或所述第二符號(hào)字符的至少一個(gè)目標(biāo)子串對(duì)應(yīng)的詞頻-逆文檔頻率tf-idf分值,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第二語(yǔ)言字符在各所述目標(biāo)子串中的出現(xiàn)頻率、所述第二語(yǔ)言字符對(duì)應(yīng)的第二符號(hào)字符在各所述目標(biāo)子串中的出現(xiàn)頻率、所述第二語(yǔ)言字符在所述第二地址信息中的出現(xiàn)頻率,以及所述第二語(yǔ)言字符對(duì)應(yīng)的第二符號(hào)字符在所述第二地址信息中的出現(xiàn)頻率,確定各所述目標(biāo)子串對(duì)應(yīng)的tf-idf分值,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)各所述目標(biāo)子串對(duì)應(yīng)的tf-idf分值,對(duì)各所述目標(biāo)子串進(jìn)行排序,以根據(jù)排序后的各所述目標(biāo)子串,確定所述第二子串,包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述多個(gè)第一子串中包含的第一語(yǔ)言字符,以及每個(gè)所述第一語(yǔ)言字符對(duì)應(yīng)的表示所述第一語(yǔ)言字符的讀音的第一符號(hào)字符構(gòu)建倒排索引,以得到每個(gè)所述第一語(yǔ)言字符對(duì)應(yīng)的倒排索引和每個(gè)所述第一符號(hào)字符對(duì)應(yīng)的倒排索引之前,還包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述表征向量計(jì)算模型和所述生成模型的訓(xùn)練過程,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述候選訓(xùn)練子串和所述多個(gè)第二訓(xùn)練子串,生成所述第一地址信息對(duì)應(yīng)的一個(gè)訓(xùn)練批次,包括:
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述根據(jù)各所述第一地址信息對(duì)應(yīng)的至少一個(gè)訓(xùn)練批次中的各訓(xùn)練樣本和各訓(xùn)練樣本對(duì)應(yīng)的對(duì)抗樣本,同時(shí)訓(xùn)練所述表征向量計(jì)算模型和所述生成模型,以得到所述訓(xùn)練好的表征向量計(jì)算模型和所述訓(xùn)練好的生成模型,包括:
11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述根據(jù)目標(biāo)訓(xùn)練子串與所述候選訓(xùn)練子串之間的相近程度,從所述目標(biāo)訓(xùn)練子串中確定與所述候選訓(xùn)練子串相近的多個(gè)第二訓(xùn)練子串,包括:
12.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述第二地址信息與各所述第二子串之間的余弦相似度,確定是否采用訓(xùn)練好的生成模型對(duì)所述第二地址信息進(jìn)行修正處理,包括:
13.一種地址信息處理裝置,其特征在于,包括:
14.一種電子設(shè)備,其特征在于,包括:
15.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如權(quán)利要求1-12中任一項(xiàng)所述的方法。
16.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-12中任一項(xiàng)所述的方法。