本申請(qǐng)涉及大數(shù)據(jù),特別是涉及一種文本數(shù)據(jù)的詞云圖確定方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著社會(huì)逐漸信息化,信息科技與互聯(lián)網(wǎng)產(chǎn)業(yè)的急速發(fā)展,“詞云”已經(jīng)成了各大社交媒體的重要應(yīng)用之一,越來(lái)越多的社交媒體通過(guò)詞云顯示詞匯。詞云是通過(guò)形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,對(duì)網(wǎng)絡(luò)文本中出現(xiàn)頻率較高或者能夠表達(dá)文本主旨的“關(guān)鍵詞”的視覺(jué)上的突出,從而過(guò)濾掉大量的文本信息,使得瀏覽者只要一眼掃過(guò)文本就可以領(lǐng)略文本的主旨。
2、現(xiàn)有的詞云生成方案中詞云的形狀是根據(jù)預(yù)設(shè)詞云形狀模板的生成的,并且預(yù)設(shè)詞云形狀模板是由人工繪制而成的,模板比較單一,在需要生成不同形狀的詞云時(shí),則需要較多的時(shí)間來(lái)繪制模板,這會(huì)導(dǎo)致生成不同形狀的詞云圖的效率較低。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠提高生成不同形狀詞云圖的效率的文本數(shù)據(jù)的詞云圖確定方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本申請(qǐng)?zhí)峁┝艘环N文本數(shù)據(jù)的詞云圖生成方法,所述方法包括:
3、對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,得到每一所述分詞結(jié)果各自擴(kuò)展后的擴(kuò)展結(jié)果;
4、對(duì)各所述分詞結(jié)果和對(duì)應(yīng)的擴(kuò)展結(jié)果進(jìn)行特征提取,得到第一特征向量;
5、將所述第一特征向量與關(guān)鍵詞模型庫(kù)中對(duì)應(yīng)的第二特征向量進(jìn)行相似性比較,得到比較結(jié)果;
6、根據(jù)所述比較結(jié)果確定所述目標(biāo)文本數(shù)據(jù)中允許突出顯示的關(guān)鍵詞;
7、將所述關(guān)鍵詞填充至多個(gè)輪廓圖,并在所述輪廓圖中突出顯示所述關(guān)鍵詞,得到文本數(shù)據(jù)的多個(gè)詞云圖。
8、在其中一個(gè)實(shí)施例中,所述對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展之前,包括:
9、確定文本數(shù)據(jù),并對(duì)所述文本數(shù)據(jù)進(jìn)行文本掃描,得到表征所述文本數(shù)據(jù)中各標(biāo)識(shí)符所在位置的掃描結(jié)果;
10、基于所述掃描結(jié)果,對(duì)所述文本數(shù)據(jù)中的標(biāo)識(shí)符進(jìn)行剔除處理,得到目標(biāo)文本數(shù)據(jù);
11、對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行分詞處理,得到所述目標(biāo)文本數(shù)據(jù)的多個(gè)分詞結(jié)果。
12、在其中一個(gè)實(shí)施例中,所述對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,得到每一所述分詞結(jié)果各自擴(kuò)展后的擴(kuò)展結(jié)果,包括:
13、對(duì)每一所述分詞結(jié)果進(jìn)行語(yǔ)義分析,得到各所述分詞結(jié)果所表征的語(yǔ)義;
14、根據(jù)各所述分詞結(jié)果所表征的語(yǔ)義,對(duì)各所述分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,得到各所述分詞結(jié)果對(duì)應(yīng)的擴(kuò)展結(jié)果。
15、在其中一個(gè)實(shí)施例中,所述輪廓圖的確定過(guò)程包括:
16、確定多個(gè)目標(biāo)圖片,并獲取每一所述目標(biāo)圖片中各像素點(diǎn)的像素值;
17、對(duì)各所述目標(biāo)圖片中相鄰像素點(diǎn)之間的像素值發(fā)生變化的像素點(diǎn)進(jìn)行識(shí)別,得到每一所述目標(biāo)圖片各自的多個(gè)初始像素點(diǎn);
18、使用濾波算子對(duì)各所述目標(biāo)圖片中的所述初始像素點(diǎn)進(jìn)行濾波處理,得到每一所述目標(biāo)圖片的多個(gè)目標(biāo)像素點(diǎn);
19、分別對(duì)每一所述目標(biāo)圖片中的多個(gè)所述目標(biāo)像素點(diǎn)進(jìn)行連接處理,得到多個(gè)輪廓圖。
20、在其中一個(gè)實(shí)施例中,所述輪廓圖的確定過(guò)程還包括:
21、確定多個(gè)目標(biāo)圖片,并基于邊緣識(shí)別方式,對(duì)各所述目標(biāo)圖片中第一邊緣像素點(diǎn)的位置進(jìn)行檢測(cè),得到各所述目標(biāo)圖片的邊緣檢測(cè)結(jié)果;
22、基于每一所述目標(biāo)圖片各自的邊緣檢測(cè)結(jié)果,確定每一所述目標(biāo)圖片對(duì)應(yīng)的輪廓圖。
23、在其中一個(gè)實(shí)施例中,所述輪廓圖的確定過(guò)程還包括:
24、確定多個(gè)目標(biāo)圖片,并對(duì)每一所述目標(biāo)圖片進(jìn)行二值化處理,得到多個(gè)二值化圖片;
25、將各所述二值化圖片中的黑點(diǎn)作為目標(biāo)點(diǎn),對(duì)與所述目標(biāo)點(diǎn)相鄰的像素點(diǎn)進(jìn)行檢測(cè),得到各所述目標(biāo)圖片的檢測(cè)結(jié)果;
26、基于每一所述目標(biāo)圖片各自的檢測(cè)結(jié)果,從所述黑點(diǎn)中分別確定每一所述目標(biāo)圖片各自的多個(gè)第二邊緣像素點(diǎn);
27、連接各所述目標(biāo)圖片的每一第二邊緣像素點(diǎn),得到每一所述目標(biāo)圖片對(duì)應(yīng)的輪廓圖。
28、第二方面,本申請(qǐng)?zhí)峁┝艘环N文本數(shù)據(jù)的詞云圖生成裝置,所述裝置包括:
29、語(yǔ)義擴(kuò)展模塊,用于對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,得到每一所述分詞結(jié)果各自擴(kuò)展后的擴(kuò)展結(jié)果;
30、特征提取模塊,用于對(duì)各所述分詞結(jié)果和對(duì)應(yīng)的擴(kuò)展結(jié)果進(jìn)行特征提取,得到第一特征向量;
31、特征比較模塊,用于將所述第一特征向量與關(guān)鍵詞模型庫(kù)中對(duì)應(yīng)的第二特征向量進(jìn)行相似性比較,得到比較結(jié)果;
32、關(guān)鍵詞確定模塊,用于根據(jù)所述比較結(jié)果確定所述目標(biāo)文本數(shù)據(jù)中允許突出顯示的關(guān)鍵詞;
33、詞云圖生成模塊,用于將所述關(guān)鍵詞填充至多個(gè)輪廓圖,并在所述輪廓圖中突出顯示所述關(guān)鍵詞,得到文本數(shù)據(jù)的多個(gè)詞云圖。
34、第三方面,本申請(qǐng)?zhí)峁┝艘环N計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的方法的步驟。
35、第四方面,本申請(qǐng)?zhí)峁┝艘环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法的步驟。
36、第五方面,本申請(qǐng)?zhí)峁┝艘环N計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法的步驟。
37、上述文本數(shù)據(jù)的詞云圖生成方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,通過(guò)對(duì)目標(biāo)文本數(shù)據(jù)的分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,從而可以利用分詞結(jié)果的第一特征向量、以及與分詞結(jié)果具有相同含義的擴(kuò)展結(jié)果的第一特征向量,和關(guān)鍵詞模型庫(kù)中的第二特征向量進(jìn)行相似性比較,避免出現(xiàn)關(guān)鍵詞遺漏的情況;通過(guò)將得到關(guān)鍵詞和和表征圖片輪廓的多個(gè)輪廓圖進(jìn)行結(jié)合,可以同時(shí)得到多個(gè)具有不同形狀的詞云圖,從而提升了生成不同形狀的詞云圖的效率。
1.一種文本數(shù)據(jù)的詞云圖生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展之前,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)目標(biāo)文本數(shù)據(jù)的每一分詞結(jié)果進(jìn)行語(yǔ)義擴(kuò)展,得到每一所述分詞結(jié)果各自擴(kuò)展后的擴(kuò)展結(jié)果,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述輪廓圖的確定過(guò)程包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述輪廓圖的確定過(guò)程還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述輪廓圖的確定過(guò)程還包括:
7.一種文本數(shù)據(jù)的詞云圖生成裝置,其特征在于,所述裝置包括:
8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。