一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法
【專利摘要】本發(fā)明公開了一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,在數(shù)據(jù)庫同步環(huán)節(jié)對數(shù)據(jù)進(jìn)行篩選,通過控制進(jìn)入輿情分析系統(tǒng)的數(shù)據(jù),進(jìn)行輿情分析系統(tǒng)優(yōu)化;在采集信息導(dǎo)入輿情分析系統(tǒng)時(shí),在數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫信息,把數(shù)據(jù)庫模塊中的信息分詞后,先后比對這兩個(gè)詞庫中的詞匯,若這條信息的詞匯里有輿情包含詞庫詞匯且沒有輿情排除詞庫的詞匯,則這條信息是輿情信息導(dǎo)入到輿情分析系統(tǒng)里,這樣減小了輿情分析系統(tǒng)數(shù)據(jù)量的壓力,提升了分析靈敏度和分析結(jié)果的準(zhǔn)確性。
【專利說明】一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及輿情分析系統(tǒng),具體地說是一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法。
【背景技術(shù)】
[0003]輿情系統(tǒng)一般包括輿情采集系統(tǒng)、輿情分析系統(tǒng)、輿情展示系統(tǒng)。輿情采集系統(tǒng)會(huì)把用戶關(guān)注的某些門戶網(wǎng)站或某類題材,如新聞、論壇不加過濾得都抓取到系統(tǒng)中。通過數(shù)據(jù)同步模塊,把采集到的數(shù)據(jù)導(dǎo)入到輿情分析系統(tǒng)里。再經(jīng)過分析系統(tǒng)處理,把采集到的數(shù)據(jù)進(jìn)行分類、聚類操作,形成專題、關(guān)注點(diǎn),并通過輿情展示系統(tǒng)直觀得展現(xiàn)給用戶。因此如果在數(shù)據(jù)同步時(shí),把不經(jīng)過濾的采集信息全部導(dǎo)入分析系統(tǒng)里,會(huì)導(dǎo)致導(dǎo)入很多非輿情的信息。這部分信息不但加大了輿情分析系統(tǒng)的分析數(shù)據(jù)量壓力,而且雜亂無章的采集信息降低了專題、關(guān)注點(diǎn)等方面分析結(jié)果的準(zhǔn)確性;同時(shí),輿情展示系統(tǒng)會(huì)顯示出很多用戶并不關(guān)心內(nèi)容,影響用戶體驗(yàn)。
【發(fā)明內(nèi)容】
[0004]針對目前技術(shù)存在的不足之處,本發(fā)明提出了一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法。
[0005]本發(fā)明所述一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,解決上述技術(shù)問題采用的技術(shù)方案如下:所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,適用于輿情系統(tǒng)的優(yōu)化,在數(shù)據(jù)庫同步環(huán)節(jié)對數(shù)據(jù)進(jìn)行篩選,通過控制進(jìn)入輿情分析系統(tǒng)的數(shù)據(jù),進(jìn)行輿情分析系統(tǒng)優(yōu)化;所述輿情分析系統(tǒng)優(yōu)化方法提出了一種優(yōu)化輿情分析系統(tǒng),所述優(yōu)化輿情分析系統(tǒng)的體系結(jié)構(gòu)包括:數(shù)據(jù)庫模塊、數(shù)據(jù)同步模塊和輿情分析系統(tǒng);其中,
所述數(shù)據(jù)庫模塊是存儲輿情信息的模塊,所述數(shù)據(jù)庫模塊為輿情采集系統(tǒng)的一部分,是最終存儲采集信息的模塊;
所述數(shù)據(jù)同步模塊是數(shù)據(jù)庫模塊和輿情分析系統(tǒng)的橋梁,通過該數(shù)據(jù)同步模塊把輿情信息傳送到輿情分析系統(tǒng)里;所述數(shù)據(jù)同步模塊中包括分詞庫、輿情包含詞庫、輿情排除詞庫,所述輿情包含詞庫里是一些典型輿情詞匯,所述輿情排除詞庫里是一些典型的非輿情詞匯;
所述輿情分析系統(tǒng)提供輿情分析功能;
所述輿情分析系統(tǒng)優(yōu)化方法,在采集信息導(dǎo)入輿情分析系統(tǒng)時(shí),加入了信息篩選過濾操作,只往輿情分析系統(tǒng)中導(dǎo)入篩選出的輿情信息;即在數(shù)據(jù)庫同步時(shí),在數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫信息,對采集信息進(jìn)行詞匯對比過濾,通過在這兩種不同的詞庫之間過濾信息的邏輯關(guān)系,把數(shù)據(jù)庫模塊中的信息篩選過濾出來,只把通過篩選的輿情信息導(dǎo)入到輿情分析系統(tǒng)里,進(jìn)行輿情分析,這樣減小了輿情分析系統(tǒng)的壓力,并提升了輿情分析的效率和準(zhǔn)確性。
[0006]本發(fā)明所述一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法具有的有益效果:
本發(fā)明所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,在數(shù)據(jù)庫同步時(shí)添加輿情詞庫
信息,將采集信息導(dǎo)入輿情分析系統(tǒng)時(shí),加入了信息篩選過濾操作,只導(dǎo)入輿情信息進(jìn)入輿情分析系統(tǒng),減小了輿情分析系統(tǒng)數(shù)據(jù)量的壓力,提升了分析靈敏度和分析結(jié)果的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0007]附圖1為原有的數(shù)據(jù)同步模塊和輿情分析系統(tǒng)連接的示意圖;
附圖2為基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法的實(shí)施流程圖。
【具體實(shí)施方式】
[0008]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法進(jìn)行詳細(xì)說明。
[0009]本發(fā)明所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,適用于輿情系統(tǒng)的優(yōu)化,在數(shù)據(jù)庫同步環(huán)節(jié)對數(shù)據(jù)進(jìn)行篩選,通過控制進(jìn)入輿情分析系統(tǒng)的數(shù)據(jù),提升了輿情分析效率和準(zhǔn)確性;所述輿情分析系統(tǒng)優(yōu)化方法提出了一種優(yōu)化輿情分析系統(tǒng),所述優(yōu)化輿情分析系統(tǒng)的體系結(jié)構(gòu)包括:數(shù)據(jù)庫模塊、數(shù)據(jù)同步模塊和輿情分析系統(tǒng);其中,
所述數(shù)據(jù)庫模塊是存儲輿情信息的模塊,所述數(shù)據(jù)庫模塊為輿情采集系統(tǒng)的一部分,是最終存儲采集信息的模塊;
所述數(shù)據(jù)同步模塊是數(shù)據(jù)庫模塊和輿情分析系統(tǒng)的橋梁,通過該數(shù)據(jù)同步模塊把輿情信息傳送到輿情分析系統(tǒng)里;所述數(shù)據(jù)同步模塊中包括分詞庫、輿情包含詞庫、輿情排除詞庫,所述輿情包含詞庫里是一些典型輿情詞匯,所述輿情排除詞庫里是一些典型的非輿情詞匯;
所述輿情分析系統(tǒng)提供輿情分析功能;
所述輿情分析系統(tǒng)優(yōu)化方法,在采集信息導(dǎo)入輿情分析系統(tǒng)時(shí),加入了信息篩選過濾操作,只往輿情分析系統(tǒng)中導(dǎo)入篩選出的輿情信息;即在數(shù)據(jù)庫同步時(shí),在數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫信息,對采集信息進(jìn)行詞匯對比過濾,通過在這兩種不同的詞庫之間過濾信息的邏輯關(guān)系,把數(shù)據(jù)庫模塊中的信息篩選過濾出來,只把通過篩選的輿情信息導(dǎo)入到輿情分析系統(tǒng)里,進(jìn)行輿情分析,這樣減小了輿情分析系統(tǒng)的壓力,并提升了輿情分析的效率和準(zhǔn)確性。
[0010]實(shí)施例:
下面通過一個(gè)實(shí)施例對本發(fā)明所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法的優(yōu)點(diǎn)和設(shè)計(jì)內(nèi)容,進(jìn)行詳細(xì)說明:
本實(shí)施所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法中,所提出的優(yōu)化輿情分析系統(tǒng)的體系結(jié)構(gòu)包括:數(shù)據(jù)庫模塊、數(shù)據(jù)同步模塊和輿情分析系統(tǒng);其中,所述數(shù)據(jù)庫模塊是輿情采集系統(tǒng)的一部分,是最終存儲采集儲輿信息的模塊;所述數(shù)據(jù)同步模塊是數(shù)據(jù)庫模塊和輿情分析系統(tǒng)的橋梁,通過該數(shù)據(jù)同步模塊把輿情信息傳送到輿情分析系統(tǒng)里;所述數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫,所述輿情包含詞庫里是一些典型輿情詞匯,所述輿情排除詞庫里是一些典型的非輿情詞匯;所述輿情分析系統(tǒng)提供輿情分析功倉泛;
本實(shí)施例所述優(yōu)化輿情分析系統(tǒng),在數(shù)據(jù)庫同步操作時(shí),在數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫信息,通過兩層輿情詞庫比對的方式把數(shù)據(jù)庫模塊中的信息篩選過濾;具體操作是把數(shù)據(jù)庫模塊中的信息分詞后,先后比對輿情包含詞庫、輿情排除詞庫中的詞匯,判斷這條信息的詞匯是否匹配輿情包含詞庫且不匹配輿情排除詞庫,若這條信息的詞匯里有輿情包含詞庫詞匯且沒有輿情排除詞庫的詞匯,則這條信息就是輿情信息,只把通過篩選的輿情信息導(dǎo)入到輿情分析系統(tǒng)里,這樣通過輿情詞庫的過濾篩選,把篩選后的信息傳送到輿情分析系統(tǒng)里;進(jìn)行輿情分析,減小了輿情分析系統(tǒng)的壓力,并提升了輿情分析的效率和準(zhǔn)確性。
[0011]附圖2為本發(fā)明所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法的實(shí)施流程圖,如附圖2所示,該輿情分析系統(tǒng)優(yōu)化方法的具體實(shí)施流程如下:
(O首先在數(shù)據(jù)庫同步時(shí),從數(shù)據(jù)庫模塊里獲取一條待處理的信息;
(2)通過分詞庫對待處理信息進(jìn)行分詞處理;
(3)判斷這條信息分成的詞匯里是否和輿情包含詞庫有相同的詞;
(4)若有,則這條信息暫時(shí)符合輿情信息標(biāo)準(zhǔn),進(jìn)入第5步操作;若沒有,則這條消息不是輿情信息,消息丟棄,進(jìn)行第I步操作;
(5)判斷該條信息分成的詞匯里是否和輿情排除詞庫有相同的詞;
(6)若沒有,則這條信息是輿情信息,把這條信息存入輿情分析系統(tǒng);若有,則這條消息不是輿情信息,消息丟棄,進(jìn)行第I步操作。
[0012]附圖1為原有的數(shù)據(jù)同步模塊和輿情分析系統(tǒng)連接的示意圖,如附圖1所示,首先從數(shù)據(jù)庫模塊里獲取一條待處理的信息,通過分詞庫對這條信息進(jìn)行分詞,然后將這條信息導(dǎo)入輿情分析系統(tǒng),進(jìn)行輿情分析。本發(fā)明所述基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,通過與上述原有數(shù)據(jù)同步模塊和輿情分析系統(tǒng)的連接情況比較,能夠很容易的看出本發(fā)明中只往輿情分析系統(tǒng)中導(dǎo)入經(jīng)過兩層輿情詞庫信息對比過濾后的輿情信息,顯著降低了輿情分析系統(tǒng)的工作壓力,并提高了輿情分析的效率和準(zhǔn)確性。
[0013]上述【具體實(shí)施方式】僅是本發(fā)明的具體個(gè)案,本發(fā)明的專利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】,任何符合本發(fā)明的權(quán)利要求書的且任何所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員對其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。
【權(quán)利要求】
1.一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,其特征在于,在數(shù)據(jù)庫同步環(huán)節(jié)對數(shù)據(jù)進(jìn)行篩選,通過控制進(jìn)入輿情分析系統(tǒng)的數(shù)據(jù),進(jìn)行輿情分析系統(tǒng)優(yōu)化;所述輿情分析系統(tǒng)優(yōu)化方法提出了一種優(yōu)化輿情分析系統(tǒng),所述優(yōu)化輿情分析系統(tǒng)的體系結(jié)構(gòu)包括:數(shù)據(jù)庫模塊、數(shù)據(jù)同步模塊和輿情分析系統(tǒng);其中, 所述數(shù)據(jù)庫模塊是存儲輿情信息的模塊,所述數(shù)據(jù)庫模塊為輿情采集系統(tǒng)的一部分,是最終存儲采集信息的模塊; 所述數(shù)據(jù)同步模塊是數(shù)據(jù)庫模塊和輿情分析系統(tǒng)的橋梁,通過該數(shù)據(jù)同步模塊把輿情信息傳送到輿情分析系統(tǒng)里;所述數(shù)據(jù)同步模塊中包括分詞庫、輿情包含詞庫、輿情排除詞庫,所述輿情包含詞庫里包括典型輿情詞匯,所述輿情排除詞庫里包括典型的非輿情詞匯; 所述輿情分析系統(tǒng)提供輿情分析功能; 所述輿情分析系統(tǒng)優(yōu)化方法,在采集信息導(dǎo)入輿情分析系統(tǒng)時(shí),加入了信息篩選過濾操作,只往輿情分析系統(tǒng)中導(dǎo)入輿情信息;即在數(shù)據(jù)庫同步時(shí),在數(shù)據(jù)同步模塊中添加輿情包含詞庫、輿情排除詞庫信息,對采集信息進(jìn)行詞匯對比過濾,通過在這兩種不同的詞庫之間過濾信息的邏輯關(guān)系,把數(shù)據(jù)庫模塊中的信息篩選過濾出來,只把通過篩選的信息導(dǎo)入到輿情分析系統(tǒng)里,進(jìn)行輿情分析。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,其特征在于,在數(shù)據(jù)庫同步時(shí),在數(shù)據(jù)同步模塊中加入輿情包含詞庫、輿情排除詞庫信息,對采集信息進(jìn)行詞匯對比過濾,通過在這兩種不同的詞庫之間過濾信息的邏輯關(guān)系,具體包括:把數(shù)據(jù)庫模塊中的信息分詞后,先后比對輿情包含詞庫、輿情排除詞庫中的詞匯,判斷這條信息的詞匯是否匹配輿情包含詞庫且不匹配輿情排除詞庫,若這條信息的詞匯里有輿情包含詞庫詞匯且沒有輿情排除詞庫的詞匯,則這條信息是輿情信息,只把通過篩選的輿情信息導(dǎo)入到輿情分析系統(tǒng)里,進(jìn)行輿情分析。
3.根據(jù)權(quán)利要求2所述的一種基于數(shù)據(jù)庫同步的輿情分析系統(tǒng)優(yōu)化方法,其特征在于,該輿情分析系統(tǒng)優(yōu)化方法的具體實(shí)施流程如下: 首先在數(shù)據(jù)庫同步時(shí),從數(shù)據(jù)庫模塊里獲取一條待處理的信息; 通過分詞庫對待處理信息進(jìn)行分詞處理; 判斷這條信息分成的詞匯里是否和輿情包含詞庫有相同的詞; 若有,則這條信息暫時(shí)符合輿情信息標(biāo)準(zhǔn),進(jìn)入第5步操作;若沒有,則這條消息不是輿情信息,消息丟棄,進(jìn)行第I步操作; 判斷該條信息分成的詞匯里是否和輿情排除詞庫有相同的詞; 若沒有,則這條信息是輿情信息,把這條信息存入輿情分析系統(tǒng);若有,則這條消息不是輿情信息,消息丟棄,進(jìn)行第I步操作。
【文檔編號】G06F17/30GK103984777SQ201410248277
【公開日】2014年8月13日 申請日期:2014年6月6日 優(yōu)先權(quán)日:2014年6月6日
【發(fā)明者】程瑤, 劉粉粉, 陳大雅 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司