文本涉及地分析方法及其系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及文本分析領域,尤其涉及一種文本涉及地分析方法及其系統(tǒng)。
【背景技術】
[0002] 隨著網絡技術的發(fā)展和用戶數量的不斷增長,網絡中產生的數據正經歷爆炸式的 增長,這對網絡數據的分析提出了更多和更高的要求。文本分析和挖掘技術是目前被廣泛 應用的一項技術,通過相應的技術和方法對文本的語義內容進行分析,歸類等一系列操作, 主要用于商品推薦,輿情分析,文本搜索等領域。
[0003] 在輿情分析中,需要對網絡中輿情在不同的主題下進行整理和分析,例如不同地 域存在的輿情熱點和發(fā)展趨勢。為此,對于發(fā)帖內容中所涉及的地域信息進行抽取和判斷 是輿情分析中一個相對重要的環(huán)節(jié)。
[0004] 在地域判斷這一個環(huán)節(jié)中,已存在的技術在通過分詞技術提取地域相關名詞后, 主要通過在地域區(qū)劃數據查找匹配來判斷文本內容的地域屬性。
[0005] 基于區(qū)劃數據庫的方法直觀、易實現(xiàn)。然而,該方法的效果卻不理想,而且依賴文 本中存在對應的地區(qū)名稱?,F(xiàn)實中,網絡發(fā)帖文本中往往不直接提及區(qū)劃地域名稱,通常只 出現(xiàn)一些街道、地標;而同一街道或地標名稱可能對應了多個城市。在這種情況下,該方法 無法提取和判斷文本的地域屬性。
[0006] 在大數據和知識圖譜的發(fā)展背景下,文本分析有新的研究方向和技術。例如通過 知識圖譜來對文本進行分析能夠取得更好的效果。但由于知識圖譜相關技術和應用仍存在 效率和易用性上的問題,在實際應用中未被廣泛應用。
[0007] 在申請?zhí)枮?01210581448.8的公開文件中,提出了一種文本分析方法及文本分析 器,所述方法包括:對獲取的文本以字符為單位進行切分處理,對切分得到的字符按照預先 設置的字符特征進行特征標注,形成特征字串;按照預先構建的分詞模型,對特征字串進行 分詞處理,得到包含字序的分詞結果;根據分詞結果中的字序進行合并處理,對合并得到的 詞按照預先設置的字符特征進行特征標注,形成特征詞串;根據預先構建的詞性標注模型, 對特征詞串進行詞性標注,得到詞性標注結果;確認詞性標注結果中包含實體詞詞性標注, 則按照相鄰相同規(guī)則,合并詞性標注結果中包含實體詞詞性標注的實體詞,得到文本分析 結果。但該方法主要分析文本中的實體詞,無法分析文本的涉及地。
【發(fā)明內容】
[0008] 本發(fā)明所要解決的技術問題是:提供一種文本涉及地分析方法及其系統(tǒng),可對文 本內容進行分析判斷,獲取文本屬地。
[0009] 為了解決上述技術問題,本發(fā)明采用的技術方案為:一種文本涉及地分析方法,包 括
[0010] 提取文本的地域相關名詞;
[0011] 將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
[0012] 計算所述地域相關名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對應 的文本涉及地的第一概率;
[0013] 計算所述地域相關名詞及其對應的文本涉及地的語義相關度;根據所述語義相關 度,獲取所述文本涉及地的語義概率;
[0014] 獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息;分別獲取所述文本涉及 地在所述統(tǒng)計信息中的歷史概率;根據所述歷史概率,獲取所述文本涉及地的第二概率;
[0015] 根據所述第一概率、語義概率和第二概率,獲取所述文本涉及地的綜合概率;
[0016] 若所述綜合概率大于等于第一預設閾值,則判定所述文本涉及地為所述文本的屬 地;將所述文本涉及地添加至所述文本的地域屬性標簽。
[0017] 本發(fā)明還涉及一種文本涉及地分析系統(tǒng),包括
[0018] 提取模塊,用于提取文本的地域相關名詞;
[0019] 匹配模塊,用于將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域 區(qū)劃列表;
[0020] 第一確定模塊,用于計算所述地域相關名詞在所述文本中的詞頻概率,確定所述 地域區(qū)劃列表中對應的文本涉及地的第一概率;
[0021] 第一計算模塊,用于計算所述地域相關名詞及其對應的文本涉及地的語義相關 度;
[0022] 第一獲取模塊,用于根據所述語義相關度,獲取所述文本涉及地的語義概率;
[0023] 第二獲取模塊,用于獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息;
[0024] 第三獲取模塊,用于分別獲取所述文本涉及地在所述統(tǒng)計信息中的歷史概率
[0025] 第四獲取模塊,用于根據所述歷史概率,獲取所述文本涉及地的第二概率;
[0026] 第五獲取模塊,用于根據所述第一概率、語義概率和第二概率,獲取所述文本涉及 地的綜合概率;
[0027] 第一判定模塊,用于若所述綜合概率大于等于第一預設閾值,則判定所述文本涉 及地為所述文本的屬地;
[0028] 第一添加模塊,用于將所述文本涉及地添加至所述文本的地域屬性標簽。
[0029] 本發(fā)明的有益效果在于:對文本所在版塊和發(fā)布人進行涉及地信息的統(tǒng)計,并將 所述統(tǒng)計信息應用于文本的地域判斷,所述統(tǒng)計信息能夠有效地反映所述版本或人物的地 域偏好特性,從而更有效地輔助判斷文本的地域屬性,提高地域分析判斷的準確性;對地域 相關名詞和涉及地進行語義關聯(lián)計算,并將所述關聯(lián)度用于地域判斷,通過對包含第一概 率、語義概率和第二概率的綜合概率進行分析,進一步提高了地域分析判斷的準確性。
【附圖說明】
[0030] 圖1為本發(fā)明一種文本涉及地分析方法的流程圖;
[0031 ]圖2為本發(fā)明實施例一的方法流程圖;
[0032]圖3為本發(fā)明實施例二的方法流程圖;
[0033]圖4為本發(fā)明一種文本涉及地分析系統(tǒng)的結構示意圖;
[0034] 圖5為本發(fā)明實施例三的系統(tǒng)結構示意圖;
[0035] 圖6為本發(fā)明實施例四的系統(tǒng)結構示意圖。
[0036] 標號說明:
[0037] 1、提取模塊;2、匹配模塊;3、第一確定模塊;4、第一計算模塊;5、第一獲取模塊;6、 第二獲取模塊;7、第三獲取模塊;8、第四獲取模塊;9、第五獲取模塊;10、第一判定模塊;11、 第一添加模塊;12、第二添加模塊;13、更新模塊;14、第二確定模塊;15、第三確定模塊;16、 關聯(lián)模塊;17、第一判斷模塊;18、第二判定模塊;19、第二判斷模塊;20、修改模塊。
【具體實施方式】
[0038]為詳細說明本發(fā)明的技術內容、所實現(xiàn)目的及效果,以下結合實施方式并配合附 圖詳予說明。
[0039]本發(fā)明最關鍵的構思在于:依據文本所在版塊屬地和發(fā)布人屬地進行涉及地信息 的統(tǒng)計,并將統(tǒng)計信息應用于文本的地域判斷中。
[0040] 請參閱圖1,一種文本涉及地分析方法,包括
[0041] 提取文本的地域相關名詞;
[0042] 將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
[0043] 計算所述地域相關名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對應 的文本涉及地的第一概率;
[0044] 計算所述地域相關名詞及其對應的文