文本涉及地分析方法及其系統(tǒng)的制作方法

文檔序號：9844093閱讀：671來源：國知局

文本涉及地分析方法及其系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及文本分析領域，尤其涉及一種文本涉及地分析方法及其系統(tǒng)。
【背景技術】
[0002] 隨著網絡技術的發(fā)展和用戶數量的不斷增長，網絡中產生的數據正經歷爆炸式的增長，這對網絡數據的分析提出了更多和更高的要求。文本分析和挖掘技術是目前被廣泛應用的一項技術，通過相應的技術和方法對文本的語義內容進行分析，歸類等一系列操作，主要用于商品推薦，輿情分析，文本搜索等領域。
[0003] 在輿情分析中，需要對網絡中輿情在不同的主題下進行整理和分析，例如不同地域存在的輿情熱點和發(fā)展趨勢。為此，對于發(fā)帖內容中所涉及的地域信息進行抽取和判斷是輿情分析中一個相對重要的環(huán)節(jié)。
[0004] 在地域判斷這一個環(huán)節(jié)中，已存在的技術在通過分詞技術提取地域相關名詞后，主要通過在地域區(qū)劃數據查找匹配來判斷文本內容的地域屬性。
[0005] 基于區(qū)劃數據庫的方法直觀、易實現(xiàn)。然而，該方法的效果卻不理想，而且依賴文本中存在對應的地區(qū)名稱?，F(xiàn)實中，網絡發(fā)帖文本中往往不直接提及區(qū)劃地域名稱，通常只出現(xiàn)一些街道、地標;而同一街道或地標名稱可能對應了多個城市。在這種情況下，該方法無法提取和判斷文本的地域屬性。
[0006] 在大數據和知識圖譜的發(fā)展背景下，文本分析有新的研究方向和技術。例如通過知識圖譜來對文本進行分析能夠取得更好的效果。但由于知識圖譜相關技術和應用仍存在效率和易用性上的問題，在實際應用中未被廣泛應用。
[0007] 在申請?zhí)枮?01210581448.8的公開文件中，提出了一種文本分析方法及文本分析器，所述方法包括:對獲取的文本以字符為單位進行切分處理，對切分得到的字符按照預先設置的字符特征進行特征標注，形成特征字串；按照預先構建的分詞模型，對特征字串進行分詞處理，得到包含字序的分詞結果;根據分詞結果中的字序進行合并處理，對合并得到的詞按照預先設置的字符特征進行特征標注，形成特征詞串；根據預先構建的詞性標注模型，對特征詞串進行詞性標注，得到詞性標注結果;確認詞性標注結果中包含實體詞詞性標注，則按照相鄰相同規(guī)則，合并詞性標注結果中包含實體詞詞性標注的實體詞，得到文本分析結果。但該方法主要分析文本中的實體詞，無法分析文本的涉及地。

【發(fā)明內容】

[0008] 本發(fā)明所要解決的技術問題是:提供一種文本涉及地分析方法及其系統(tǒng)，可對文本內容進行分析判斷，獲取文本屬地。
[0009] 為了解決上述技術問題，本發(fā)明采用的技術方案為:一種文本涉及地分析方法，包括
[0010] 提取文本的地域相關名詞；
[0011] 將所述地域相關名詞進行地域匹配，得到包含文本涉及地的地域區(qū)劃列表；
[0012] 計算所述地域相關名詞在所述文本中的詞頻概率，確定所述地域區(qū)劃列表中對應的文本涉及地的第一概率；
[0013] 計算所述地域相關名詞及其對應的文本涉及地的語義相關度;根據所述語義相關度，獲取所述文本涉及地的語義概率；
[0014] 獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息;分別獲取所述文本涉及地在所述統(tǒng)計信息中的歷史概率;根據所述歷史概率，獲取所述文本涉及地的第二概率；
[0015] 根據所述第一概率、語義概率和第二概率，獲取所述文本涉及地的綜合概率；
[0016] 若所述綜合概率大于等于第一預設閾值，則判定所述文本涉及地為所述文本的屬地;將所述文本涉及地添加至所述文本的地域屬性標簽。
[0017] 本發(fā)明還涉及一種文本涉及地分析系統(tǒng)，包括
[0018] 提取模塊，用于提取文本的地域相關名詞；
[0019] 匹配模塊，用于將所述地域相關名詞進行地域匹配，得到包含文本涉及地的地域區(qū)劃列表；
[0020] 第一確定模塊，用于計算所述地域相關名詞在所述文本中的詞頻概率，確定所述地域區(qū)劃列表中對應的文本涉及地的第一概率；
[0021] 第一計算模塊，用于計算所述地域相關名詞及其對應的文本涉及地的語義相關度；
[0022] 第一獲取模塊，用于根據所述語義相關度，獲取所述文本涉及地的語義概率；
[0023] 第二獲取模塊，用于獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息；
[0024] 第三獲取模塊，用于分別獲取所述文本涉及地在所述統(tǒng)計信息中的歷史概率
[0025] 第四獲取模塊，用于根據所述歷史概率，獲取所述文本涉及地的第二概率；
[0026] 第五獲取模塊，用于根據所述第一概率、語義概率和第二概率，獲取所述文本涉及地的綜合概率；
[0027] 第一判定模塊，用于若所述綜合概率大于等于第一預設閾值，則判定所述文本涉及地為所述文本的屬地；
[0028] 第一添加模塊，用于將所述文本涉及地添加至所述文本的地域屬性標簽。
[0029] 本發(fā)明的有益效果在于:對文本所在版塊和發(fā)布人進行涉及地信息的統(tǒng)計，并將所述統(tǒng)計信息應用于文本的地域判斷，所述統(tǒng)計信息能夠有效地反映所述版本或人物的地域偏好特性，從而更有效地輔助判斷文本的地域屬性，提高地域分析判斷的準確性;對地域相關名詞和涉及地進行語義關聯(lián)計算，并將所述關聯(lián)度用于地域判斷，通過對包含第一概率、語義概率和第二概率的綜合概率進行分析，進一步提高了地域分析判斷的準確性。
【附圖說明】
[0030] 圖1為本發(fā)明一種文本涉及地分析方法的流程圖；
[0031 ]圖2為本發(fā)明實施例一的方法流程圖；
[0032]圖3為本發(fā)明實施例二的方法流程圖；
[0033]圖4為本發(fā)明一種文本涉及地分析系統(tǒng)的結構示意圖；
[0034] 圖5為本發(fā)明實施例三的系統(tǒng)結構示意圖；
[0035] 圖6為本發(fā)明實施例四的系統(tǒng)結構示意圖。
[0036] 標號說明：
[0037] 1、提取模塊;2、匹配模塊;3、第一確定模塊;4、第一計算模塊;5、第一獲取模塊;6、第二獲取模塊;7、第三獲取模塊;8、第四獲取模塊;9、第五獲取模塊;10、第一判定模塊;11、第一添加模塊；12、第二添加模塊；13、更新模塊；14、第二確定模塊；15、第三確定模塊；16、關聯(lián)模塊;17、第一判斷模塊;18、第二判定模塊;19、第二判斷模塊;20、修改模塊。
【具體實施方式】
[0038]為詳細說明本發(fā)明的技術內容、所實現(xiàn)目的及效果，以下結合實施方式并配合附圖詳予說明。
[0039]本發(fā)明最關鍵的構思在于:依據文本所在版塊屬地和發(fā)布人屬地進行涉及地信息的統(tǒng)計，并將統(tǒng)計信息應用于文本的地域判斷中。
[0040] 請參閱圖1，一種文本涉及地分析方法，包括
[0041] 提取文本的地域相關名詞；
[0042] 將所述地域相關名詞進行地域匹配，得到包含文本涉及地的地域區(qū)劃列表；
[0043] 計算所述地域相關名詞在所述文本中的詞頻概率，確定所述地域區(qū)劃列表中對應的文本涉及地的第一概率；
[0044] 計算所述地域相關名詞及其對應的文

完整全部詳細技術資料下載

當前第1頁1 2 3 4