国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本涉及地分析方法及其系統(tǒng)的制作方法

      文檔序號:9844093閱讀:671來源:國知局
      文本涉及地分析方法及其系統(tǒng)的制作方法
      【技術領域】
      [0001] 本發(fā)明涉及文本分析領域,尤其涉及一種文本涉及地分析方法及其系統(tǒng)。
      【背景技術】
      [0002] 隨著網絡技術的發(fā)展和用戶數量的不斷增長,網絡中產生的數據正經歷爆炸式的 增長,這對網絡數據的分析提出了更多和更高的要求。文本分析和挖掘技術是目前被廣泛 應用的一項技術,通過相應的技術和方法對文本的語義內容進行分析,歸類等一系列操作, 主要用于商品推薦,輿情分析,文本搜索等領域。
      [0003] 在輿情分析中,需要對網絡中輿情在不同的主題下進行整理和分析,例如不同地 域存在的輿情熱點和發(fā)展趨勢。為此,對于發(fā)帖內容中所涉及的地域信息進行抽取和判斷 是輿情分析中一個相對重要的環(huán)節(jié)。
      [0004] 在地域判斷這一個環(huán)節(jié)中,已存在的技術在通過分詞技術提取地域相關名詞后, 主要通過在地域區(qū)劃數據查找匹配來判斷文本內容的地域屬性。
      [0005] 基于區(qū)劃數據庫的方法直觀、易實現(xiàn)。然而,該方法的效果卻不理想,而且依賴文 本中存在對應的地區(qū)名稱?,F(xiàn)實中,網絡發(fā)帖文本中往往不直接提及區(qū)劃地域名稱,通常只 出現(xiàn)一些街道、地標;而同一街道或地標名稱可能對應了多個城市。在這種情況下,該方法 無法提取和判斷文本的地域屬性。
      [0006] 在大數據和知識圖譜的發(fā)展背景下,文本分析有新的研究方向和技術。例如通過 知識圖譜來對文本進行分析能夠取得更好的效果。但由于知識圖譜相關技術和應用仍存在 效率和易用性上的問題,在實際應用中未被廣泛應用。
      [0007] 在申請?zhí)枮?01210581448.8的公開文件中,提出了一種文本分析方法及文本分析 器,所述方法包括:對獲取的文本以字符為單位進行切分處理,對切分得到的字符按照預先 設置的字符特征進行特征標注,形成特征字串;按照預先構建的分詞模型,對特征字串進行 分詞處理,得到包含字序的分詞結果;根據分詞結果中的字序進行合并處理,對合并得到的 詞按照預先設置的字符特征進行特征標注,形成特征詞串;根據預先構建的詞性標注模型, 對特征詞串進行詞性標注,得到詞性標注結果;確認詞性標注結果中包含實體詞詞性標注, 則按照相鄰相同規(guī)則,合并詞性標注結果中包含實體詞詞性標注的實體詞,得到文本分析 結果。但該方法主要分析文本中的實體詞,無法分析文本的涉及地。

      【發(fā)明內容】

      [0008] 本發(fā)明所要解決的技術問題是:提供一種文本涉及地分析方法及其系統(tǒng),可對文 本內容進行分析判斷,獲取文本屬地。
      [0009] 為了解決上述技術問題,本發(fā)明采用的技術方案為:一種文本涉及地分析方法,包 括
      [0010] 提取文本的地域相關名詞;
      [0011] 將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
      [0012] 計算所述地域相關名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對應 的文本涉及地的第一概率;
      [0013] 計算所述地域相關名詞及其對應的文本涉及地的語義相關度;根據所述語義相關 度,獲取所述文本涉及地的語義概率;
      [0014] 獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息;分別獲取所述文本涉及 地在所述統(tǒng)計信息中的歷史概率;根據所述歷史概率,獲取所述文本涉及地的第二概率;
      [0015] 根據所述第一概率、語義概率和第二概率,獲取所述文本涉及地的綜合概率;
      [0016] 若所述綜合概率大于等于第一預設閾值,則判定所述文本涉及地為所述文本的屬 地;將所述文本涉及地添加至所述文本的地域屬性標簽。
      [0017] 本發(fā)明還涉及一種文本涉及地分析系統(tǒng),包括
      [0018] 提取模塊,用于提取文本的地域相關名詞;
      [0019] 匹配模塊,用于將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域 區(qū)劃列表;
      [0020] 第一確定模塊,用于計算所述地域相關名詞在所述文本中的詞頻概率,確定所述 地域區(qū)劃列表中對應的文本涉及地的第一概率;
      [0021] 第一計算模塊,用于計算所述地域相關名詞及其對應的文本涉及地的語義相關 度;
      [0022] 第一獲取模塊,用于根據所述語義相關度,獲取所述文本涉及地的語義概率;
      [0023] 第二獲取模塊,用于獲取所述文本所在版塊的統(tǒng)計信息或發(fā)布人的統(tǒng)計信息;
      [0024] 第三獲取模塊,用于分別獲取所述文本涉及地在所述統(tǒng)計信息中的歷史概率
      [0025] 第四獲取模塊,用于根據所述歷史概率,獲取所述文本涉及地的第二概率;
      [0026] 第五獲取模塊,用于根據所述第一概率、語義概率和第二概率,獲取所述文本涉及 地的綜合概率;
      [0027] 第一判定模塊,用于若所述綜合概率大于等于第一預設閾值,則判定所述文本涉 及地為所述文本的屬地;
      [0028] 第一添加模塊,用于將所述文本涉及地添加至所述文本的地域屬性標簽。
      [0029] 本發(fā)明的有益效果在于:對文本所在版塊和發(fā)布人進行涉及地信息的統(tǒng)計,并將 所述統(tǒng)計信息應用于文本的地域判斷,所述統(tǒng)計信息能夠有效地反映所述版本或人物的地 域偏好特性,從而更有效地輔助判斷文本的地域屬性,提高地域分析判斷的準確性;對地域 相關名詞和涉及地進行語義關聯(lián)計算,并將所述關聯(lián)度用于地域判斷,通過對包含第一概 率、語義概率和第二概率的綜合概率進行分析,進一步提高了地域分析判斷的準確性。
      【附圖說明】
      [0030] 圖1為本發(fā)明一種文本涉及地分析方法的流程圖;
      [0031 ]圖2為本發(fā)明實施例一的方法流程圖;
      [0032]圖3為本發(fā)明實施例二的方法流程圖;
      [0033]圖4為本發(fā)明一種文本涉及地分析系統(tǒng)的結構示意圖;
      [0034] 圖5為本發(fā)明實施例三的系統(tǒng)結構示意圖;
      [0035] 圖6為本發(fā)明實施例四的系統(tǒng)結構示意圖。
      [0036] 標號說明:
      [0037] 1、提取模塊;2、匹配模塊;3、第一確定模塊;4、第一計算模塊;5、第一獲取模塊;6、 第二獲取模塊;7、第三獲取模塊;8、第四獲取模塊;9、第五獲取模塊;10、第一判定模塊;11、 第一添加模塊;12、第二添加模塊;13、更新模塊;14、第二確定模塊;15、第三確定模塊;16、 關聯(lián)模塊;17、第一判斷模塊;18、第二判定模塊;19、第二判斷模塊;20、修改模塊。
      【具體實施方式】
      [0038]為詳細說明本發(fā)明的技術內容、所實現(xiàn)目的及效果,以下結合實施方式并配合附 圖詳予說明。
      [0039]本發(fā)明最關鍵的構思在于:依據文本所在版塊屬地和發(fā)布人屬地進行涉及地信息 的統(tǒng)計,并將統(tǒng)計信息應用于文本的地域判斷中。
      [0040] 請參閱圖1,一種文本涉及地分析方法,包括
      [0041] 提取文本的地域相關名詞;
      [0042] 將所述地域相關名詞進行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
      [0043] 計算所述地域相關名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對應 的文本涉及地的第一概率;
      [0044] 計算所述地域相關名詞及其對應的文
      當前第1頁1 2 3 4 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1