国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      識別文本題材的方法和裝置的制造方法

      文檔序號:9547179閱讀:554來源:國知局
      識別文本題材的方法和裝置的制造方法
      【技術領域】
      [0001] 本申請涉及計算機技術領域,具體涉及自然語言處理技術領域,尤其涉及識別文 本題材的方法和裝置。
      【背景技術】
      [0002] 目前,隨著互聯(lián)網(wǎng)行業(yè)的迅速發(fā)展,互聯(lián)網(wǎng)新聞逐漸成為大眾的主要閱讀來源。為 了更好地引導用戶閱讀、或者為用戶的決策(例如購買股票)提供參考,如何識別出新聞文 本的題材(即主題、概念)成為目前需要解決的問題?,F(xiàn)有技術中識別文本的題材的方法 是:通過將文本與題材庫中的題材文本進行匹配,根據(jù)匹配到的題材文本來識別文本的題 材。
      [0003] 然而,在實際的新聞文本中,題材的表達方式是多種多樣的,大部分情況下不能與 題材庫中題材文本的表達形式完全相同。因此,采用現(xiàn)有技術只能識別出與題材文本的表 達形式完全相同的文本的題材,而無法識別出其它表達形式的文本的題材。

      【發(fā)明內(nèi)容】

      [0004] 本申請的目的在于提出一種識別文本題材的方法和裝置,來解決以上【背景技術】部 分提到的技術問題。
      [0005] 第一方面,本申請?zhí)峁┝艘环N識別文本題材的方法,所述方法包括:接收待識別文 本;根據(jù)預存的題材信息集合中的題材信息的原始題材文本和題材切分文本,在所述題材 信息集合中匹配與所述待識別文本對應的題材信息,其中,所述題材信息包括以下信息:原 始題材文本、與所述原始題材文本相關聯(lián)的題材切分文本,所述題材切分文本通過對所述 原始題材文本進行切分后獲得;根據(jù)匹配結果識別出所述待識別文本的題材。
      [0006] 在一些實施例中,所述根據(jù)預存的題材信息集合中的題材信息的原始題材文本和 題材切分文本,在所述題材集合中匹配與所述待識別文本對應的題材信息,包括:將所述待 識別文本與所述題材信息集合中的各個題材信息的原始題材文本進行匹配;如果匹配到原 始題材文本,則將匹配到的原始題材文本對應的題材信息作為所述與所述待識別文本對應 的題材信息;如果沒有匹配到原始題材文本,則將所述待識別文本與所述題材信息集合中 的各個題材信息的題材切分文本進行匹配;如果匹配到題材切分文本,則將與匹配到的題 材切分文本信息對應的題材信息作為所述待識別文本對應的題材信息。
      [0007] 在一些實施例中,所述將所述待識別文本與所述題材信息集合中的各個題材信息 的原始題材文本進行匹配,包括:通過最大匹配算法將所述待識別文本與所述題材信息集 合中的各個題材信息的原始題材文本進行匹配。
      [0008] 在一些實施例中,所述將所述待識別文本與所述題材信息集合中的各個題材信息 的題材切分文本進行匹配,包括:根據(jù)各個題材切分文本中的字符以及字符間的前后關系, 將所述待識別文本與各個題材切分文本進行匹配。
      [0009] 在一些實施例中,在接收待識別文本之前,所述方法還包括:根據(jù)預先收集的原始 題材文本集合構建N-Gram模型,得到所述原始題材文本集合中的各個原始題材文本對應 的至少一個題材切分文本;在每個原始題材文本對應的至少一個題材切分文本中選擇一個 題材切分文本作為與原始題材文本相關聯(lián)的題材切分文本;將各個原始題材文本對應的題 材信息加入所述題材信息集合中,其中,所述題材信息包括以下信息:原始題材文本、與所 述原始題材文本相關聯(lián)的題材切分文本。
      [0010] 在一些實施例中,所述在每個原始題材文本對應的至少一個題材切分文本中選擇 一個題材切分文本作為與原始題材文本相關聯(lián)的題材切分文本,包括:根據(jù)預先收集的基 準文本集合、各個原始題材文本和所述各個原始題材文本對應的至少一個題材切分文本, 得到各個原始題材文本對應的各個題材切分文本的權重;針對每一個原始題材文本,將所 述原始題材文本對應的各個題材切分文本中權重最高的題材切分文本作為與所述原始題 材文本相關聯(lián)的題材切分文本。
      [0011] 在一些實施例中,所述根據(jù)預先收集的基準文本集合、各個原始題材文本和所述 各個原始題材文本對應的至少一個題材切分文本,得到各個原始題材文本對應的各個題材 切分文本的權重,包括:獲取各個原始題材文本以及各個題材切分文本在所述基準文本集 合中出現(xiàn)的頻次;針對每個原始題材文本,將所述原始題材文本對應的各個題材切分文本 的所述頻次與所述原始題材文本的所述頻次的比值分別作為各個題材切分文本的權重。
      [0012] 第二方面,本申請?zhí)峁┝艘环N識別文本題材的裝置,所述裝置包括:
      [0013] 待識別文本接收單元,用于接收待識別文本;題材信息匹配單元,用于根據(jù)預存的 題材信息集合中的題材信息的原始題材文本和題材切分文本,在所述題材信息集合中匹配 與所述待識別文本對應的題材信息,其中,所述題材信息包括以下信息:原始題材文本、與 所述原始題材文本相關聯(lián)的題材切分文本,所述題材切分文本通過對所述原始題材文本進 行切分后獲得;文本題材識別單元,用于根據(jù)匹配結果識別出所述待識別文本的題材。
      [0014] 在一些實施例中,所述題材信息匹配單元包括:原始題材文本匹配子單元,用于將 所述待識別文本與所述題材信息集合中的各個題材信息的原始題材文本進行匹配,如果匹 配到原始題材文本,則將匹配到的原始題材文本對應的題材信息作為所述與所述待識別文 本對應的題材信息;題材切分文本匹配子單元,用于在沒有匹配到原始題材文本時,將所述 待識別文本與所述題材信息集合中的各個題材信息的題材切分文本進行匹配,如果匹配到 題材切分文本,則將與匹配到的題材切分文本信息對應的題材信息作為所述待識別文本對 應的題材?目息。
      [0015] 在一些實施例中,所述原始題材文本匹配子單元進一步配置用于通過最大匹配算 法將所述待識別文本與所述題材信息集合中的各個題材信息的原始題材文本進行匹配。
      [0016] 在一些實施例中,所述題材切分文本匹配子單元進一步配置用于根據(jù)各個題材切 分文本中的字符以及字符間的前后關系,將所述待識別文本與各個題材切分文本進行匹 配。
      [0017] 在一些實施例中,所述裝置還包括:題材切分文本獲取單元,用于根據(jù)預先收集的 原始題材文本集合構建N-Gram模型,得到所述原始題材文本集合中的各個原始題材文本 對應的至少一個題材切分文本;題材切分文本選擇單元,用于在每個原始題材文本對應的 至少一個題材切分文本中選擇一個題材切分文本作為與原始題材文本相關聯(lián)的題材切分 文本;題材信息添加單元,用于將各個原始題材文本對應的題材信息加入所述題材信息集 合中,其中,所述題材信息包括以下信息:原始題材文本、與所述原始題材文本相關聯(lián)的題 材切分文本。
      [0018] 在一些實施例中,所述題材切分文本選擇單元包括:權重獲取子單元,用于根據(jù)預 先收集的基準文本集合、各個原始題材文本和所述各個原始題材文本對應的至少一個題材 切分文本,得到各個原始題材文本對應的各個題材切分文本的權重;題材切分文選擇子單 元,用于針對每一個原始題材文本,將所述原始題材文本對應的各個題材切分文本中權重 最高的題材切分文本作為與所述原始題材文本相關聯(lián)的題材切分文本。
      [0019] 在一些實施例中,所述權重獲取子單元包括:頻次獲取模塊,用于獲取各個原始題 材文本以及各個題材切分文本在所述基準文本集合中出現(xiàn)的頻次;權重計算模塊,用于針 對每個原始題材文本,將所述原始題材文本對應的各個題材切分文本的所述頻次與所述原 始題材文本的所述頻次的比值分別作為各個題材切分文本的權重。
      [0020] 本申請?zhí)峁┑淖R別文本題材的方法和裝置,通過根據(jù)預存的題材信息集合中的題 材信息的原始題材文本和題材切分文本,在所述題材信息集合中匹配與所述待識別文本對 應的題材信息,并根據(jù)匹配結果識別出所述待識別文本的題材,增加了題材切分文本作為 匹配對象,從而能夠識別出更多表達形式的文本的題材。
      【附圖說明】
      [0021] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它 特征、目的和優(yōu)點將會變得更明顯:
      [0022] 圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;
      [0023] 圖2是根據(jù)本申請的識別文本題材的方法的一個實施例的流程圖;
      [0024] 圖3是根據(jù)本申請的識別文本題材的方法的另一個實施例的流程圖;
      [0025] 圖4是根據(jù)本申請的識別文本題材的裝置的一個實施例的結構示意圖;
      [0026] 圖5是適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)的結構示意圖。
      【具體實施方式】
      [0027] 下面結合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描 述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
      [0028] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結合實施例來詳細說明本申請。
      [0029] 圖1示出了可以應用本申請的識別文本題材的方法或識別文本題材的裝置的實 施例的示例性系統(tǒng)架構100。
      [0030] 如圖1所示,系統(tǒng)架構10
      當前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1