国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      實(shí)體提取反饋的制作方法

      文檔序號(hào):9620890閱讀:512來源:國(guó)知局
      實(shí)體提取反饋的制作方法
      【專利說明】
      【背景技術(shù)】
      [0001]實(shí)體提取是自然語(yǔ)言處理的形式,其用于識(shí)別給定內(nèi)容源(諸如電子文檔)中的哪些項(xiàng)對(duì)應(yīng)于特定實(shí)體。實(shí)體提取可以用于自動(dòng)地從半結(jié)構(gòu)化或非結(jié)構(gòu)化內(nèi)容源中提取并構(gòu)造信息??梢允褂脤?shí)體提取而識(shí)別的實(shí)體的示例包括命名實(shí)體(諸如人或地方)以及其它類型的實(shí)體(諸如電話號(hào)碼、日期、時(shí)間等等)。通常使用類型/值對(duì)來定義實(shí)體,例如類型=位置,值=芝加哥。
      [0002]實(shí)體提取可以充當(dāng)許多不同上下文中的有用工具。例如,在招聘場(chǎng)景中,職位候選人可以提供關(guān)于其各自簡(jiǎn)歷的相當(dāng)類似類型的信息,但是簡(jiǎn)歷本身可能以完全不同的方式被格式化或結(jié)構(gòu)化。在該場(chǎng)景中,實(shí)體提取可以用于從各種接收的簡(jiǎn)歷中識(shí)別關(guān)鍵的信息片段(例如,姓名、聯(lián)系信息、之前的雇主、教育機(jī)構(gòu)等等),并且這樣的所提取的實(shí)體可以用于填充候選人數(shù)據(jù)庫(kù)以供招聘者使用。作為另一示例,實(shí)體提取可以用于監(jiān)視可疑的恐怖分子之間的無線電談話(chatter),并且識(shí)別和報(bào)告在這樣的會(huì)話中所提及的地理位置。在該示例中,然后可以分析這樣的地理位置以確定它們是否涉及會(huì)面位置、隱匿位置或潛在的目標(biāo)位置。這些示例僅僅示出實(shí)體提取的寬范圍的可能使用中的兩個(gè)。
      【附圖說明】
      [0003]圖1是根據(jù)本文描述的實(shí)現(xiàn)方式的示例性實(shí)體提取環(huán)境的概念圖解。
      [0004]圖2是根據(jù)本文描述的實(shí)現(xiàn)方式的用于基于實(shí)體提取反饋而修改實(shí)體提取規(guī)則集的示例性過程的流程圖。
      [0005]圖3是根據(jù)本文描述的實(shí)現(xiàn)方式的用于處理實(shí)體提取反饋的示例性計(jì)算系統(tǒng)的框圖。
      [0006]圖4是根據(jù)本文描述的實(shí)現(xiàn)方式的示例性系統(tǒng)的框圖。
      【具體實(shí)施方式】
      [0007]許多實(shí)體提取系統(tǒng)利用某個(gè)形式的基于規(guī)則的模型來確定、分析和/或提取來自給定內(nèi)容源的實(shí)體。在給定的實(shí)體提取系統(tǒng)中所定義和應(yīng)用的規(guī)則集可以任意地復(fù)雜,范圍從相對(duì)簡(jiǎn)單化到極端詳細(xì)并且復(fù)雜。相對(duì)簡(jiǎn)單化的系統(tǒng)可以具有包括相對(duì)小數(shù)目的基本規(guī)則的規(guī)則集,而較精密的系統(tǒng)可以利用顯著較高數(shù)目的規(guī)則和/或顯著較復(fù)雜的規(guī)則。
      [0008]—些實(shí)體提取系統(tǒng)可以包括使用機(jī)器學(xué)習(xí)的一個(gè)或多個(gè)元素來定義規(guī)則的某些部分或全部而生成的規(guī)則集。這樣的系統(tǒng)一般意圖涵蓋更寬泛、更復(fù)雜范圍的實(shí)體提取場(chǎng)景。可以應(yīng)用在實(shí)體提取上下文中的機(jī)器學(xué)習(xí)方法的示例包括潛在語(yǔ)義分析、支持向量機(jī)、“詞袋”以及其它適當(dāng)?shù)募夹g(shù)或技術(shù)的組合。使用這些方法中的一個(gè)或多個(gè)可以導(dǎo)致相當(dāng)魯棒的規(guī)則集,而且理解和/或維護(hù)起來相當(dāng)復(fù)雜的規(guī)則集。
      [0009]無論多么基本或多么復(fù)雜,任何基于規(guī)則的實(shí)體提取系統(tǒng)的共同特性是:系統(tǒng)可能僅與其相應(yīng)的規(guī)則集所允許的那樣準(zhǔn)確。準(zhǔn)確性,如該術(shù)語(yǔ)在此處所使用的那樣,可以被定義為匹配大多數(shù)人類觀察者將會(huì)識(shí)別為被包括在特定內(nèi)容源中的一個(gè)或多個(gè)“正確”或“實(shí)際”實(shí)體的內(nèi)容??紤]到可以通過實(shí)體提取系統(tǒng)分析的各種類型的源(例如網(wǎng)頁(yè)、在線新聞源、因特網(wǎng)討論群組、在線評(píng)論、博客、社交媒體等等),通常可能是這樣的情況:特定的實(shí)體提取系統(tǒng)可能在分析特定類型的源時(shí)展現(xiàn)出高水平的準(zhǔn)確性,但是在分析不同類型的源時(shí)可能不太準(zhǔn)確。換言之,實(shí)體提取系統(tǒng)經(jīng)常被有意或無意地調(diào)節(jié)成在特定上下文(例如理解簡(jiǎn)歷)中比在其它上下文(例如監(jiān)視可疑恐怖分子)中更好地起作用。
      [0010]本文中描述了用于通過提供關(guān)于由相應(yīng)的系統(tǒng)所生成的實(shí)體提取結(jié)果的更有用和詳細(xì)的反饋來改進(jìn)基于規(guī)則的實(shí)體提取系統(tǒng)的準(zhǔn)確性的技術(shù)。系統(tǒng)慮及識(shí)別被包括在文檔中的“正確”實(shí)體以及指示實(shí)際實(shí)體的文檔的一個(gè)或多個(gè)特征的反饋,而不是僅僅提供給定情形中的“正確”實(shí)體提取結(jié)果?;诟敿?xì)的反饋,可以以更有針對(duì)性的方式來更新實(shí)體提取系統(tǒng)的規(guī)則集。本文描述的技術(shù)可以結(jié)合具有相對(duì)簡(jiǎn)單化或相對(duì)復(fù)雜的規(guī)則集的實(shí)體提取系統(tǒng)而使用以改進(jìn)那些系統(tǒng)的準(zhǔn)確性。從各圖中以及從隨后的描述中,這些和其它可能的益處和優(yōu)點(diǎn)將顯而易見。
      [0011]圖1是根據(jù)本文所述的實(shí)現(xiàn)方式的示例性實(shí)體提取環(huán)境100的概念圖解。如所示的,環(huán)境100包括計(jì)算系統(tǒng)110,所述計(jì)算系統(tǒng)被配置成執(zhí)行實(shí)體提取引擎112。環(huán)境100的示例性拓?fù)淇梢员硎靖鞣N實(shí)體提取環(huán)境。然而,應(yīng)當(dāng)理解的是,僅僅出于說明性的目的而示出環(huán)境100的示例性拓?fù)洌⑶铱梢詫?duì)配置進(jìn)行各種修改。例如,環(huán)境100可以包括不同的或附加的組件,或者可以以與所示出的不同的方式來實(shí)現(xiàn)組件。而且,雖然計(jì)算系統(tǒng)110一般被圖示為獨(dú)立的服務(wù)器,但是應(yīng)當(dāng)理解的是,計(jì)算系統(tǒng)110在實(shí)踐中可以是任何適當(dāng)類型的計(jì)算設(shè)備,諸如服務(wù)器、刀片式服務(wù)器、大型機(jī)、膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、工作站或其它設(shè)備。計(jì)算系統(tǒng)110還可以表示計(jì)算設(shè)備的群組,諸如服務(wù)器場(chǎng)、服務(wù)器集群、或者單獨(dú)或一起操作以執(zhí)行本文描述的功能性的計(jì)算設(shè)備的其它群組。
      [0012]在運(yùn)行時(shí)期間,實(shí)體提取引擎112可以用于分析任何適當(dāng)類型的文檔,并且生成識(shí)別從文檔中提取的一個(gè)或多個(gè)實(shí)體的實(shí)體提取結(jié)果。取決于實(shí)體提取引擎112的配置,引擎可以能夠例如在基于文本的文檔114a、音頻、視頻或多媒體文檔114b、和/或文檔集114c上執(zhí)行實(shí)體提取。在音頻、視頻或多媒體文檔114b的情況中,實(shí)體提取引擎112可以被配置成原生地分析文檔,或者可以包括“到文本”轉(zhuǎn)換器(例如,話音到文本轉(zhuǎn)錄模塊或圖像到文本模塊),所述“到文本”轉(zhuǎn)換器將文檔的音頻、視頻或多媒體部分轉(zhuǎn)換成文本以用于基于文本的實(shí)體提取。實(shí)體提取引擎112還可以被配置成在其它適當(dāng)類型的文檔上、在有或沒有“到文本”轉(zhuǎn)換的情況下執(zhí)行實(shí)體提取。
      [0013]由實(shí)體提取引擎112所生成的實(shí)體提取結(jié)果一般可以包括實(shí)體類型和實(shí)體值(例如,類型=位置;值=芝加哥)。實(shí)體提取結(jié)果還可以包括其它信息。例如,實(shí)體提取結(jié)果可以包括在從文檔提取實(shí)體中所暗示的一個(gè)或多個(gè)特定規(guī)則。這樣的暗示的規(guī)則,其也可以稱為觸發(fā)的規(guī)則,可以有助于解釋為何識(shí)別特定實(shí)體。作為另一示例,實(shí)體提取結(jié)果可以包括從其中提取實(shí)體的文檔的特定部分或區(qū)段。作為另一示例,實(shí)體提取結(jié)果可以包括與文檔的不同部分相關(guān)聯(lián)的多個(gè)實(shí)體,并且還可以包括從其中提取每一個(gè)相應(yīng)實(shí)體的文檔的相應(yīng)部分。
      [0014]取決于實(shí)現(xiàn)方式,可以以不同方式來使用實(shí)體提取結(jié)果。例如,在一些情況中,實(shí)體提取結(jié)果可以用于在已經(jīng)分析了文檔之后標(biāo)記所述文檔(例如,通過使用元數(shù)據(jù)標(biāo)記模塊),以使得文檔的元數(shù)據(jù)包含與文檔相關(guān)聯(lián)的一個(gè)或多個(gè)實(shí)體。實(shí)體提取結(jié)果還可以用于索引目的。在其它情況中,實(shí)體提取結(jié)果或其部分可以僅僅被返回給用戶或以結(jié)構(gòu)化的格式被存儲(chǔ),諸如在數(shù)據(jù)庫(kù)中。例如,用戶可以將文檔提供給實(shí)體提取引擎112,并且在文檔中識(shí)別的各種實(shí)體可以例如經(jīng)由諸如顯示器之類的用戶接口而被返回給用戶,或者可以被存儲(chǔ)在結(jié)構(gòu)化信息的數(shù)據(jù)庫(kù)中。還可以實(shí)現(xiàn)針對(duì)實(shí)體提取結(jié)果的其它適當(dāng)?shù)倪\(yùn)行時(shí)使用。
      [0015]以上描述的運(yùn)行時(shí)場(chǎng)景一般通過實(shí)體提取引擎112將預(yù)先存在的規(guī)則集應(yīng)用到輸入文檔以生成實(shí)體提取結(jié)果而進(jìn)行操作,而不考慮實(shí)體提取結(jié)果是否準(zhǔn)確。本描述的剩余部分一般涉及實(shí)體提取訓(xùn)練場(chǎng)景,其使用本文描述的實(shí)體提取反饋技術(shù)來改進(jìn)實(shí)體提取系統(tǒng)的準(zhǔn)確性。然而,在一些情況中,實(shí)體提取訓(xùn)練場(chǎng)景的全部或部分還可以在運(yùn)行時(shí)期間實(shí)現(xiàn)以連續(xù)地精細(xì)調(diào)節(jié)系統(tǒng)的規(guī)則集。例如,實(shí)體提取系統(tǒng)的終端用戶可以提供與在對(duì)系統(tǒng)進(jìn)行訓(xùn)練(如以下所描述的)中顯式涉及的用戶的信
      當(dāng)前第1頁(yè)1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1