国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文檔主題詞提取方法及裝置的制造方法_4

      文檔序號:9865494閱讀:來源:國知局
      取預(yù)定數(shù)量的分詞作為所述 目標(biāo)文檔的主題詞。
      [0077] W上結(jié)合附圖詳細(xì)描述了本發(fā)明的優(yōu)選實施方式,但是,本發(fā)明并不限于上述實 施方式中的具體細(xì)節(jié),在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),可W對本發(fā)明的技術(shù)方案進(jìn)行多種簡 單變型,運(yùn)些簡單變型均屬于本發(fā)明的保護(hù)范圍。
      [0078] 此外,盡管在附圖中W特定順序描述了本發(fā)明方法的操作,但是,運(yùn)并非要求或者 暗示必須按照該特定順序來執(zhí)行運(yùn)些操作,或是必須執(zhí)行全部所示的操作才能實現(xiàn)期望的 結(jié)果。附加地或備選地,可W省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或?qū)⒁粋€ 步驟分解為多個步驟執(zhí)行。
      [0079] 本領(lǐng)域技術(shù)人員知道,本發(fā)明的實施方式可W實現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、方法 或計算機(jī)程序產(chǎn)品。因此,本發(fā)明的實施方式可W具體實現(xiàn)為W下形式,即:完全的硬件、完 全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
      [0080] 另外需要說明的是,在上述【具體實施方式】中所描述的各個具體技術(shù)特征,在不矛 盾的情況下,可W通過任何合適的方式進(jìn)行組合。為了避免不必要的重復(fù),本發(fā)明對各種可 能的組合方式不再另行說明。
      [0081] 此外,本發(fā)明的各種不同的實施方式之間也可W進(jìn)行任意組合,只要其不違背本 發(fā)明的思想,其同樣應(yīng)當(dāng)視為本發(fā)明所公開的內(nèi)容。
      【主權(quán)項】
      1. 一種文檔主題詞提取方法,其特征在于,所述方法包括: 對目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫中的任一文檔; 針對同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時的分詞屬性,獲取與所述分 詞屬性相對應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重; 基于所述文檔庫,確定所述分詞的逆向文檔頻率; 基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主 題詞。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與所述分詞屬性相對應(yīng)的權(quán)值, 包括: 判斷所述分詞屬性是否滿足多個預(yù)設(shè)條件中的至少一個預(yù)設(shè)條件; 在所述分詞屬性不滿足任一預(yù)設(shè)條件時,獲取預(yù)設(shè)的基準(zhǔn)權(quán)值作為與所述分詞屬性相 對應(yīng)的權(quán)值。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取與所述分詞屬性相對應(yīng)的權(quán)值, 還包括: 在所述分詞屬性滿足至少一個預(yù)設(shè)條件時,獲取所述分詞屬性所滿足的各個預(yù)設(shè)條件 所對應(yīng)的權(quán)值,并將獲取到的各個預(yù)設(shè)條件所對應(yīng)的權(quán)值的乘積作為與所述分詞屬性相對 應(yīng)的權(quán)值。4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述分詞屬性包括分詞位置、字體樣 式、字體號和分詞內(nèi)容;以及,所述多個預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo) 題;分詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號大于常規(guī)字體號;分詞 的字體號小于常規(guī)字體號;分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述分詞位置位于段首這一預(yù)設(shè)條件所對 應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞的字體樣式為粗 體這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞的字體樣式為斜體這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、 以及所述分詞的字體號大于常規(guī)字體號這一預(yù)設(shè)條件所對應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán)值;以 及 所述分詞的字體號小于常規(guī)字體號這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè) 的干擾詞內(nèi)容相匹配這一預(yù)設(shè)條件所對應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,通過以下方式來確定該分詞在所述目標(biāo)文 檔中的詞頻權(quán)重:其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時的分詞屬 性所對應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文檔中的 分詞總數(shù)。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述詞頻權(quán)重和所述逆向文檔頻 率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞,包括: 計算所述分詞的詞頻權(quán)重與逆向文檔頻率的乘積; 按照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小的順序,提取預(yù)定數(shù)量的分詞 作為所述目標(biāo)文檔的主題詞。8. -種文檔主題詞提取裝置,其特征在于,所述裝置包括: 分詞處理模塊,被配置為對目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫中的 任一文檔; 權(quán)值獲取模塊,被配置為針對同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時的 分詞屬性,獲取與所述分詞屬性相對應(yīng)的權(quán)值; 詞頻權(quán)重確定模塊,被配置為根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán) 重; 逆向文檔頻率確定模塊,被配置為基于所述文檔庫,確定所述分詞的逆向文檔頻率; 主題詞提取模塊,被配置為基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的 分詞作為所述目標(biāo)文檔的主題詞。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述權(quán)值獲取模塊包括: 判斷子模塊,被配置為判斷所述分詞屬性是否滿足多個預(yù)設(shè)條件中的至少一個預(yù)設(shè)條 件; 第一權(quán)值獲取子模塊,被配置為在所述分詞屬性不滿足任一預(yù)設(shè)條件時,獲取預(yù)設(shè)的 基準(zhǔn)權(quán)值作為與所述分詞屬性相對應(yīng)的權(quán)值。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述權(quán)值獲取模塊還包括: 第二權(quán)值獲取子模塊,被配置為在所述分詞屬性滿足至少一個預(yù)設(shè)條件時,獲取所述 分詞屬性所滿足的各個預(yù)設(shè)條件所對應(yīng)的權(quán)值,并將獲取到的各個預(yù)設(shè)條件所對應(yīng)的權(quán)值 的乘積作為與所述分詞屬性相對應(yīng)的權(quán)值。11. 根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,所述分詞屬性包括分詞位置、字體樣 式、字體號和分詞內(nèi)容;以及,所述多個預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo) 題;分詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號大于常規(guī)字體號;分詞 的字體號小于常規(guī)字體號;分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述分詞位置位于段首這一預(yù)設(shè)條件所 對應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞的字體樣式為 粗體這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞的字體樣式為斜體這一預(yù)設(shè)條件所對應(yīng)的權(quán) 值、以及所述分詞的字體號大于常規(guī)字體號這一預(yù)設(shè)條件所對應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán) 值;以及 所述分詞的字體號小于常規(guī)字體號這一預(yù)設(shè)條件所對應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè) 的干擾詞內(nèi)容相匹配這一預(yù)設(shè)條件所對應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。13. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述詞頻權(quán)重確定模塊被配置為通過以 下方式來確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重:其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時的分詞屬 性所對應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文檔中的 分詞總數(shù)。14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述主題詞提取模塊包括: 計算子模塊,被配置為計算所述分詞的詞頻權(quán)重與逆向文檔頻率的乘積; 主題詞提取子模塊,被配置為按照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小 的順序,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。
      【專利摘要】本發(fā)明公開了一種文檔主題詞提取方法及裝置。所述方法包括:對目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫中的任一文檔;針對同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時的分詞屬性,獲取與所述分詞屬性相對應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重;基于所述文檔庫,確定所述分詞的逆向文檔頻率;基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。由此使得所提取出的主題詞具有更高的準(zhǔn)確性和可靠性,能夠更客觀地表示該文檔的中心思想,從而能夠為后續(xù)的文檔分類、文檔推薦等提供準(zhǔn)確、可靠的數(shù)據(jù)支持,使得文檔分類結(jié)果更為準(zhǔn)確、文檔推薦結(jié)果更符合用戶需求等等。
      【IPC分類】G06F17/27
      【公開號】CN105630769
      【申請?zhí)枴緾N201510990608
      【發(fā)明人】趙博
      【申請人】東軟集團(tuán)股份有限公司
      【公開日】2016年6月1日
      【申請日】2015年12月24日
      當(dāng)前第4頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1