一種自動(dòng)構(gòu)建主題詞的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字資源處理領(lǐng)域,具體涉及一種自動(dòng)構(gòu)建主題詞的方法及裝置。
【背景技術(shù)】
[0002] 數(shù)字資源是文獻(xiàn)信息的表現(xiàn)形式之一,是以數(shù)字形式發(fā)布、存取、利用的信息資源 總和。主題詞是指在標(biāo)引和檢索中用以表達(dá)文獻(xiàn)主題的規(guī)范化的詞或詞組。因此,準(zhǔn)確的主 題詞對(duì)文獻(xiàn)的檢索和標(biāo)引等具有非常重要的作用,從而如何從數(shù)字資源中快速準(zhǔn)確地提取 主題詞以對(duì)其進(jìn)行有效的管理和利用是亟需解決的問題。
[0003] 對(duì)于數(shù)字資源的主題詞構(gòu)建,目前一般采用如下幾種辦法:1)人工設(shè)定主題詞;2) 普通的文檔數(shù)據(jù)抽取方法。
[0004] 但是上述兩種方法都存在不足,人工設(shè)定主題詞的方法有效率低、成本高、易出錯(cuò) 等缺點(diǎn)。普通的文檔數(shù)據(jù)抽取方法,雖然其效率相比人工方式有一些提高,但存在構(gòu)建效果 不佳的問題,如,所選擇的主題詞實(shí)用性不強(qiáng),不能滿足標(biāo)引文獻(xiàn)和檢索文獻(xiàn)的要求,或者 不能準(zhǔn)確地表達(dá)文獻(xiàn)的主題思想。
【發(fā)明內(nèi)容】
[0005] 因此,本發(fā)明要解決的技術(shù)問題在于現(xiàn)有的主題詞抽取方法存在構(gòu)建效果不佳的 問題。
[0006] 為此,本發(fā)明實(shí)施例提供了如下技術(shù)方案:
[0007] -種自動(dòng)構(gòu)建主題詞的方法,包括如下步驟:
[0008] 將第一數(shù)字資源進(jìn)行分詞,獲得第一分詞結(jié)果;
[0009] 獲取第一分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0010] 獲取至少一篇與第一數(shù)字資源相關(guān)的第二數(shù)字資源;
[0011]將第二數(shù)字資源進(jìn)行分詞,獲得第二分詞結(jié)果;
[0012] 獲取第二分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0013] 將第一分詞結(jié)果中各個(gè)分詞與第二分詞結(jié)果中各個(gè)分詞進(jìn)行匹配;
[0014] 根據(jù)匹配結(jié)果、第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和第二分詞結(jié)果中各個(gè)分詞的 權(quán)重值計(jì)算第一分詞結(jié)果中各個(gè)分詞的主題詞權(quán)重;
[0015]根據(jù)主題詞權(quán)重選取第一分詞結(jié)果中的部分分詞作為第一數(shù)字資源的主題詞。
[0016] 優(yōu)選地,將第一數(shù)字資源進(jìn)行分詞獲得第一分詞結(jié)果的步驟和將第二數(shù)字資源進(jìn) 行分詞獲得第二分詞結(jié)果的步驟均包括:
[0017] 按照篩選條件對(duì)分詞進(jìn)行篩選,篩選條件包括刪除停用詞。
[0018] 優(yōu)選地,至少一篇與第一數(shù)字資源相關(guān)的第二數(shù)字資源是采用向量機(jī)進(jìn)行識(shí)別、 分類以及回歸分析得到的。
[0019] 優(yōu)選地,第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和第二分詞結(jié)果中各個(gè)分詞的權(quán)重值 均是根據(jù)各分詞在對(duì)應(yīng)分詞結(jié)果中的詞頻得到的。
[0020] 優(yōu)選地,第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和第二分詞結(jié)果中各個(gè)分詞的權(quán)重值 是通過以下公式計(jì)算得到的:
[0021] Y=(X-MIN)/(MAX-MIN)
[0022] 其中,X是該分詞的詞頻,MIN是該分詞所在分詞結(jié)果中最小的分詞詞頻,MAX是該 分詞所在分詞結(jié)果中最大的分詞詞頻。
[0023] 優(yōu)選地,第一分詞結(jié)果中各個(gè)分詞的主題詞權(quán)重是通過以下公式計(jì)算得到的:
[0024]
[0025] 其中,η為第一分詞結(jié)果中該分詞的權(quán)重值,v、w為權(quán)值,C_CPi為第二分詞結(jié)果中 第i個(gè)分詞的權(quán)重值,ΡΡ:為第一分詞結(jié)果中該分詞與第二分詞結(jié)果中第i個(gè)分詞的匹配值, m為第二分詞結(jié)果中不同分詞的個(gè)數(shù)。
[0026] 一種自動(dòng)構(gòu)建主題詞的裝置,包括:
[0027] 第一分詞單元,用于將第一數(shù)字資源進(jìn)行分詞,獲得第一分詞結(jié)果;
[0028] 第一權(quán)重值計(jì)算單元,用于獲取第一分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0029] 第二數(shù)字資源獲取單元,用于獲取至少一篇與第一數(shù)字資源相關(guān)的第二數(shù)字資 源;
[0030] 第二分詞單元,用于將第二數(shù)字資源進(jìn)行分詞,獲得第二分詞結(jié)果;
[0031] 第二權(quán)重值計(jì)算單元,用于獲取第二分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0032] 匹配單元,用于將第一分詞結(jié)果中各個(gè)分詞與第二分詞結(jié)果中各個(gè)分詞進(jìn)行匹 配;
[0033] 主題詞權(quán)重計(jì)算單元,用于根據(jù)匹配結(jié)果、第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和 第二分詞結(jié)果中各個(gè)分詞的權(quán)重值計(jì)算第一分詞結(jié)果中各個(gè)分詞的主題詞權(quán)重;
[0034] 主題詞確定單元,用于根據(jù)主題詞權(quán)重選取第一分詞結(jié)果中的部分分詞作為第一 數(shù)字資源的主題詞。
[0035] 本發(fā)明實(shí)施例技術(shù)方案,具有如下優(yōu)點(diǎn):
[0036] 本發(fā)明實(shí)施例提供的自動(dòng)構(gòu)建主題詞的方法及裝置,其首先利用分詞器將第一數(shù) 字資源進(jìn)行分詞并獲取第一分詞結(jié)果中各個(gè)分詞的權(quán)重值;然后檢索出至少一篇與該第一 數(shù)字資源相似的第二數(shù)字資源,并根據(jù)該第二數(shù)字資源獲取其第二分詞結(jié)果中各個(gè)分詞的 權(quán)重值;最后,根據(jù)第一分詞結(jié)果中各個(gè)分詞與第二分詞結(jié)果中各個(gè)分詞的匹配程度和第 二分詞結(jié)果中各個(gè)分詞的權(quán)重值調(diào)整第一分詞結(jié)果中各個(gè)分詞的權(quán)重值作為主題詞權(quán)重 值。最終根據(jù)第一分詞結(jié)果中各個(gè)分詞的主題詞權(quán)重值確定出合適的主題詞。通過該方法 構(gòu)建的主題詞可以準(zhǔn)確地表達(dá)第一數(shù)字資源的主題思想,能滿足標(biāo)引文獻(xiàn)和檢索文獻(xiàn)的要 求,且效率高、成本低、效果好。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明【具體實(shí)施方式】或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體 實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的 附圖是本發(fā)明的一些實(shí)施方式,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前 提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明實(shí)施例1中一種自動(dòng)構(gòu)建主題詞的方法流程圖;
[0039] 圖2為本發(fā)明實(shí)施例2中一種自動(dòng)構(gòu)建主題詞的裝置的原理框圖。
【具體實(shí)施方式】
[0040] 下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施 例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0041] 此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu) 成沖突就可以相互結(jié)合。
[0042] 實(shí)施例1
[0043] 如圖1所示,本實(shí)施例提供了一種自動(dòng)構(gòu)建主題詞方法,包括如下步驟:
[0044] S1:將第一數(shù)字資源進(jìn)行分詞,獲得第一分詞結(jié)果;
[0045] S2:獲取第一分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0046] S3:獲取至少一篇與第一數(shù)字資源相關(guān)的第二數(shù)字資源;
[0047] S4:將第二數(shù)字資源進(jìn)行分詞,獲得第二分詞結(jié)果;
[0048] S5:獲取第二分詞結(jié)果中各個(gè)分詞的權(quán)重值;
[0049] S6:將第一分詞結(jié)果中各個(gè)分詞與第二分詞結(jié)果中各個(gè)分詞進(jìn)行匹配;
[0050] S7:根據(jù)匹配結(jié)果、第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和第二分詞結(jié)果中各個(gè)分 詞的權(quán)重值計(jì)算第一分詞結(jié)果中各個(gè)分詞的主題詞權(quán)重;
[0051] S8:根據(jù)主題詞權(quán)重選取第一分詞結(jié)果中的部分分詞作為第一數(shù)字資源主題詞。
[0052] 本實(shí)施例提供的自動(dòng)構(gòu)建主題詞的方法,不僅效率高,而且通過該方法構(gòu)建的主 題詞可以準(zhǔn)確地表達(dá)第一數(shù)字資源的主題思想,能滿足標(biāo)引文獻(xiàn)和檢索文獻(xiàn)的要求。
[0053] 具體地,上述步驟S1中,是利用分詞器對(duì)第一數(shù)字資源進(jìn)行分詞,然后刪除停用詞 后進(jìn)行詞頻統(tǒng)計(jì)。該停用詞包括"了"、"什么"和"的"等,由于停用詞大多沒有實(shí)際的意義, 不管其詞頻的高低如何,都不能作為主題詞,因此為了降低后續(xù)的計(jì)算量且更加準(zhǔn)確地構(gòu) 建主題詞,此處需要將其篩選掉。本實(shí)施例中還可以篩選掉其他不能用作主題詞的分詞。同 樣地,步驟S4中也利用分詞器將第二數(shù)字資源分詞后篩選掉停用詞再進(jìn)行詞頻統(tǒng)計(jì)。即步 驟S1和S4中都包括按照篩選條件對(duì)分詞進(jìn)行篩選的步驟,該篩選條件主要包括刪除停用 詞,也可以根據(jù)實(shí)際需要加入其它的篩選條件。本實(shí)施例中可以事先構(gòu)建一個(gè)停用詞表。
[0054] 具體地,步驟S3中的至少一篇與第一數(shù)字資源相關(guān)的第二數(shù)字資源是通過文章分 類檢索得出,文章分類檢索是采用向量機(jī)進(jìn)行識(shí)別、分類以及回歸分析。
[0055] 具體地,上述步驟S2中第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和步驟S5中第二分詞結(jié) 果中各個(gè)分詞的權(quán)重值均是根據(jù)各分詞在對(duì)應(yīng)分詞結(jié)果中的詞頻得到的。本實(shí)施例中,第 一分詞結(jié)果中各個(gè)分詞的詞頻3_0?1為:中國3世界5問題2解決4面臨1超越6 恐怖3危機(jī)2信仰1環(huán)境5。第二分詞結(jié)果中各個(gè)分詞的詞頻W_CP為:中國5分類5問 題3智慧5難題11代表6壟斷4健康4心態(tài)3世界3篩選1。
[0056] 具體地,第一分詞結(jié)果中各個(gè)分詞的權(quán)重值和第二分詞結(jié)果中各個(gè)分詞的權(quán)重值 是通過以下公式計(jì)算得到的:
[0057] Y=(X-MIN)/(MAX-MIN)
[0058] 其中,X是該分詞的詞頻,MIN是該分詞所在分詞結(jié)果中最小的分詞詞頻,MAX是該 分詞所在分詞結(jié)果中最大的分詞詞頻。
[0059]根據(jù)上述分詞權(quán)重值的計(jì)算方法,得到第一分詞結(jié)果中各個(gè)分詞的權(quán)重值為:中 國0.4世界0.8問題0.2解決0.6面臨0.2超越1.0恐怖0.4危機(jī)0.2信仰1.0 環(huán)境0.8,記為S_CP2;
[0060] 得到的第二分詞結(jié)果中各個(gè)分詞的權(quán)重值,并按降序排序后為:難題1