基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置。該方法主要包括:使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化文件,使用基于文本圖模型的關(guān)鍵詞抽取算法抽取數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢?cè)~向量化文件,建立特定話題下的關(guān)鍵詞矩陣;采用增廣拉格朗日乘子算法求解關(guān)鍵詞矩陣的低秩分解問(wèn)題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。本發(fā)明采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問(wèn)題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
【專利說(shuō)明】
基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及文章關(guān)鍵字提取技術(shù)領(lǐng)域,尤其涉及一種基于低秩矩陣分解的文章話 題關(guān)鍵詞提取方法和裝置。
【背景技術(shù)】
[0002] 現(xiàn)在已經(jīng)進(jìn)入Web3.0時(shí)代,信息呈現(xiàn)指數(shù)爆炸式增長(zhǎng),如何提高信息訪問(wèn)效率成 為一個(gè)越來(lái)越重要的問(wèn)題。為了對(duì)海量信息進(jìn)行有效地組織、壓縮和檢索,人們迫切地希望 通過(guò)若干個(gè)詞語(yǔ)對(duì)信息進(jìn)行很好地概括或索引。以微博為代表的新興媒體成為人們交流、 分享的重要渠道。一個(gè)關(guān)鍵詞抽取系統(tǒng)對(duì)如何快速地尋找用戶感興趣的話題,以及如何監(jiān) 管話題的內(nèi)容都具有著重要的意義。
[0003] 微博文本相比傳統(tǒng)新聞文本字?jǐn)?shù)較少,并且微博話題種類較,微博內(nèi)容雜亂,質(zhì)量 參差不齊。有一些內(nèi)容涉及色情、恐怖以及一些其他的不良微博,人工進(jìn)行管控,工作量巨 大。若能抽取微博的關(guān)鍵詞,則能快速定位不良微博,管控輿情走向,因此,開(kāi)發(fā)一種有效地 提取微博話題關(guān)鍵詞的方法是十分必要的。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝 置,以實(shí)現(xiàn)有效地對(duì)文章話題關(guān)鍵詞進(jìn)行提取。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。
[0006] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,包括:
[0007] 使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化 文件,該詞向量化文件中包括多個(gè)詞語(yǔ)向量,所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞;
[0008] 使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的 特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定 話題下的關(guān)鍵詞矩陣;
[0009] 采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題,得到關(guān)鍵詞低 秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。
[0010] 進(jìn)一步地,所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之 前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用 。
[0011 ]進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0012] 進(jìn)一步地,所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后 的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文 件,建立所述特定話題下的關(guān)鍵詞矩陣,包括:
[0013] 針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章 文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn),詞語(yǔ)之間的關(guān)系作為文本圖的邊,建立文本圖模型, 頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0015] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的 聯(lián)系強(qiáng)度;
[0016] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞;
[0017] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0019] 其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0020] 進(jìn)一步地,所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn) 題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞,包括:
[0021 ]所述關(guān)鍵詞矩陣的分解的式子如下:
[0022] X=XZ+E
[0023]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0024] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問(wèn)題如下式:
[0025] IW111 It J ll* +A I) E 1 J ,Z,E '
[0026] s.t.X=XZ+E
[0027] Z = J
[0028] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0029] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0031] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0032] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,包括:
[0033] 詞向量化文件生成模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理 后的文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語(yǔ)向量,所述詞語(yǔ)包含關(guān) 鍵詞和非關(guān)鍵詞;
[0034] 關(guān)鍵詞矩陣建立模塊,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù) 預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向 量化文件,建立所述特定話題下的關(guān)鍵詞矩陣;
[0035]關(guān)鍵詞獲取模塊,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分 解問(wèn)題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下 的關(guān)鍵詞。
[0036] 進(jìn)一步地,所述的裝置還包括:
[0037]數(shù)據(jù)預(yù)處理模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文 本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除 停用詞。
[0038]進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0039]進(jìn)一步地,所述的關(guān)鍵詞矩陣建立模塊,具體用于針對(duì)特定話題,使用基于文本圖 模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn),詞 語(yǔ)之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0041] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的 聯(lián)系強(qiáng)度;
[0042] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞;
[0043] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0045] 其中,1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),
[0046] n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0047] 進(jìn)一步地,所述的關(guān)鍵詞獲取模塊,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如 下:
[0048] X=XZ+E
[0049]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0050]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問(wèn)題如下式:
[0051 ] min ll J II* +/i II EIU j HE
[0052] s.t.X=XZ+E
[0053] Z = J
[0054] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0055] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0057]其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0058] 由上述本發(fā)明的實(shí)施例提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng) 絡(luò)媒體語(yǔ)義識(shí)別以及文本輿情分析等領(lǐng)域,具有廣闊的應(yīng)用前景。本發(fā)明采用低秩矩陣分 解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問(wèn) 題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。本發(fā)明系統(tǒng)的所有模塊都是完全自動(dòng)的,不需要 人工干預(yù),因此可以嵌入到各類Web信息過(guò)濾系統(tǒng)中去。
[0059] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0060] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0061] 圖1為本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的 流程圖;
[0062] 圖2是本發(fā)明實(shí)施例提供的一種關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例示意圖;
[0063] 圖3為本發(fā)明實(shí)施例提供的一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置的 具體結(jié)構(gòu)圖,包括:數(shù)據(jù)預(yù)處理模塊31,詞向量化文件生成模塊32,關(guān)鍵詞矩陣建立模塊33, 關(guān)鍵詞獲取模塊34。
【具體實(shí)施方式】
[0064] 下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始 至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參 考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。 [0065]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個(gè)"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說(shuō)明書(shū)中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元 件被"連接"或"耦接"到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在 中間元件。此外,這里使用的"連接"或"耦接"可以包括無(wú)線連接或耦接。這里使用的措辭 "和/或"包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一單元和全部組合。
[0066]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù) 語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該 理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意 義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
[0067] 為便于對(duì)本發(fā)明實(shí)施例的理解,下面將結(jié)合附圖以幾個(gè)具體實(shí)施例為例做進(jìn)一步 的解釋說(shuō)明,且各個(gè)實(shí)施例并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。
[0068] 實(shí)施例一
[0069] 本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的流程 圖如圖1所示,該方法包括以下步驟:
[0070] 步驟S110:對(duì)待處理的文章中的文本進(jìn)行清洗、分詞、去除停用詞的數(shù)據(jù)預(yù)處理, 以得到便于后續(xù)事件關(guān)鍵詞抽取的文本。上述文章可以為新聞、微博、博客和評(píng)論等。
[0071] 本發(fā)明在文本預(yù)處理階段主要做了如下的文本預(yù)處理:去除文章文本中的網(wǎng)址鏈 接、表情符號(hào)、無(wú)效字符;由于中文詞語(yǔ)之間沒(méi)有空格,因此在進(jìn)行關(guān)鍵詞提取之前需要進(jìn) 行文本的分詞,本發(fā)明采用效果較好的開(kāi)源的自然語(yǔ)言處理工具包一一HanLP進(jìn)行分詞;接 著去除文本中的停用詞,比如"的"、"但是","啊"、"比如"等無(wú)實(shí)際含義的詞語(yǔ)。
[0072] 步驟S120:使用谷歌開(kāi)源的提取深度學(xué)習(xí)特征的工具-W〇rd2VeC訓(xùn)練預(yù)處理后的 文章,將文章中的詞語(yǔ)轉(zhuǎn)換成向量的形式,以得到文本的詞向量文件。
[0073] 使用¥(^(12¥6〇工具訓(xùn)練去除停用詞后的文章文本。'\¥(^(12¥6〇是6〇〇816在2013年年 中開(kāi)源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過(guò)訓(xùn)練, 把對(duì)文章文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算。在實(shí)際應(yīng)用中,通常取K = 200。該工具共有兩個(gè)模型--CB0W和Skip-gram模型,本發(fā)明使用較為常用的Skip-gram模 型以及取K = 200進(jìn)行訓(xùn)練文本,得到分析語(yǔ)料的所有詞語(yǔ)的詞向量化文件vectors.bin, [0074] 該詞向量化文件vectors . bin包括多個(gè)詞語(yǔ)向量,每個(gè)詞語(yǔ)向量的維數(shù)為K, vectors.bin相當(dāng)于一個(gè)詞典,其中的詞語(yǔ)數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)鍵詞的數(shù)量,它是所有詞語(yǔ)(其 中包含關(guān)鍵詞與非關(guān)鍵詞)的集合,一個(gè)詞語(yǔ)對(duì)應(yīng)一個(gè)向量。
[0075] 步驟S130 :使用基于TextRank算法抽取特定話題下每個(gè)事件的關(guān)鍵詞,并根據(jù) word2vec訓(xùn)練生成的詞向量文件建立該話題的關(guān)鍵詞矩陣。
[0076]所述的TextRank算法是基于文本圖模型的關(guān)鍵詞抽取算法,將前述分詞處理后的 文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn),詞語(yǔ)之間的關(guān)系作為文本圖的邊,建立文本圖 模型,頂點(diǎn)的權(quán)重要通過(guò)計(jì)算得到。TextRank方法的關(guān)鍵是計(jì)算文本圖模型中的詞語(yǔ)權(quán)重, 計(jì)算的公式如下:
[0078] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是阻尼系數(shù),是一個(gè)預(yù)先設(shè)置的常量;InWO是存 在指向關(guān)鍵詞i的所有關(guān)鍵詞的集合;〇ut(Vj)是詞語(yǔ)j指向的所有的關(guān)鍵詞的集合;wij表不 詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度。本發(fā)明,采用通常情況下的阻尼系數(shù),即取P = 0.85。
[0079] 詞語(yǔ)i和詞語(yǔ)j是分詞之后得到的詞語(yǔ),要通過(guò)上述公式的權(quán)值計(jì)算,判斷其是否 為關(guān)鍵詞,最后迭代得到的WS(Vi)越大,這個(gè)詞就越重要,也就是關(guān)鍵詞。比如,最后根據(jù)權(quán) 值降序排序,取前10個(gè)左右詞語(yǔ)即為關(guān)鍵詞。
[0080] 根據(jù)上述抽取的關(guān)鍵詞查詢上述詞向量化文件vectors . bin,獲取關(guān)鍵詞對(duì)應(yīng)的 關(guān)鍵詞向量,根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0081 ] …-、 .,m =
[0082]其中,1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),其具體數(shù)值根據(jù)具體的事件的關(guān)鍵詞的個(gè)數(shù)而定,不同的事件n的大小可能不 同,d為每個(gè)關(guān)鍵詞向量的維數(shù),等于上文中所提的詞語(yǔ)向量維數(shù)K(K = 200 ),即d = 200。 [0083] 步驟S140:采用增廣拉格朗日乘子(ALM)算法求解關(guān)鍵詞矩陣的低秩分解問(wèn)題,以 得到關(guān)鍵詞低秩矩陣,最終生成特定話題的關(guān)鍵詞。
[0084]關(guān)鍵詞矩陣的分解的式子如下:
[0085] X=XZ+E
[0086] 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即上文所述的關(guān)鍵詞矩陣W(r*n),Z是我們要恢復(fù)的 低秩性矩陣,E為數(shù)據(jù)噪聲,該數(shù)據(jù)噪聲是文本中自帶的,不需要求出。
[0087] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,可得到凸優(yōu)化問(wèn)題如下式:
[0088] min II J llt +A II Elk, ./ .Z.Il
[0089] s.t.X=XZ+E
[0090] Z = J
[0091] A是約束參數(shù),J是要求解的低秩矩陣。
[0092] 這個(gè)問(wèn)題可采用增廣的拉格朗日乘子方法(ALM)求解,要求解的最小化拉格朗日 函數(shù)構(gòu)造如下:
[0094] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù)。該問(wèn)題是凸問(wèn)題,都具有閉 合形式的解,每次通過(guò)固定無(wú)關(guān)變量,然后分別對(duì)相關(guān)變量進(jìn)行迭代優(yōu)化求解,求解出所述 關(guān)鍵詞低秩矩陣J。然后,將所述關(guān)鍵詞低秩矩陣J中的關(guān)鍵詞作為所述文章文本中所述特 定話題下的關(guān)鍵詞。
[0095] 圖2示出了本發(fā)明求解出的關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例,其中m列表示第該話題 下的第一個(gè)事件的所有關(guān)鍵詞,m列和m列具有相同的元素 cU,表明事件1和事件3都含有關(guān) 鍵詞wi,每個(gè)關(guān)鍵詞向量Wi都由上文中的word2vec訓(xùn)練得到,為d維的向量,d的取值一般為 200 ;0表不該事件不含有相關(guān)的關(guān)鍵詞;m是所有事件提取的關(guān)鍵詞個(gè)數(shù)的總和,而每個(gè)關(guān) 鍵詞的維數(shù)為d,每個(gè)話題包含n個(gè)事件,因此話題關(guān)鍵詞矩陣X為r*n,r=m*d;
[0096] 實(shí)施例二
[0097]該實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,該裝置的具 體結(jié)構(gòu)如圖3所示,包括:
[0098]數(shù)據(jù)預(yù)處理模塊31,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的 文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去 除停用詞。
[0099] 詞向量化文件生成模塊32,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處 理后的文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語(yǔ)向量,所述詞語(yǔ)包含 關(guān)鍵詞和非關(guān)鍵詞;
[0100] 關(guān)鍵詞矩陣建立模塊33,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù) 據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞 向量化文件,建立所述特定話題下的關(guān)鍵詞矩陣;
[0101] 關(guān)鍵詞獲取模塊34,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩 分解問(wèn)題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題 下的關(guān)鍵詞。
[0102] 進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0103] 進(jìn)一步地,所述的關(guān)鍵詞矩陣建立模塊33,具體用于針對(duì)特定話題,使用基于文本 圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn), 詞語(yǔ)之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0105] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的 聯(lián)系強(qiáng)度;
[0106] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞;
[0107] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣: n
[0108] Wf * ^ , "7 = H人, W(r*n)} Tt
[0109] 其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0110] 進(jìn)一步地,所述的關(guān)鍵詞獲取模塊34,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子 如下:
[0111] X=XZ+E
[0112]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0113]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問(wèn)題如下式:
[0114] min !1./il;,+/1II EIK, J . Z Jl
[0115] s.t.X=XZ+E
[0116] Z = J
[0117] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0118] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0120] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0121] 用本發(fā)明實(shí)施例的裝置進(jìn)行基于低秩矩陣分解的文章話題關(guān)鍵詞提取的具體過(guò) 程與前述方法實(shí)施例類似,此處不再贅述。
[0122] 綜上所述,本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng)絡(luò)媒體語(yǔ)義識(shí)別以及文本輿情分析等領(lǐng) 域,具有廣闊的應(yīng)用前景。本發(fā)明具有以下優(yōu)點(diǎn):
[0123] 1、本發(fā)明提供的這種微博等文章的關(guān)鍵詞抽取方法,重點(diǎn)解決了短文本的關(guān)鍵詞 抽取方法,并開(kāi)創(chuàng)性的研究微博等文章話題關(guān)鍵詞生成方法。
[0124] 2、采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等 文章話題關(guān)鍵詞的稀疏性問(wèn)題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
[0125] 3、本系統(tǒng)的所有模塊都是完全自動(dòng)的,不需要人工干預(yù),因此可以嵌入到各類Web 信息過(guò)濾系統(tǒng)中去。此外,本系統(tǒng)還可以作為子系統(tǒng)嵌入到通用輿情分析系統(tǒng)中。具有廣泛 的應(yīng)用前景。
[0126] 本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個(gè)實(shí)施例的示意圖,附圖中的模塊或 流程并不一定是實(shí)施本發(fā)明所必須的。
[0127] 通過(guò)以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì) 上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品 可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備 (可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些 部分所述的方法。
[0128] 本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部 分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或 系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法 實(shí)施例的部分說(shuō)明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為 分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或 者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根 據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù) 人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0129] 以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于,包括: 使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化文 件,該詞向量化文件中包括多個(gè)詞語(yǔ)向量,所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞; 使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定 話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定話題 下的關(guān)鍵詞矩陣; 采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題,得到關(guān)鍵詞低秩矩 陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理 的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。3. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。4. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特 定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定話 題下的關(guān)鍵詞矩陣,包括: 針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本 中的詞語(yǔ)作為文本圖模型的頂點(diǎn),詞語(yǔ)之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn) 的權(quán)重的計(jì)算公式如下:其中WS(Vi)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In(Vi)是存在指向詞語(yǔ)i的所 有詞語(yǔ)的集合;Out(Vj)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;Wi康示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系 強(qiáng)度; 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞; 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵詞的個(gè) 數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。5. 根據(jù)權(quán)利要求4所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題,得到關(guān)鍵詞低秩 矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞,包括: 所述關(guān)鍵詞矩陣的分解的式子如下: X = XZ 巧 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩陣,E為 數(shù)據(jù)噪聲; 基于低秩矩陣分解的文章話顆羊鍵詞梅取兩?訣.得幸Il巧優(yōu)化問(wèn)題如下式: s.t.X = XZ 巧Z=J 入是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣; 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函數(shù)構(gòu) 造如下:其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭代優(yōu) 化,求解出所述關(guān)鍵詞低秩矩陣J。6. -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于,包括: 詞向量化文件生成模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的 文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語(yǔ)向量,所述詞語(yǔ)包含關(guān)鍵詞 和非關(guān)鍵詞; 關(guān)鍵詞矩陣建立模塊,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處 理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化 文件,建立所述特定話題下的關(guān)鍵詞矩陣; 關(guān)鍵詞獲取模塊,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn) 題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞。7. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于, 所述的裝置還包括: 數(shù)據(jù)預(yù)處理模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之 前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用 詞。8. 根據(jù)權(quán)利要求7所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于, 所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。9. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于: 所述的關(guān)鍵詞矩陣建立模塊,具體用于針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞 抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn),詞語(yǔ)之間的關(guān)系 作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:其中WS(Vi)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In(Vi)是存在指向詞語(yǔ)i的所 有詞語(yǔ)的集合;Out(Vj)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;Wi康示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系 強(qiáng)度; 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞; 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:其中,kl為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù) n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。10.根據(jù)權(quán)利要求9所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在 于: 所述的關(guān)鍵詞獲取模塊,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如下: X = XZ 巧 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩陣,E為 數(shù)據(jù)噪聲; 基于低秩矩陣分解的文章話挪^蝕;司據(jù)前韋'法-俱蔚IA化化問(wèn)題如下式:s.t.X = XZ 巧 Z = J 入是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣; 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函數(shù)構(gòu) 造如下:其中,1[個(gè)巧化份明口米:了,終女義y戶W巧世;終女義,化化W兇疋兀乂艾里化"達(dá)代優(yōu) 化,求解出所述關(guān)鍵詞低秩矩陣J。
【文檔編號(hào)】G06F17/27GK105912524SQ201610218407
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年4月9日
【發(fā)明人】郎叢妍, 何偉明, 于兆鵬, 馮松鶴, 王濤, 杜雪濤, 張晨
【申請(qǐng)人】北京交通大學(xué), 中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司