基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法

文檔序號(hào)：10552884閱讀：523來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置。該方法主要包括：使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，使用基于文本圖模型的關(guān)鍵詞抽取算法抽取數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢?cè)~向量化文件，建立特定話題下的關(guān)鍵詞矩陣；采用增廣拉格朗日乘子算法求解關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。本發(fā)明采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞，有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問(wèn)題，大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
【專利說(shuō)明】
基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及文章關(guān)鍵字提取技術(shù)領(lǐng)域，尤其涉及一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置。
【背景技術(shù)】
[0002] 現(xiàn)在已經(jīng)進(jìn)入Web3.0時(shí)代，信息呈現(xiàn)指數(shù)爆炸式增長(zhǎng)，如何提高信息訪問(wèn)效率成為一個(gè)越來(lái)越重要的問(wèn)題。為了對(duì)海量信息進(jìn)行有效地組織、壓縮和檢索，人們迫切地希望通過(guò)若干個(gè)詞語(yǔ)對(duì)信息進(jìn)行很好地概括或索引。以微博為代表的新興媒體成為人們交流、分享的重要渠道。一個(gè)關(guān)鍵詞抽取系統(tǒng)對(duì)如何快速地尋找用戶感興趣的話題，以及如何監(jiān) 管話題的內(nèi)容都具有著重要的意義。
[0003] 微博文本相比傳統(tǒng)新聞文本字?jǐn)?shù)較少，并且微博話題種類較，微博內(nèi)容雜亂，質(zhì)量參差不齊。有一些內(nèi)容涉及色情、恐怖以及一些其他的不良微博，人工進(jìn)行管控，工作量巨大。若能抽取微博的關(guān)鍵詞，則能快速定位不良微博，管控輿情走向，因此，開(kāi)發(fā)一種有效地提取微博話題關(guān)鍵詞的方法是十分必要的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置，以實(shí)現(xiàn)有效地對(duì)文章話題關(guān)鍵詞進(jìn)行提取。
[0005] 為了實(shí)現(xiàn)上述目的，本發(fā)明采取了如下技術(shù)方案。
[0006] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，包括：
[0007] 使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，該詞向量化文件中包括多個(gè)詞語(yǔ)向量，所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞；
[0008] 使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣；
[0009] 采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。
[0010] 進(jìn)一步地，所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理，該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用。
[0011 ]進(jìn)一步地，所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0012] 進(jìn)一步地，所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣，包括：
[0013] 針對(duì)特定話題，使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn)的權(quán)重的計(jì)算公式如下：
[0015] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù)，In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度；
[0016] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序，選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞；
[0017] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣：
[0019] 其中，ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0020] 進(jìn)一步地，所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn) 題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞，包括：
[0021 ]所述關(guān)鍵詞矩陣的分解的式子如下：
[0022] X=XZ+E
[0023]其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即所述關(guān)鍵詞矩陣W(r*n)，Z是要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲；
[0024] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，得到凸優(yōu)化問(wèn)題如下式：
[0025] IW111 It J ll* +A I) E 1 J ,Z,E '
[0026] s.t.X=XZ+E
[0027] Z = J
[0028] A是約束參數(shù)，J是要求解的關(guān)鍵詞低秩矩陣；
[0029] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解，要求解的最小化拉格朗日函數(shù)構(gòu)造如下：
[0031] 其中，Y和W均是拉格朗日乘子，參數(shù)y>0是懲罰參數(shù)，通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭代優(yōu)化，求解出所述關(guān)鍵詞低秩矩陣J。
[0032] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，包括：
[0033] 詞向量化文件生成模塊，用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，該詞向量化文件中包括多個(gè)詞語(yǔ)向量，所述詞語(yǔ)包含關(guān) 鍵詞和非關(guān)鍵詞；
[0034] 關(guān)鍵詞矩陣建立模塊，用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù) 預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣；
[0035]關(guān)鍵詞獲取模塊，用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。
[0036] 進(jìn)一步地，所述的裝置還包括：
[0037]數(shù)據(jù)預(yù)處理模塊，用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理，該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。
[0038]進(jìn)一步地，所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0039]進(jìn)一步地，所述的關(guān)鍵詞矩陣建立模塊，具體用于針對(duì)特定話題，使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn)的權(quán)重的計(jì)算公式如下：
[0041] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù)，In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度；
[0042] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序，選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞；
[0043] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣：
[0045] 其中，1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，
[0046] n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0047] 進(jìn)一步地，所述的關(guān)鍵詞獲取模塊，具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如下：
[0048] X=XZ+E
[0049]其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即所述關(guān)鍵詞矩陣W(r*n)，Z是要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲；
[0050]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，得到凸優(yōu)化問(wèn)題如下式：
[0051 ] min ll J II* +/i II EIU j HE
[0052] s.t.X=XZ+E
[0053] Z = J
[0054] A是約束參數(shù)，J是要求解的關(guān)鍵詞低秩矩陣；
[0055] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解，要求解的最小化拉格朗日函數(shù)構(gòu)造如下：
[0057]其中，Y和W均是拉格朗日乘子，參數(shù)y>0是懲罰參數(shù)，通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭代優(yōu)化，求解出所述關(guān)鍵詞低秩矩陣J。
[0058] 由上述本發(fā)明的實(shí)施例提供的技術(shù)方案可以看出，本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng) 絡(luò)媒體語(yǔ)義識(shí)別以及文本輿情分析等領(lǐng)域，具有廣闊的應(yīng)用前景。本發(fā)明采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞，有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問(wèn) 題，大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。本發(fā)明系統(tǒng)的所有模塊都是完全自動(dòng)的，不需要人工干預(yù)，因此可以嵌入到各類Web信息過(guò)濾系統(tǒng)中去。
[0059] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，這些將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0060] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0061] 圖1為本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的流程圖；
[0062] 圖2是本發(fā)明實(shí)施例提供的一種關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例示意圖；
[0063] 圖3為本發(fā)明實(shí)施例提供的一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置的具體結(jié)構(gòu)圖，包括:數(shù)據(jù)預(yù)處理模塊31，詞向量化文件生成模塊32，關(guān)鍵詞矩陣建立模塊33，關(guān)鍵詞獲取模塊34。
【具體實(shí)施方式】
[0064] 下面詳細(xì)描述本發(fā)明的實(shí)施方式，所述實(shí)施方式的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施方式是示例性的，僅用于解釋本發(fā)明，而不能解釋為對(duì)本發(fā)明的限制。 [0065]本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式"一"、"一個(gè)"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是，本發(fā)明的說(shuō)明書(shū)中使用的措辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被"連接"或"耦接"到另一元件時(shí)，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的"連接"或"耦接"可以包括無(wú)線連接或耦接。這里使用的措辭 "和/或"包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一單元和全部組合。
[0066]本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù) 語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣定義，不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
[0067] 為便于對(duì)本發(fā)明實(shí)施例的理解，下面將結(jié)合附圖以幾個(gè)具體實(shí)施例為例做進(jìn)一步的解釋說(shuō)明，且各個(gè)實(shí)施例并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。
[0068] 實(shí)施例一
[0069] 本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的流程圖如圖1所示，該方法包括以下步驟：
[0070] 步驟S110:對(duì)待處理的文章中的文本進(jìn)行清洗、分詞、去除停用詞的數(shù)據(jù)預(yù)處理，以得到便于后續(xù)事件關(guān)鍵詞抽取的文本。上述文章可以為新聞、微博、博客和評(píng)論等。
[0071] 本發(fā)明在文本預(yù)處理階段主要做了如下的文本預(yù)處理:去除文章文本中的網(wǎng)址鏈接、表情符號(hào)、無(wú)效字符；由于中文詞語(yǔ)之間沒(méi)有空格，因此在進(jìn)行關(guān)鍵詞提取之前需要進(jìn) 行文本的分詞，本發(fā)明采用效果較好的開(kāi)源的自然語(yǔ)言處理工具包一一HanLP進(jìn)行分詞;接著去除文本中的停用詞，比如"的"、"但是"，"啊"、"比如"等無(wú)實(shí)際含義的詞語(yǔ)。
[0072] 步驟S120:使用谷歌開(kāi)源的提取深度學(xué)習(xí)特征的工具-W〇rd2VeC訓(xùn)練預(yù)處理后的文章，將文章中的詞語(yǔ)轉(zhuǎn)換成向量的形式，以得到文本的詞向量文件。
[0073] 使用￥(^(12￥6〇工具訓(xùn)練去除停用詞后的文章文本。'\￥(^(12￥6〇是6〇〇816在2013年年中開(kāi)源的一款將詞表征為實(shí)數(shù)值向量的高效工具，其利用深度學(xué)習(xí)的思想，可以通過(guò)訓(xùn)練，把對(duì)文章文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算。在實(shí)際應(yīng)用中，通常取K = 200。該工具共有兩個(gè)模型--CB0W和Skip-gram模型，本發(fā)明使用較為常用的Skip-gram模型以及取K = 200進(jìn)行訓(xùn)練文本，得到分析語(yǔ)料的所有詞語(yǔ)的詞向量化文件vectors.bin， [0074] 該詞向量化文件vectors . bin包括多個(gè)詞語(yǔ)向量，每個(gè)詞語(yǔ)向量的維數(shù)為K， vectors.bin相當(dāng)于一個(gè)詞典，其中的詞語(yǔ)數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)鍵詞的數(shù)量，它是所有詞語(yǔ)(其中包含關(guān)鍵詞與非關(guān)鍵詞）的集合，一個(gè)詞語(yǔ)對(duì)應(yīng)一個(gè)向量。
[0075] 步驟S130 :使用基于TextRank算法抽取特定話題下每個(gè)事件的關(guān)鍵詞，并根據(jù) word2vec訓(xùn)練生成的詞向量文件建立該話題的關(guān)鍵詞矩陣。
[0076]所述的TextRank算法是基于文本圖模型的關(guān)鍵詞抽取算法，將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn)的權(quán)重要通過(guò)計(jì)算得到。TextRank方法的關(guān)鍵是計(jì)算文本圖模型中的詞語(yǔ)權(quán)重，計(jì)算的公式如下：
[0078] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是阻尼系數(shù)，是一個(gè)預(yù)先設(shè)置的常量；InWO是存在指向關(guān)鍵詞i的所有關(guān)鍵詞的集合;〇ut(Vj)是詞語(yǔ)j指向的所有的關(guān)鍵詞的集合;wij表不詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度。本發(fā)明，采用通常情況下的阻尼系數(shù)，即取P = 0.85。
[0079] 詞語(yǔ)i和詞語(yǔ)j是分詞之后得到的詞語(yǔ)，要通過(guò)上述公式的權(quán)值計(jì)算，判斷其是否為關(guān)鍵詞，最后迭代得到的WS(Vi)越大，這個(gè)詞就越重要，也就是關(guān)鍵詞。比如，最后根據(jù)權(quán) 值降序排序，取前10個(gè)左右詞語(yǔ)即為關(guān)鍵詞。
[0080] 根據(jù)上述抽取的關(guān)鍵詞查詢上述詞向量化文件vectors . bin，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣：
[0081 ] …-、 .，m =
[0082]其中，1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，其具體數(shù)值根據(jù)具體的事件的關(guān)鍵詞的個(gè)數(shù)而定，不同的事件n的大小可能不同，d為每個(gè)關(guān)鍵詞向量的維數(shù)，等于上文中所提的詞語(yǔ)向量維數(shù)K(K = 200 )，即d = 200。 [0083] 步驟S140:采用增廣拉格朗日乘子(ALM)算法求解關(guān)鍵詞矩陣的低秩分解問(wèn)題，以得到關(guān)鍵詞低秩矩陣，最終生成特定話題的關(guān)鍵詞。
[0084]關(guān)鍵詞矩陣的分解的式子如下：
[0085] X=XZ+E
[0086] 其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即上文所述的關(guān)鍵詞矩陣W(r*n)，Z是我們要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲，該數(shù)據(jù)噪聲是文本中自帶的，不需要求出。
[0087] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，可得到凸優(yōu)化問(wèn)題如下式：
[0088] min II J llt +A II Elk, ./ .Z.Il
[0089] s.t.X=XZ+E
[0090] Z = J
[0091] A是約束參數(shù)，J是要求解的低秩矩陣。
[0092] 這個(gè)問(wèn)題可采用增廣的拉格朗日乘子方法(ALM)求解，要求解的最小化拉格朗日函數(shù)構(gòu)造如下：
[0094] 其中，Y和W均是拉格朗日乘子，參數(shù)y>0是懲罰參數(shù)。該問(wèn)題是凸問(wèn)題，都具有閉合形式的解，每次通過(guò)固定無(wú)關(guān)變量，然后分別對(duì)相關(guān)變量進(jìn)行迭代優(yōu)化求解，求解出所述關(guān)鍵詞低秩矩陣J。然后，將所述關(guān)鍵詞低秩矩陣J中的關(guān)鍵詞作為所述文章文本中所述特定話題下的關(guān)鍵詞。
[0095] 圖2示出了本發(fā)明求解出的關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例，其中m列表示第該話題下的第一個(gè)事件的所有關(guān)鍵詞，m列和m列具有相同的元素 cU，表明事件1和事件3都含有關(guān) 鍵詞wi，每個(gè)關(guān)鍵詞向量Wi都由上文中的word2vec訓(xùn)練得到，為d維的向量，d的取值一般為 200 ;0表不該事件不含有相關(guān)的關(guān)鍵詞;m是所有事件提取的關(guān)鍵詞個(gè)數(shù)的總和，而每個(gè)關(guān) 鍵詞的維數(shù)為d，每個(gè)話題包含n個(gè)事件，因此話題關(guān)鍵詞矩陣X為r*n，r=m*d;
[0096] 實(shí)施例二
[0097]該實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，該裝置的具體結(jié)構(gòu)如圖3所示，包括：
[0098]數(shù)據(jù)預(yù)處理模塊31，用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理，該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。
[0099] 詞向量化文件生成模塊32,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，該詞向量化文件中包括多個(gè)詞語(yǔ)向量，所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞；
[0100] 關(guān)鍵詞矩陣建立模塊33,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù) 據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣；
[0101] 關(guān)鍵詞獲取模塊34,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。
[0102] 進(jìn)一步地，所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0103] 進(jìn)一步地，所述的關(guān)鍵詞矩陣建立模塊33,具體用于針對(duì)特定話題，使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn)的權(quán)重的計(jì)算公式如下：
[0105] 其中WS^)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù)，In^)是存在指向詞語(yǔ)i 的所有詞語(yǔ)的集合;〇ut(L)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;叫表示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度；
[0106] 將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序，選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞；
[0107] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣： n
[0108] Wf * ^ , "7 = H人， W(r*n)} Tt
[0109] 其中，ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0110] 進(jìn)一步地，所述的關(guān)鍵詞獲取模塊34,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如下：
[0111] X=XZ+E
[0112]其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即所述關(guān)鍵詞矩陣W(r*n)，Z是要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲；
[0113]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，得到凸優(yōu)化問(wèn)題如下式：
[0114] min !1./il;,+/1II EIK, J . Z Jl
[0115] s.t.X=XZ+E
[0116] Z = J
[0117] A是約束參數(shù)，J是要求解的關(guān)鍵詞低秩矩陣；
[0118] 所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解，要求解的最小化拉格朗日函數(shù)構(gòu)造如下：
[0120] 其中，Y和W均是拉格朗日乘子，參數(shù)y>0是懲罰參數(shù)，通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭代優(yōu)化，求解出所述關(guān)鍵詞低秩矩陣J。
[0121] 用本發(fā)明實(shí)施例的裝置進(jìn)行基于低秩矩陣分解的文章話題關(guān)鍵詞提取的具體過(guò) 程與前述方法實(shí)施例類似，此處不再贅述。
[0122] 綜上所述，本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng)絡(luò)媒體語(yǔ)義識(shí)別以及文本輿情分析等領(lǐng) 域，具有廣闊的應(yīng)用前景。本發(fā)明具有以下優(yōu)點(diǎn)：
[0123] 1、本發(fā)明提供的這種微博等文章的關(guān)鍵詞抽取方法，重點(diǎn)解決了短文本的關(guān)鍵詞抽取方法，并開(kāi)創(chuàng)性的研究微博等文章話題關(guān)鍵詞生成方法。
[0124] 2、采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞，有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問(wèn)題，大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
[0125] 3、本系統(tǒng)的所有模塊都是完全自動(dòng)的，不需要人工干預(yù)，因此可以嵌入到各類Web 信息過(guò)濾系統(tǒng)中去。此外，本系統(tǒng)還可以作為子系統(tǒng)嵌入到通用輿情分析系統(tǒng)中。具有廣泛的應(yīng)用前景。
[0126] 本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個(gè)實(shí)施例的示意圖，附圖中的模塊或流程并不一定是實(shí)施本發(fā)明所必須的。
[0127] 通過(guò)以上的實(shí)施方式的描述可知，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解，本發(fā)明的技術(shù)方案本質(zhì) 上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如R0M/RAM、磁碟、光盤等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備 (可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0128] 本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于裝置或系統(tǒng)實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述得比較簡(jiǎn)單，相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的，其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù) 人員在不付出創(chuàng)造性勞動(dòng)的情況下，即可以理解并實(shí)施。
[0129] 以上所述，僅為本發(fā)明較佳的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于，包括：使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，該詞向量化文件中包括多個(gè)詞語(yǔ)向量，所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞；使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣；采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于，所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理，該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。3. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于，所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。4. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于，所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣，包括：針對(duì)特定話題，使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn) 的權(quán)重的計(jì)算公式如下：其中WS(Vi)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù)，In(Vi)是存在指向詞語(yǔ)i的所有詞語(yǔ)的集合;Out(Vj)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;Wi康示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度；將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序，選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞；根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣：其中，ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，n為每個(gè)事件抽取的關(guān)鍵詞的個(gè) 數(shù)，d為每個(gè)關(guān)鍵詞向量的維數(shù)。5. 根據(jù)權(quán)利要求4所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于，所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn)題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞，包括：所述關(guān)鍵詞矩陣的分解的式子如下： X = XZ 巧其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即所述關(guān)鍵詞矩陣W(r*n)，Z是要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲；基于低秩矩陣分解的文章話顆羊鍵詞梅取兩?訣.得幸Il巧優(yōu)化問(wèn)題如下式： s.t.X = XZ 巧Z=J 入是約束參數(shù)，J是要求解的關(guān)鍵詞低秩矩陣；所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解，要求解的最小化拉格朗日函數(shù)構(gòu) 造如下：其中，Y和W均是拉格朗日乘子，參數(shù)y>0是懲罰參數(shù)，通過(guò)對(duì)固定無(wú)關(guān)變量進(jìn)行迭代優(yōu) 化，求解出所述關(guān)鍵詞低秩矩陣J。6. -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，其特征在于，包括：詞向量化文件生成模塊，用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本，得到詞向量化文件，該詞向量化文件中包括多個(gè)詞語(yǔ)向量，所述詞語(yǔ)包含關(guān)鍵詞和非關(guān)鍵詞；關(guān)鍵詞矩陣建立模塊，用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞，根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件，建立所述特定話題下的關(guān)鍵詞矩陣；關(guān)鍵詞獲取模塊，用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問(wèn) 題，得到關(guān)鍵詞低秩矩陣，最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞。7. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，其特征在于，所述的裝置還包括：數(shù)據(jù)預(yù)處理模塊，用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理，該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。8. 根據(jù)權(quán)利要求7所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，其特征在于，所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。9. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置，其特征在于：所述的關(guān)鍵詞矩陣建立模塊，具體用于針對(duì)特定話題，使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語(yǔ)作為文本圖模型的頂點(diǎn)，詞語(yǔ)之間的關(guān)系作為文本圖的邊，建立文本圖模型，頂點(diǎn)的權(quán)重的計(jì)算公式如下：其中WS(Vi)表示詞語(yǔ)i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù)，In(Vi)是存在指向詞語(yǔ)i的所有詞語(yǔ)的集合;Out(Vj)是詞語(yǔ)j指向的所有詞語(yǔ)的集合;Wi康示詞語(yǔ)i和詞語(yǔ)j之間的聯(lián)系強(qiáng)度；將所有詞語(yǔ)的權(quán)值進(jìn)行降序排序，選取排列靠前的設(shè)定數(shù)量個(gè)詞語(yǔ)作為關(guān)鍵詞；根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件，獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量，根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣：其中，kl為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù) n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù)，d為每個(gè)關(guān)鍵詞向量的維數(shù)。10.根據(jù)權(quán)利要求9所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法，其特征在于：所述的關(guān)鍵詞獲取模塊，具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如下： X = XZ 巧其中，X是觀測(cè)到的數(shù)據(jù)矩陣，即所述關(guān)鍵詞矩陣W(r*n)，Z是要恢復(fù)的低秩性矩陣，E為數(shù)據(jù)噪聲；基于低秩矩陣分解的文章話挪^蝕;司據(jù)前韋'法-俱蔚IA化化問(wèn)題如下式：s.t.X = XZ 巧 Z = J 入是約束參數(shù)，J是要求解的關(guān)鍵詞低秩矩陣；所述凸優(yōu)化問(wèn)題采用增廣的拉格朗日乘子方法求解，要求解的最小化拉格朗日函數(shù)構(gòu) 造如下：其中，1[個(gè)巧化份明口米:了，終女義y戶W巧世;終女義，化化W兇疋兀乂艾里化"達(dá)代優(yōu) 化，求解出所述關(guān)鍵詞低秩矩陣J。
【文檔編號(hào)】G06F17/27GK105912524SQ201610218407
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年4月9日
【發(fā)明人】郎叢妍, 何偉明, 于兆鵬, 馮松鶴, 王濤, 杜雪濤, 張晨
【申請(qǐng)人】北京交通大學(xué), 中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郎叢妍;何偉明;于兆鵬;馮松鶴;王濤;杜雪濤;張晨;
技術(shù)所有人：北京交通大學(xué);中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司;
我是此專利的發(fā)明人

上一篇：基于主題特征的半監(jiān)督學(xué)習(xí)情感分類方法
上一篇：一種詞義標(biāo)注方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

低秩矩陣分解相關(guān)技術(shù)

矩陣低秩分解理論相關(guān)技術(shù)

低秩矩陣相關(guān)技術(shù)

低秩矩陣恢復(fù)相關(guān)技術(shù)

低秩分解相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法