一種關(guān)鍵詞提取方法和裝置的制造方法

文檔序號(hào)：10534867閱讀：301來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種關(guān)鍵詞提取方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取方法和裝置。利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞；計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；根據(jù)所述相似度計(jì)算所述候選關(guān)鍵詞的權(quán)重，根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率；根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞，提高了關(guān)鍵詞抽取的準(zhǔn)確率。
【專利說明】
一種關(guān)鍵詞提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及視頻技術(shù)領(lǐng)域，尤其涉及一種關(guān)鍵詞提取方法和裝置。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的不斷發(fā)展，大量的文本信息開始以計(jì)算機(jī)可讀的形式存在，許多領(lǐng)域信息都呈現(xiàn)出爆發(fā)式增長(zhǎng)，比如豆瓣上的影評(píng)以及短評(píng)。如何在海量的信息當(dāng)中快速并準(zhǔn)確的提取有用的信息將是一個(gè)重要的技術(shù)需求。關(guān)鍵詞提取就是一種解決上述問題的有效手段，關(guān)鍵詞是對(duì)文章主體信息的精煉，更快的掌握重要信息，提高信息訪問的效率。
[0003] 關(guān)鍵詞提取從方法來說大致有兩種:第一種叫做關(guān)鍵詞分配，即給定一個(gè)關(guān)鍵詞庫(kù)，然后來一篇文章從詞庫(kù)里面找到幾個(gè)詞語(yǔ)作為這篇文章的關(guān)鍵詞。另外一種就是關(guān)鍵詞抽取，就是來一篇文章，從文章中抽取一些詞語(yǔ)作為這篇文章的關(guān)鍵詞。目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽關(guān)鍵詞的算法)和它對(duì)應(yīng)的庫(kù)都是基于關(guān)鍵詞抽取的，關(guān)鍵詞抽取相比于關(guān)鍵詞分配更具有實(shí)際意義。
[0004] 關(guān)鍵詞抽取的算法，目前主要有TF-IDF算法、KEA算法和TextRank算法。在《數(shù)學(xué)之美》中介紹的TF-IDF關(guān)鍵詞提取算法需要預(yù)先保存每個(gè)詞的IDF(逆文檔頻率)值作為外部知識(shí)庫(kù)，復(fù)雜的算法則需要保存更多的信息。對(duì)于不使用外部知識(shí)庫(kù)的算法，主要是可以實(shí) 現(xiàn)語(yǔ)言無關(guān)以及避免詞表中不存在詞語(yǔ)所造成的問題。TF-IDF算法思路是找到文本中常見但是在別的文本中不常出現(xiàn)詞語(yǔ)，這個(gè)正好符合關(guān)鍵詞的特點(diǎn)。
[0005] 初代KEA算法除了使用TF-IDF外還用到了詞語(yǔ)在文章中首次出現(xiàn)的位置，這個(gè)根據(jù)就是大多數(shù)的文章(特別是新聞文本)是總分總的結(jié)構(gòu)，很明顯一個(gè)詞語(yǔ)出現(xiàn)在文章首部和尾部成為關(guān)鍵詞的可能性大于只出現(xiàn)在文章中部的詞語(yǔ)。對(duì)各個(gè)詞根據(jù)在文章首次出現(xiàn) 的位置賦予不同的權(quán)值，結(jié)合TF-IDF以及連續(xù)數(shù)據(jù)離散化方法，這個(gè)就是初代KEA算法的核心思想。
[0006] 不依賴外部知識(shí)庫(kù)的關(guān)鍵詞算法主要根據(jù)文本本身的特征去提取。比如說關(guān)鍵詞特征之一就是在文本中反復(fù)出現(xiàn)且關(guān)鍵詞附近出現(xiàn)關(guān)鍵詞的概率非常大，因此就有了 TextRank算法。它利用類似于PageRank算法，將文本中每個(gè)詞看成一個(gè)頁(yè)面，認(rèn)為文本中某一個(gè)詞語(yǔ)與之周圍N個(gè)詞存在一個(gè)link，然后在這個(gè)網(wǎng)絡(luò)中使用PageRank算出每個(gè)詞語(yǔ)的權(quán)值，把權(quán)值最高的幾個(gè)詞作為關(guān)鍵詞即可。TextRank典型的實(shí)現(xiàn)包括FudanNLP和SnowNLP 等。
[0007] 以上算法都未考慮詞語(yǔ)的相似性，TF*IDF是基于詞頻(TF)和逆文檔頻率（IDF)的乘積來衡量詞的重要性。優(yōu)點(diǎn)是簡(jiǎn)單快捷;缺點(diǎn)也很明顯，單純計(jì)算"詞頻"不夠全面，而且無法體現(xiàn)詞的位置信息。TextRank中計(jì)算的是位置關(guān)系，至于該位置是哪個(gè)詞不做考慮，詞語(yǔ)的相似性對(duì)結(jié)果有影響。因此一種高效準(zhǔn)確的關(guān)鍵詞提取算法亟待提出。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取算法及裝置，用以解決現(xiàn)有技術(shù)僅考慮詞頻和詞的位置關(guān)系的缺陷，提高了關(guān)鍵詞提取的準(zhǔn)確性。
[0009] 本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取方法，包括：
[0010] 利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞；
[0011] 計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；
[0012] 根據(jù)所述相似度，計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重，根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率；
[0013] 根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取裝置，包括：
[0014] 候選關(guān)鍵詞獲取模塊，用于利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn) 行過濾得到候選關(guān)鍵詞；
[0015] 相似度計(jì)算模塊，用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；
[0016] 逆文檔頻率計(jì)算模塊，用于根據(jù)所述相似度，計(jì)算所述候選關(guān)鍵詞的權(quán)重，根據(jù)預(yù) 設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率；
[0017] 關(guān)鍵詞提取模塊，用于根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。
[0018] 本發(fā)明實(shí)施例提供的一種關(guān)鍵詞提取方法及裝置，通過對(duì)文本進(jìn)行分詞、計(jì)算單詞之間的相似度以及逆文檔頻率，提高了關(guān)鍵詞抽取的準(zhǔn)確率。
【附圖說明】
[0019] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖是本發(fā) 明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0020] 圖1為本發(fā)明實(shí)施例一的技術(shù)流程圖；
[0021] 圖2為本發(fā)明實(shí)施例二的技術(shù)流程圖；
[0022]圖3為本發(fā)明實(shí)施例三的裝置結(jié)構(gòu)示意圖；
[0023]圖4為本發(fā)明應(yīng)用實(shí)例的詞項(xiàng)圖示例；
[0024]圖5為本發(fā)明應(yīng)用實(shí)例的TextRank迭代后的詞項(xiàng)圖示例。
【具體實(shí)施方式】
[0025]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0026] 實(shí)施例一
[0027] 圖1是本發(fā)明實(shí)施例一的技術(shù)流程圖，結(jié)合圖1，本發(fā)明實(shí)施例一種關(guān)鍵詞提取方法主要包括如下的步驟：
[0028] 步驟110:利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn)行過濾得到候選關(guān) 鍵詞；
[0029] 本發(fā)明實(shí)施例中，利用現(xiàn)有的分詞器將收集到的文本分割為單獨(dú)的詞語(yǔ)并且能獲得每個(gè)單詞的詞性，其中分詞器可以包括基于詞典匹配算法的分詞器、基于詞庫(kù)匹配的分詞器、基于詞頻度統(tǒng)計(jì)的分詞器和基于知識(shí)理解的分詞器等，本發(fā)明實(shí)施例并不做限制。
[0030] 利用分詞器得到單詞后需對(duì)單詞進(jìn)行進(jìn)一步地處理，如根據(jù)所述詞性和預(yù)設(shè)的黑名單對(duì)所述單詞進(jìn)行停用詞與非必要詞的過濾等。所述停用詞是一些沒有實(shí)際含義的詞，包括語(yǔ)氣助詞、副詞、介詞、連接詞等，通常自身并無明確的意義，只有將其放入一個(gè)完整的句子中才有一定作用，如中文文本中常見的"的、在"之類，英文文本中的"the、is、at、 which、on"。針對(duì)一些非必要詞，可以根據(jù)預(yù)設(shè)的黑名單，結(jié)合正則表達(dá)式將這些詞濾除，得到文本中的候選關(guān)鍵詞。
[0031] 步驟120:計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；
[0032]本發(fā)明實(shí)施例中，采用word2vec來計(jì)算詞向量。word2vec是一個(gè)將單詞轉(zhuǎn)換成向量形式的工具?？梢园褜?duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算，計(jì)算出向量空間上的相似度，來表示文本語(yǔ)義上的相似度。
[0033] word2vec為計(jì)算向量詞提供了一種有效的連續(xù)詞袋(bag-of-words)和skip-gram 架構(gòu)實(shí)現(xiàn)，Word2vec可以計(jì)算詞和詞之間的距離，知道了距離，可以對(duì)詞進(jìn)行聚類，而且 word2vec本身也提供了聚類功能。Word2vec使用到了deep learning技術(shù)，不僅有著非常高的準(zhǔn)確度，同時(shí)效率非常高，適合處理海量數(shù)據(jù)。
[0034]步驟130:根據(jù)所述相似度，計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重，并根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率；
[0035]本發(fā)明實(shí)施例中，利用TextRank公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重，在迭代計(jì)算之前預(yù)先構(gòu)建詞項(xiàng)圖G(V，E)，其中V為所述候選關(guān)鍵詞集合，E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和，E￡VxV。
[0036]根據(jù)預(yù)設(shè)的迭代次數(shù)，采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重：
[0038] 其中，WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重，In(Vi)表示所述詞項(xiàng)圖中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合，Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞％所指向的候選關(guān)鍵詞的集合，表示候選關(guān)鍵詞￥:和候選關(guān)鍵詞％的所述相似度，表示候選關(guān)鍵詞％和候選關(guān)鍵詞V k的所述相似度，d為阻尼系數(shù)，WS(VJ代表上一次迭代時(shí)，候選關(guān)鍵詞％的所述權(quán)重。
[0039]通常來說，如果一個(gè)詞在越多的文本中出現(xiàn)過，那個(gè)這個(gè)詞對(duì)某一個(gè)文本的貢獻(xiàn) 度應(yīng)該就越小，也就是通過這個(gè)詞來區(qū)分文本的區(qū)分度越小，因此，本發(fā)明實(shí)施例中，進(jìn)一步使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率：
[0041] 如果一個(gè)詞越常見，那么分母就越大，逆文檔頻率就越小越接近0。分母之所以要加1，是為了避免分母為〇(即所有文本都不包含該詞）dog表示對(duì)得到的值取對(duì)數(shù)，可以降低最后得到的數(shù)值大小。
[0042] 步驟140:根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。
[0043] 具體地，本發(fā)明實(shí)施例以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度，并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0044] 本發(fā)明實(shí)施例中，每個(gè)候選關(guān)鍵詞最終都會(huì)得到一個(gè)相應(yīng)的關(guān)鍵度，將所述候選關(guān)鍵詞按照其對(duì)應(yīng)的關(guān)鍵度進(jìn)行由大到小的排序，若是需要提取N個(gè)關(guān)鍵詞，則只需從關(guān)鍵度最高的候選關(guān)鍵詞開始，按序選取N個(gè)即可。
[0045] 本發(fā)明實(shí)施例中，關(guān)鍵度=權(quán)重*逆文檔頻率，其中，所述權(quán)重的計(jì)算過程中結(jié)合了單詞之間的相似性，同時(shí)考慮了單詞的位置關(guān)系，所述逆文檔頻率又兼顧單詞對(duì)文本的貢獻(xiàn)大小，這樣綜合的關(guān)鍵詞提取方法顯著提高了關(guān)鍵詞的抽取效果。
[0046] 實(shí)施例二
[0047] 圖2是本發(fā)明實(shí)施例二的技術(shù)流程圖，結(jié)合圖2,本發(fā)明實(shí)施例一種關(guān)鍵詞的提取方法進(jìn)一步可以細(xì)化為以下的步驟：
[0048] 步驟210:利用分詞器對(duì)文本進(jìn)行分詞得到每個(gè)單詞及其詞性；
[0049] 本發(fā)明實(shí)施例中，用現(xiàn)有的分詞方法，將文本分割為詞匯的方法可以是下述任一一種，或者任意幾種的組合。
[0050] 基于詞典匹配算法的分詞器應(yīng)用詞典匹配、漢語(yǔ)詞法或其它漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行分詞，如:最大匹配法、最小分詞方法等?；谠~庫(kù)匹配的分詞器則基于字和詞的統(tǒng)計(jì)信息，如把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞，由于這些信息是通過調(diào)查真實(shí) 語(yǔ)料而取得的，因而基于統(tǒng)計(jì)的分詞方法具有較好的實(shí)用性。
[0051] 基于字典、詞庫(kù)匹配的分詞方法按照一定策略將待分析的漢字串與一個(gè)充分大的機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功。識(shí)別出一個(gè)詞，根據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長(zhǎng)度優(yōu)先匹配的情況，分為最大(最長(zhǎng))匹配和最小(最短）匹配。根據(jù)與詞性標(biāo)注過程是否相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。
[0052] 其中，最大正向匹配法(MaxiumMatchingMethod)通常簡(jiǎn)稱為MM法。其基本思想為：假定分詞詞典中的最長(zhǎng)詞有i個(gè)漢字字符，則用被處理文本的當(dāng)前字串中的前i個(gè)字作為匹配字段，查找字典。若字典中存在這樣的一個(gè)i字詞，則匹配成功，匹配字段被作為一個(gè)詞切分出來。如果詞典中找不到這樣的一個(gè)i字詞，則匹配失敗，將匹配字段中的最后一個(gè)字去掉，對(duì)剩下的字串重新進(jìn)行匹配處理……如此進(jìn)行下去，直到匹配成功，即切分出一個(gè)詞或剩余字串的長(zhǎng)度為零為止。這樣就完成了一輪匹配，然后取下一個(gè)i字字串進(jìn)行匹配處理，直到文本被掃描完為止。
[0053]最大逆向匹配法(1^￥6^6]\^1；[111]1]\^1：(311；[1^]\^1：110(1)通常簡(jiǎn)稱為冊(cè)]\1法。冊(cè)]\1法的基本原理與MM法相同，不同的是分詞切分的方向與MM法相反，而且使用的分詞辭典也不同。逆向最大匹配法從被處理文本的末端開始匹配掃描，每次取最末端的2i個(gè)字符（i字字串）作為匹配字段，若匹配失敗，則去掉匹配字段最前面的一個(gè)字，繼續(xù)匹配。相應(yīng)地，它使用的分詞詞典是逆序詞典，其中的每個(gè)詞條都將按逆序方式存放。在實(shí)際處理時(shí)，先將文本進(jìn)行倒排處理，生成逆序文本。然后，根據(jù)逆序詞典，對(duì)逆序文本用正向最大匹配法處理即可。
[0054] 最大匹配算法是一種基于分詞詞典的機(jī)械分詞法，不能根據(jù)文本上下文的語(yǔ)義特征來切分詞語(yǔ)，對(duì)詞典的依賴性較大，所以在實(shí)際使用時(shí)，難免會(huì)造成一些分詞錯(cuò)誤，為了提高系統(tǒng)分詞的準(zhǔn)確度，可以采用正向最大匹配法和逆向最大匹配法相結(jié)合的分詞方案，即雙向匹配法。
[0055] 雙向匹配法，將正向最大匹配法與逆向最大匹配法組合。先根據(jù)標(biāo)點(diǎn)對(duì)文本進(jìn)行粗切分，把文本分解成若干個(gè)句子，然后再對(duì)這些句子用正向最大匹配法和逆向最大匹配法進(jìn)行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同，則認(rèn)為分詞正確，否則，按最小集處理。
[0056] 基于詞的頻度統(tǒng)計(jì)的分詞方法是一種全切分方法。它不依靠詞典，而是將文章中任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)，次數(shù)越高的就可能是一個(gè)詞。它首先切分出與詞表匹配的所有可能的詞，運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來。
[0057]基于知識(shí)理解的分詞方法主要基于句法、語(yǔ)法分析，并結(jié)合語(yǔ)義分析，通過對(duì)上下文內(nèi)容所提供信息的分析對(duì)詞進(jìn)行定界，它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來對(duì)分詞歧義進(jìn)行判斷。這類方法試圖讓機(jī)器具有人類的理解能力，需要使用大量的語(yǔ) 言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性，難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式。
[0058]優(yōu)選地，本發(fā)明實(shí)施例在利用分詞器對(duì)文本進(jìn)行分詞之前預(yù)先使用正則表達(dá)式對(duì) 文本進(jìn)行去重去噪處理，例如文本中的表情符號(hào)〇( n _ n )〇,或類似"。。。。。。。"的極度重復(fù) 標(biāo)點(diǎn)或者類似"哈哈哈哈哈"一類的極度重復(fù)詞。對(duì)于一些特定的網(wǎng)頁(yè)評(píng)論數(shù)據(jù)，可以進(jìn)一步統(tǒng)計(jì)自動(dòng)評(píng)論模板，例如根據(jù)自動(dòng)評(píng)論模板去除評(píng)論數(shù)據(jù)中包含的自動(dòng)評(píng)論、一些網(wǎng)址鏈接等等。
[0059] 步驟220:根據(jù)所述詞性和預(yù)設(shè)的黑名單對(duì)所述單詞進(jìn)行停用詞過濾得到候選關(guān) 鍵詞；
[0060] 文本中通常含有大量的語(yǔ)氣詞、助詞等一些并不存在實(shí)際意義的詞，這些詞被稱為停用詞，這類停用詞的出現(xiàn)頻率通常很高，若是不濾除則會(huì)影響到關(guān)鍵詞提取的準(zhǔn)確率。本發(fā)明實(shí)施例中，首先根據(jù)詞性對(duì)所述候選關(guān)鍵詞進(jìn)行濾除，通常而言，各類助詞和介詞是需要被濾除的。除此之外，預(yù)先建立黑名單，所述黑名單不僅包括了停用詞，還包括一些非法詞匯，廣告詞匯等等。根據(jù)預(yù)先建立的黑名單可以再次使用正則表達(dá)式對(duì)所述候選關(guān)鍵詞進(jìn)行清理，減輕后續(xù)計(jì)算壓力。
[0061] 步驟230:計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；
[0062]本發(fā)明實(shí)施例中，利用word2vec將每個(gè)所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式，并根據(jù)每個(gè)所述候選詞對(duì)應(yīng)的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān) 鍵詞之間的相似度。
[0063]自然語(yǔ)言理解的問題要轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題，第一步肯定是要找一種方法把這些符號(hào)數(shù)學(xué)化。w〇rd2veC是Google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具，采用的模型有CB0W(Continuous Bag-〇f-Words，即連續(xù)的詞袋模型）和Skip-Gram兩種。word2vec遵循Apache License 2.0開源協(xié)議，通過訓(xùn)練，可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算，而向量空間上的相似度可以用來表示文本語(yǔ)義上的相似度。因此，W〇rd2 vec輸出的詞向量可以被用來做很多NLP相關(guān)的工作，比如聚類、找同義詞、詞性分析等等。
[0064] 對(duì)本文中的單詞進(jìn)行相似性計(jì)算，有助于對(duì)文本進(jìn)行分類，了解文檔主題，從而提高關(guān)鍵詞的提取準(zhǔn)確度
[0065] 本發(fā)明實(shí)施例中，主要采用word2vec工具將所述候選關(guān)鍵詞轉(zhuǎn)化為K維向量空間中的向量運(yùn)算，再通過每個(gè)所述候選關(guān)鍵詞對(duì)應(yīng)的空間詞向量的相似性來計(jì)算其對(duì)應(yīng)的相似度。
[0066] 步驟240:根據(jù)所述候選關(guān)鍵詞構(gòu)建詞項(xiàng)圖；
[0067] 用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口，每個(gè)所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞;其中N為所述候選關(guān)鍵詞的總數(shù)，K為所述窗口的尺寸；
[0068] 例如，候選關(guān)鍵詞為vl，v2，v3，v4，v5，. . .，vn，窗口長(zhǎng)度為K，將窗口覆蓋在所述候選關(guān)鍵詞上，逐個(gè)平移，將得到如下的候選關(guān)鍵詞窗口： vl，v2, . . .，vk、v2，v3, . . .，vk+l、 v3，v4, . . .，vk+2,...等等?；谙噜彽奈恢藐P(guān)系，每個(gè)窗口內(nèi)的候選關(guān)鍵詞是相互關(guān)聯(lián)的，窗口之間默認(rèn)獨(dú)立。
[0069] 得到候選關(guān)鍵詞窗口后，用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V，E)，其中V為所述候選關(guān)鍵詞集合，E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和，EGVXV。在所述詞項(xiàng)圖中，每一個(gè)所述候選關(guān)鍵詞都可以看作是一個(gè)節(jié)點(diǎn)，詞項(xiàng)圖就是由若干個(gè)節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線構(gòu)成，這些連線最初是無權(quán)無向的邊。
[0070] 需要說明的是，步驟230和步驟240之間并無先后順序，本發(fā)明實(shí)施例中也可以先構(gòu)建所述詞項(xiàng)圖再計(jì)算所述候選關(guān)鍵詞之間的相似度。
[0071 ] 步驟250:利用TextRank公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重；
[0072]計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重時(shí)，需進(jìn)一步結(jié)合詞項(xiàng)圖之間每個(gè)所述候選關(guān)鍵詞的連接關(guān)系以及每個(gè)所述候選關(guān)鍵詞之間的相似度，采用如下公式迭代計(jì)算：
[0074] 其中，WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重，In(Vi)表示所述詞項(xiàng)圖中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合，Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞％所指向的候選關(guān)鍵詞的集合，表示候選關(guān)鍵詞￥:和候選關(guān)鍵詞％的所述相似度，表示候選關(guān)鍵詞％和候選關(guān)鍵詞V k的所述相似度，d為阻尼系數(shù)，WS(VJ代表上一次迭代時(shí)，候選關(guān)鍵詞％的所述權(quán)重。
[0075] 本發(fā)明實(shí)施例中，迭代次數(shù)是一個(gè)預(yù)設(shè)的經(jīng)驗(yàn)值，迭代的次數(shù)受候選關(guān)鍵詞權(quán)重初值的影響，通常，需要給所述詞項(xiàng)圖中的任意一個(gè)指定的候選關(guān)鍵詞賦初值，本發(fā)明實(shí)施例中，將每個(gè)所述候選關(guān)鍵詞的權(quán)重初值設(shè)為1。
[0076] 為了避免權(quán)重計(jì)算過程中出現(xiàn)無限循環(huán)迭代的狀況，本發(fā)明實(shí)施例中為迭代過程設(shè)定了迭代次數(shù)的上限，根據(jù)經(jīng)驗(yàn)值，將迭代次數(shù)設(shè)置為200，即當(dāng)?shù)螖?shù)達(dá)到200時(shí)，停止迭=代過程，將得到的結(jié)果作為對(duì)應(yīng)的候選關(guān)鍵詞的權(quán)重得分。
[0077]優(yōu)選的，本發(fā)明實(shí)施例還可以通過判斷迭代結(jié)果是否收斂來決定迭代次數(shù)。當(dāng)?shù)?代結(jié)果收斂時(shí)，即可停止迭代，所述指定的候選關(guān)鍵詞會(huì)得到一個(gè)權(quán)重值。此處所述收斂通過判斷指定的候選關(guān)鍵詞計(jì)算出的權(quán)重值的誤差率是否小于預(yù)設(shè)的極限值從而能夠達(dá)到收斂點(diǎn)。候選關(guān)鍵詞Vi的誤差率為其實(shí)際權(quán)重和第K次迭代時(shí)得到的權(quán)重之間的差值，但由于候選關(guān)鍵詞的實(shí)際權(quán)重是未知的，所以誤差率近似認(rèn)為是候選關(guān)鍵詞在兩次迭代結(jié)果之間的差值，一般所述極限值取〇. 0001。
[0078]通過反復(fù)的迭代計(jì)算之后，所述詞項(xiàng)圖會(huì)發(fā)生變化
[0079]步驟260:并根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率；
[0081] 需要說明的是，步驟250和步驟260之間并無先后順序，本發(fā)明實(shí)施例中，也可以先計(jì)算逆文檔頻率，再迭代計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)重，本發(fā)明并不做限制。
[0082] 步驟270:以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度，并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0083] Vi 的關(guān)鍵度= IDF*WS(Vi)
[0084] 本實(shí)施例中，提取關(guān)鍵詞的算法中，通過進(jìn)一步地對(duì)文本進(jìn)行非必要因素的過濾，減輕了數(shù)據(jù)冗余，提高了關(guān)鍵詞提取過程中的計(jì)算效率，同時(shí)使用word2 VeC工具進(jìn)行近義詞的判斷，結(jié)合詞的位置關(guān)系和詞頻，提取的關(guān)鍵詞質(zhì)量和準(zhǔn)確率更高。
[0085] 實(shí)施例三
[0086] 圖3是本發(fā)明實(shí)施例三的技術(shù)流程圖，結(jié)合圖3,本發(fā)明一種關(guān)鍵詞提取裝置主要包括候選關(guān)鍵詞獲取模塊310、相似度計(jì)算模塊320、逆文檔頻率計(jì)算模塊330、關(guān)鍵詞提取模塊340。
[0087] 所述候選關(guān)鍵詞獲取模塊310,用于利用分詞器對(duì)文本進(jìn)行分詞得到每個(gè)單詞及其詞性，并根據(jù)所述詞性和預(yù)設(shè)的黑名單對(duì)所述單詞進(jìn)行停用詞過濾得到候選關(guān)鍵詞；
[0088] 所述相似度計(jì)算模塊320，用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；
[0089]所述逆文檔頻率計(jì)算模塊330,用于根據(jù)所述相似度，利用TextRank公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重，并根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率；
[0090] 所述關(guān)鍵詞提取模塊340,用于以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度，并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān) 鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0091] 進(jìn)一步地，所述相似度計(jì)算模塊320進(jìn)一步用于:利用word2vec將每個(gè)所述候選關(guān) 鍵詞轉(zhuǎn)化為單詞向量的形式，并根據(jù)每個(gè)所述候選詞對(duì)應(yīng)的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。
[0092]所述裝置進(jìn)一步包括構(gòu)圖模塊350,所述構(gòu)圖模塊350用于根據(jù)所述相似度，利用 TextRank公式迭代計(jì)算每個(gè)所述單詞的權(quán)重之前，用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè) 平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口，每個(gè)所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞；其中N為所述候選關(guān)鍵詞的總數(shù)，K為所述窗口的尺寸；用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V，E)，其中V為所述候選關(guān)鍵詞集合， E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和，ESVxV。
[0093]所述逆文檔頻率計(jì)算模塊330進(jìn)一步用于:根據(jù)預(yù)設(shè)的迭代次數(shù)，采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重：
[0095] 其中，WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重，In(Vi)表示所述詞項(xiàng)圖中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合，Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞％所指向的候選關(guān)鍵詞的集合，表示候選關(guān)鍵詞￥:和候選關(guān)鍵詞％的所述相似度，表示候選關(guān)鍵詞％和候選關(guān)鍵詞V k的所述相似度，d為阻尼系數(shù)，WS(VJ代表上一次迭代時(shí)，候選關(guān)鍵詞％的所述權(quán)重。
[0096] 所述逆文檔頻率計(jì)算模塊進(jìn)一步還用于，
[0097] 使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率：
[0099]其中，log〇表示取對(duì)數(shù)運(yùn)算。
[0100] 應(yīng)用實(shí)例
[0101] 假設(shè)網(wǎng)絡(luò)爬蟲爬取到一篇豆瓣影評(píng)文本等待關(guān)鍵詞提取處理，文本內(nèi)容如下：哈哈哈哈哈哈哈！太好看了乙~!太震撼了！強(qiáng)力推薦!這是能讓人真心大笑又哽咽感動(dòng)的影片---好的喜劇劇本、演員，其實(shí)比悲劇更難表現(xiàn)好，兩位主演的表現(xiàn)相當(dāng)亮眼，細(xì)節(jié)也非常出彩到位。真是讓人回味無窮。。。。。。推薦下載地址http://movie.xxx. com。
[0102] 對(duì)于這樣一篇影評(píng)，要提取其關(guān)鍵詞作為標(biāo)簽，首先在詞語(yǔ)分隔之前進(jìn)行使用正則表達(dá)式對(duì)文本進(jìn)行去重去噪處理，去除類似"哈哈哈哈哈哈哈"~ _ "---"、"。。。。。。"、"。。。。。。"、"http://movie .xxx. com"這樣的非必要內(nèi)容，使得文本更加清潔。
[0103] 于是得到下述結(jié)果：
[0104] !太好看了！太震撼了！強(qiáng)力推薦!這是能讓人真心大笑又哽咽感動(dòng)的影片好的喜劇劇本、演員，其實(shí)比悲劇更難表現(xiàn)好，兩位主演的表現(xiàn)相當(dāng)亮眼，細(xì)節(jié)也非常出彩到位。真是讓人回味無窮推薦下載地址。
[0105] 這段文本中，除了必要的句子之外，還有很多標(biāo)點(diǎn)符號(hào)以及停用詞，此時(shí)，可以再次采用正則表達(dá)式過濾掉標(biāo)點(diǎn)符號(hào)以及"太、了、這、是、能"等這一類詞，得到下述結(jié)果：
[0106] 好看震撼強(qiáng)力推薦讓人真心大笑又哽咽感動(dòng)的影片好的喜劇劇本演員其實(shí)比悲劇更難表現(xiàn)好兩位主演的表現(xiàn)相當(dāng)亮眼細(xì)節(jié)也非常出彩到位真是讓人回味無窮推薦下載地址
[0107] 接下來，采用分詞器進(jìn)行句子分割，此處采用基于字典、詞庫(kù)匹配的分詞方法，正向掃描出每一個(gè)詞，并將之與預(yù)設(shè)的詞庫(kù)進(jìn)行匹配，可能會(huì)得到下述結(jié)果：
[0108] 好看震撼強(qiáng)力推薦讓人真心大笑又哽咽感動(dòng)的影片好的喜劇劇本演員其實(shí)比悲劇更難表現(xiàn)好兩位主演的表現(xiàn)相當(dāng)亮眼細(xì)節(jié)也非常出彩到位真是讓人回味無窮推薦下載地址
[0109] 得到分割后的關(guān)鍵詞之后，發(fā)現(xiàn)部分單字不能成詞，且不具實(shí)際意義，因此，還需要進(jìn)一步過濾，將不能成詞的單字濾除。進(jìn)一步，根據(jù)得到的若干候選關(guān)鍵詞，采用 W〇rd2vec工具將其轉(zhuǎn)化為詞向量，計(jì)算任意二者之間的相似度W，例如:W(好看，震撼）=a，W (好看，強(qiáng)力）=b，W(好看，推薦）=c等等。與此同時(shí)，采用長(zhǎng)度為5的窗口覆蓋在所述候選關(guān) 鍵詞上，逐個(gè)平移，得到如下的候選關(guān)鍵詞窗口：好看震撼強(qiáng)力推薦真心震撼強(qiáng)力推薦真心大笑強(qiáng)力推薦真心大笑哽咽推薦真心大笑雙感動(dòng)的
[0110] 真心大笑0更咽感動(dòng)的影片大笑咬P因感動(dòng)的影片好的回味無窮推薦T載地址每一個(gè)窗口內(nèi)的詞語(yǔ)都是相互連接的，兩兩相互指向，參見圖4所示。
[0112]得到指向關(guān)系和相似度W之后，將其代入TextRank公式計(jì)算每個(gè)候選關(guān)鍵詞的權(quán) 重。
[0113]假設(shè)在200次迭代完成之后得到圖5的結(jié)果。從圖5中可以得到關(guān)鍵詞的投票結(jié)果，被指向最多的候選關(guān)鍵詞對(duì)應(yīng)的權(quán)重是最尚的。與此同時(shí)，針對(duì)每一個(gè)候選關(guān)鍵詞，還要結(jié) 合預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率。權(quán)重與逆文檔頻率的乘積即是每個(gè)候選關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵度。將這些候選關(guān)鍵詞按照對(duì)應(yīng)的關(guān)鍵度從大到小排列，根據(jù)需要的數(shù)量即可進(jìn)行抽取。
[0114] 以上所描述的裝置實(shí)施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下，即可以理解并實(shí)施。
[0115] 通過以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)，當(dāng)然也可以通過硬件。基于這樣的理解，上述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，如R0M/RAM、磁碟、光盤等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0116]最后應(yīng)說明的是：以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案，而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1. 一種關(guān)鍵詞提取方法，其特征在于，所述方法包括如下步驟：利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞；計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；根據(jù)所述相似度計(jì)算所述候選關(guān)鍵詞的權(quán)重，根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率；根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù) 所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度包括：利用W〇rd2vec將所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式，根據(jù)所述候選詞的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算所述候選關(guān)鍵詞的權(quán)重包括，用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口，每個(gè) 所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞，其中N為所述候選關(guān)鍵詞的總數(shù)，K為所述窗口的尺寸；用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V，E)，其中，V為所述候選關(guān)鍵詞集合，E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和，EGVxV; 根據(jù)預(yù)設(shè)的迭代次數(shù)，采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重：其中，WS(V1)表示所述詞項(xiàng)圖中候選關(guān)鍵詞￥1的所述權(quán)重，In(V1)表示所述詞項(xiàng)圖中指向候選關(guān)鍵詞V1的候選關(guān)鍵詞集合，Out(Vj)表示所述詞項(xiàng)圖中候選關(guān)鍵詞％所指向的候選關(guān)鍵詞的集合，M表示候選關(guān)鍵詞￥ 1和候選關(guān)鍵詞Vj的所述相似度，^表示候選關(guān)鍵詞Vj 和候選關(guān)鍵詞Vk的所述相似度，d為阻尼系數(shù)，WS(Vj)代表上一次迭代時(shí)，候選關(guān)鍵詞V j的所述權(quán)重。4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述單詞的逆文檔頻率括，使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率：其中，l〇g()表示取對(duì)數(shù)運(yùn)算。5. 根據(jù)權(quán)利要求1所述的方法，所述根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，包括：以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度，并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn) 行關(guān)鍵詞的選取。6. -種關(guān)鍵詞提取裝置，其特征在于，所述方法包括如下模塊：候選關(guān)鍵詞獲取模塊，用于利用分詞器對(duì)文本進(jìn)行分詞得到單詞，對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞；相似度計(jì)算模塊，用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度；逆文檔頻率計(jì)算模塊，用于根據(jù)所述相似度，計(jì)算所述候選關(guān)鍵詞的權(quán)重，根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率；關(guān)鍵詞提取模塊，用于根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率，獲取所述候選關(guān)鍵詞的關(guān)鍵度，根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。7. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述相似度計(jì)算模塊進(jìn)一步用于：利用W〇rd2vec將每個(gè)所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式，并根據(jù)每個(gè)所述候選詞對(duì)應(yīng)的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。8. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述逆文檔頻率計(jì)算模塊具體用于：用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口，每個(gè) 所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞;其中N為所述候選關(guān)鍵詞的總數(shù)，K為所述窗口的尺寸；用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V，E)，其中V為所述候選關(guān)鍵詞集合，E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和，E￡VxV; 根據(jù)預(yù)設(shè)的迭代次數(shù)，采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重：其中，WS(V1)表示所述詞項(xiàng)圖中候選關(guān)鍵詞￥1的所述權(quán)重，In(V1)表示所述詞項(xiàng)圖中指向候選關(guān)鍵詞V1的候選關(guān)鍵詞集合，Out(Vj)表示所述詞項(xiàng)圖中候選關(guān)鍵詞％所指向的候選關(guān)鍵詞的集合，M表示候選關(guān)鍵詞￥ 1和候選關(guān)鍵詞Vj的所述相似度，^表示候選關(guān)鍵詞Vj 和候選關(guān)鍵詞Vk的所述相似度，d為阻尼系數(shù)，WS(Vj)代表上一次迭代時(shí)，候選關(guān)鍵詞V j的所述權(quán)重。9. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述逆文檔頻率計(jì)算模塊具體用于，使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率：談文觸率=1〇g ( 麵語(yǔ)料庫(kù)的文檔總數(shù)) ' g 包含所述候選關(guān)鍵詞的文檔數(shù)+1 其中，l〇g()表示取對(duì)數(shù)運(yùn)算。10. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述關(guān)鍵詞提取模塊，具體用于：以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度，并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn) 行關(guān)鍵詞的選取。
【文檔編號(hào)】G06F17/27GK105893410SQ201510799348
【公開日】2016年8月24日
【申請(qǐng)日】2015年11月18日
【發(fā)明人】趙九龍
【申請(qǐng)人】樂視網(wǎng)信息技術(shù)（北京）股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙九龍;
技術(shù)所有人：樂視網(wǎng)信息技術(shù)（北京）股份有限公司;
我是此專利的發(fā)明人

上一篇：統(tǒng)計(jì)數(shù)據(jù)處理方法及裝置的制造方法
上一篇：文件下載方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

提取關(guān)鍵詞的方法相關(guān)技術(shù)

關(guān)鍵詞提取方法相關(guān)技術(shù)

快速提取關(guān)鍵詞的方法相關(guān)技術(shù)

關(guān)鍵詞提取相關(guān)技術(shù)

文章關(guān)鍵詞提取相關(guān)技術(shù)

光年關(guān)鍵詞提取工具相關(guān)技術(shù)

關(guān)鍵詞提取算法相關(guān)技術(shù)

關(guān)鍵詞提取工具相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種關(guān)鍵詞提取方法和裝置的制造方法