一種關(guān)鍵詞提取方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取方法和裝置。利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞;計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;根據(jù)所述相似度計(jì)算所述候選關(guān)鍵詞的權(quán)重,根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率;根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述候選關(guān)鍵詞的關(guān)鍵度,根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞,提高了關(guān)鍵詞抽取的準(zhǔn)確率。
【專利說明】
一種關(guān)鍵詞提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及視頻技術(shù)領(lǐng)域,尤其涉及一種關(guān)鍵詞提取方法和裝置。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的不斷發(fā)展,大量的文本信息開始以計(jì)算機(jī)可讀的形式存在,許多 領(lǐng)域信息都呈現(xiàn)出爆發(fā)式增長(zhǎng),比如豆瓣上的影評(píng)以及短評(píng)。如何在海量的信息當(dāng)中快速 并準(zhǔn)確的提取有用的信息將是一個(gè)重要的技術(shù)需求。關(guān)鍵詞提取就是一種解決上述問題的 有效手段,關(guān)鍵詞是對(duì)文章主體信息的精煉,更快的掌握重要信息,提高信息訪問的效率。
[0003] 關(guān)鍵詞提取從方法來說大致有兩種:第一種叫做關(guān)鍵詞分配,即給定一個(gè)關(guān)鍵詞 庫(kù),然后來一篇文章從詞庫(kù)里面找到幾個(gè)詞語(yǔ)作為這篇文章的關(guān)鍵詞。另外一種就是關(guān)鍵 詞抽取,就是來一篇文章,從文章中抽取一些詞語(yǔ)作為這篇文章的關(guān)鍵詞。目前大多數(shù)領(lǐng)域 無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽 關(guān)鍵詞的算法)和它對(duì)應(yīng)的庫(kù)都是基于關(guān)鍵詞抽取的,關(guān)鍵詞抽取相比于關(guān)鍵詞分配更具 有實(shí)際意義。
[0004] 關(guān)鍵詞抽取的算法,目前主要有TF-IDF算法、KEA算法和TextRank算法。在《數(shù)學(xué)之 美》中介紹的TF-IDF關(guān)鍵詞提取算法需要預(yù)先保存每個(gè)詞的IDF(逆文檔頻率)值作為外部 知識(shí)庫(kù),復(fù)雜的算法則需要保存更多的信息。對(duì)于不使用外部知識(shí)庫(kù)的算法,主要是可以實(shí) 現(xiàn)語(yǔ)言無關(guān)以及避免詞表中不存在詞語(yǔ)所造成的問題。TF-IDF算法思路是找到文本中常見 但是在別的文本中不常出現(xiàn)詞語(yǔ),這個(gè)正好符合關(guān)鍵詞的特點(diǎn)。
[0005] 初代KEA算法除了使用TF-IDF外還用到了詞語(yǔ)在文章中首次出現(xiàn)的位置,這個(gè)根 據(jù)就是大多數(shù)的文章(特別是新聞文本)是總分總的結(jié)構(gòu),很明顯一個(gè)詞語(yǔ)出現(xiàn)在文章首部 和尾部成為關(guān)鍵詞的可能性大于只出現(xiàn)在文章中部的詞語(yǔ)。對(duì)各個(gè)詞根據(jù)在文章首次出現(xiàn) 的位置賦予不同的權(quán)值,結(jié)合TF-IDF以及連續(xù)數(shù)據(jù)離散化方法,這個(gè)就是初代KEA算法的核 心思想。
[0006] 不依賴外部知識(shí)庫(kù)的關(guān)鍵詞算法主要根據(jù)文本本身的特征去提取。比如說關(guān)鍵詞 特征之一就是在文本中反復(fù)出現(xiàn)且關(guān)鍵詞附近出現(xiàn)關(guān)鍵詞的概率非常大,因此就有了 TextRank算法。它利用類似于PageRank算法,將文本中每個(gè)詞看成一個(gè)頁(yè)面,認(rèn)為文本中某 一個(gè)詞語(yǔ)與之周圍N個(gè)詞存在一個(gè)link,然后在這個(gè)網(wǎng)絡(luò)中使用PageRank算出每個(gè)詞語(yǔ)的 權(quán)值,把權(quán)值最高的幾個(gè)詞作為關(guān)鍵詞即可。TextRank典型的實(shí)現(xiàn)包括FudanNLP和SnowNLP 等。
[0007] 以上算法都未考慮詞語(yǔ)的相似性,TF*IDF是基于詞頻(TF)和逆文檔頻率(IDF)的 乘積來衡量詞的重要性。優(yōu)點(diǎn)是簡(jiǎn)單快捷;缺點(diǎn)也很明顯,單純計(jì)算"詞頻"不夠全面,而且 無法體現(xiàn)詞的位置信息。TextRank中計(jì)算的是位置關(guān)系,至于該位置是哪個(gè)詞不做考慮,詞 語(yǔ)的相似性對(duì)結(jié)果有影響。因此一種高效準(zhǔn)確的關(guān)鍵詞提取算法亟待提出。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取算法及裝置,用以解決現(xiàn)有技術(shù)僅考慮詞頻和 詞的位置關(guān)系的缺陷,提高了關(guān)鍵詞提取的準(zhǔn)確性。
[0009] 本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取方法,包括:
[0010] 利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞;
[0011] 計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;
[0012] 根據(jù)所述相似度,計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重,根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述 候選關(guān)鍵詞的逆文檔頻率;
[0013] 根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述候選關(guān)鍵詞的關(guān)鍵度, 根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。本發(fā)明實(shí)施例提供一種關(guān)鍵詞提取裝置,包括:
[0014] 候選關(guān)鍵詞獲取模塊,用于利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn) 行過濾得到候選關(guān)鍵詞;
[0015] 相似度計(jì)算模塊,用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;
[0016] 逆文檔頻率計(jì)算模塊,用于根據(jù)所述相似度,計(jì)算所述候選關(guān)鍵詞的權(quán)重,根據(jù)預(yù) 設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率;
[0017] 關(guān)鍵詞提取模塊,用于根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述 候選關(guān)鍵詞的關(guān)鍵度,根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。
[0018] 本發(fā)明實(shí)施例提供的一種關(guān)鍵詞提取方法及裝置,通過對(duì)文本進(jìn)行分詞、計(jì)算單 詞之間的相似度以及逆文檔頻率,提高了關(guān)鍵詞抽取的準(zhǔn)確率。
【附圖說明】
[0019] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0020] 圖1為本發(fā)明實(shí)施例一的技術(shù)流程圖;
[0021] 圖2為本發(fā)明實(shí)施例二的技術(shù)流程圖;
[0022]圖3為本發(fā)明實(shí)施例三的裝置結(jié)構(gòu)示意圖;
[0023]圖4為本發(fā)明應(yīng)用實(shí)例的詞項(xiàng)圖示例;
[0024]圖5為本發(fā)明應(yīng)用實(shí)例的TextRank迭代后的詞項(xiàng)圖示例。
【具體實(shí)施方式】
[0025]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 實(shí)施例一
[0027] 圖1是本發(fā)明實(shí)施例一的技術(shù)流程圖,結(jié)合圖1,本發(fā)明實(shí)施例一種關(guān)鍵詞提取方 法主要包括如下的步驟:
[0028] 步驟110:利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn)行過濾得到候選關(guān) 鍵詞;
[0029] 本發(fā)明實(shí)施例中,利用現(xiàn)有的分詞器將收集到的文本分割為單獨(dú)的詞語(yǔ)并且能獲 得每個(gè)單詞的詞性,其中分詞器可以包括基于詞典匹配算法的分詞器、基于詞庫(kù)匹配的分 詞器、基于詞頻度統(tǒng)計(jì)的分詞器和基于知識(shí)理解的分詞器等,本發(fā)明實(shí)施例并不做限制。
[0030] 利用分詞器得到單詞后需對(duì)單詞進(jìn)行進(jìn)一步地處理,如根據(jù)所述詞性和預(yù)設(shè)的黑 名單對(duì)所述單詞進(jìn)行停用詞與非必要詞的過濾等。所述停用詞是一些沒有實(shí)際含義的詞, 包括語(yǔ)氣助詞、副詞、介詞、連接詞等,通常自身并無明確的意義,只有將其放入一個(gè)完整的 句子中才有一定作用,如中文文本中常見的"的、在"之類,英文文本中的"the、is、at、 which、on"。針對(duì)一些非必要詞,可以根據(jù)預(yù)設(shè)的黑名單,結(jié)合正則表達(dá)式將這些詞濾除,得 到文本中的候選關(guān)鍵詞。
[0031] 步驟120:計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;
[0032]本發(fā)明實(shí)施例中,采用word2vec來計(jì)算詞向量。word2vec是一個(gè)將單詞轉(zhuǎn)換成向 量形式的工具??梢园褜?duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間 上的相似度,來表示文本語(yǔ)義上的相似度。
[0033] word2vec為計(jì)算向量詞提供了一種有效的連續(xù)詞袋(bag-of-words)和skip-gram 架構(gòu)實(shí)現(xiàn),Word2vec可以計(jì)算詞和詞之間的距離,知道了距離,可以對(duì)詞進(jìn)行聚類,而且 word2vec本身也提供了聚類功能。Word2vec使用到了deep learning技術(shù),不僅有著非常高 的準(zhǔn)確度,同時(shí)效率非常高,適合處理海量數(shù)據(jù)。
[0034]步驟130:根據(jù)所述相似度,計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重,并根據(jù)預(yù)設(shè)的語(yǔ)料 庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率;
[0035]本發(fā)明實(shí)施例中,利用TextRank公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重,在迭 代計(jì)算之前預(yù)先構(gòu)建詞項(xiàng)圖G(V,E),其中V為所述候選關(guān)鍵詞集合,E為任意兩個(gè)候選關(guān)鍵 詞相連接構(gòu)成的邊的集和,E£VxV。
[0036]根據(jù)預(yù)設(shè)的迭代次數(shù),采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重:
[0038] 其中,WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重,In(Vi)表示所述詞項(xiàng)圖 中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合,Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞%所指向的 候選關(guān)鍵詞的集合,表示候選關(guān)鍵詞¥:和候選關(guān)鍵詞%的所述相似度,表示候選關(guān)鍵 詞%和候選關(guān)鍵詞V k的所述相似度,d為阻尼系數(shù),WS(VJ代表上一次迭代時(shí),候選關(guān)鍵詞% 的所述權(quán)重。
[0039]通常來說,如果一個(gè)詞在越多的文本中出現(xiàn)過,那個(gè)這個(gè)詞對(duì)某一個(gè)文本的貢獻(xiàn) 度應(yīng)該就越小,也就是通過這個(gè)詞來區(qū)分文本的區(qū)分度越小,因此,本發(fā)明實(shí)施例中,進(jìn)一 步使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率:
[0041] 如果一個(gè)詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要 加1,是為了避免分母為〇(即所有文本都不包含該詞)dog表示對(duì)得到的值取對(duì)數(shù),可以降 低最后得到的數(shù)值大小。
[0042] 步驟140:根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述候選關(guān)鍵詞的 關(guān)鍵度,根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。
[0043] 具體地,本發(fā)明實(shí)施例以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆 文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度,并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序 以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0044] 本發(fā)明實(shí)施例中,每個(gè)候選關(guān)鍵詞最終都會(huì)得到一個(gè)相應(yīng)的關(guān)鍵度,將所述候選 關(guān)鍵詞按照其對(duì)應(yīng)的關(guān)鍵度進(jìn)行由大到小的排序,若是需要提取N個(gè)關(guān)鍵詞,則只需從關(guān)鍵 度最高的候選關(guān)鍵詞開始,按序選取N個(gè)即可。
[0045] 本發(fā)明實(shí)施例中,關(guān)鍵度=權(quán)重*逆文檔頻率,其中,所述權(quán)重的計(jì)算過程中結(jié)合 了單詞之間的相似性,同時(shí)考慮了單詞的位置關(guān)系,所述逆文檔頻率又兼顧單詞對(duì)文本的 貢獻(xiàn)大小,這樣綜合的關(guān)鍵詞提取方法顯著提高了關(guān)鍵詞的抽取效果。
[0046] 實(shí)施例二
[0047] 圖2是本發(fā)明實(shí)施例二的技術(shù)流程圖,結(jié)合圖2,本發(fā)明實(shí)施例一種關(guān)鍵詞的提取 方法進(jìn)一步可以細(xì)化為以下的步驟:
[0048] 步驟210:利用分詞器對(duì)文本進(jìn)行分詞得到每個(gè)單詞及其詞性;
[0049] 本發(fā)明實(shí)施例中,用現(xiàn)有的分詞方法,將文本分割為詞匯的方法可以是下述任一 一種,或者任意幾種的組合。
[0050] 基于詞典匹配算法的分詞器應(yīng)用詞典匹配、漢語(yǔ)詞法或其它漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行分 詞,如:最大匹配法、最小分詞方法等?;谠~庫(kù)匹配的分詞器則基于字和詞的統(tǒng)計(jì)信息,如 把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞,由于這些信息是通過調(diào)查真實(shí) 語(yǔ)料而取得的,因而基于統(tǒng)計(jì)的分詞方法具有較好的實(shí)用性。
[0051] 基于字典、詞庫(kù)匹配的分詞方法按照一定策略將待分析的漢字串與一個(gè)充分大的 機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。識(shí)別出一個(gè)詞,根 據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長(zhǎng)度優(yōu)先匹配的情況,分為最大(最 長(zhǎng))匹配和最小(最短)匹配。根據(jù)與詞性標(biāo)注過程是否相結(jié)合,又可以分為單純分詞方法和 分詞與標(biāo)注相結(jié)合的一體化方法。
[0052] 其中,最大正向匹配法(MaxiumMatchingMethod)通常簡(jiǎn)稱為MM法。其基本思想為: 假定分詞詞典中的最長(zhǎng)詞有i個(gè)漢字字符,則用被處理文本的當(dāng)前字串中的前i個(gè)字作為匹 配字段,查找字典。若字典中存在這樣的一個(gè)i字詞,則匹配成功,匹配字段被作為一個(gè)詞切 分出來。如果詞典中找不到這樣的一個(gè)i字詞,則匹配失敗,將匹配字段中的最后一個(gè)字去 掉,對(duì)剩下的字串重新進(jìn)行匹配處理……如此進(jìn)行下去,直到匹配成功,即切分出一個(gè)詞或 剩余字串的長(zhǎng)度為零為止。這樣就完成了一輪匹配,然后取下一個(gè)i字字串進(jìn)行匹配處理, 直到文本被掃描完為止。
[0053]最大逆向匹配法(1^¥6^6]\^1;[111]1]\^1:(311;[1^]\^1:110(1)通常簡(jiǎn)稱為冊(cè)]\1法。冊(cè)]\1法的基 本原理與MM法相同,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆 向最大匹配法從被處理文本的末端開始匹配掃描,每次取最末端的2i個(gè)字符(i字字串)作 為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個(gè)字,繼續(xù)匹配。相應(yīng)地,它使用的分 詞詞典是逆序詞典,其中的每個(gè)詞條都將按逆序方式存放。在實(shí)際處理時(shí),先將文本進(jìn)行倒 排處理,生成逆序文本。然后,根據(jù)逆序詞典,對(duì)逆序文本用正向最大匹配法處理即可。
[0054] 最大匹配算法是一種基于分詞詞典的機(jī)械分詞法,不能根據(jù)文本上下文的語(yǔ)義特 征來切分詞語(yǔ),對(duì)詞典的依賴性較大,所以在實(shí)際使用時(shí),難免會(huì)造成一些分詞錯(cuò)誤,為了 提高系統(tǒng)分詞的準(zhǔn)確度,可以采用正向最大匹配法和逆向最大匹配法相結(jié)合的分詞方案, 即雙向匹配法。
[0055] 雙向匹配法,將正向最大匹配法與逆向最大匹配法組合。先根據(jù)標(biāo)點(diǎn)對(duì)文本進(jìn)行 粗切分,把文本分解成若干個(gè)句子,然后再對(duì)這些句子用正向最大匹配法和逆向最大匹配 法進(jìn)行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同,則認(rèn)為分詞正確,否則,按最小 集處理。
[0056] 基于詞的頻度統(tǒng)計(jì)的分詞方法是一種全切分方法。它不依靠詞典,而是將文章中 任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),次數(shù)越高的就可能是一個(gè)詞。它首先切分出與詞表 匹配的所有可能的詞,運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點(diǎn)在于 可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來。
[0057]基于知識(shí)理解的分詞方法主要基于句法、語(yǔ)法分析,并結(jié)合語(yǔ)義分析,通過對(duì)上下 文內(nèi)容所提供信息的分析對(duì)詞進(jìn)行定界,它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系 統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信 息來對(duì)分詞歧義進(jìn)行判斷。這類方法試圖讓機(jī)器具有人類的理解能力,需要使用大量的語(yǔ) 言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接 讀取的形式。
[0058]優(yōu)選地,本發(fā)明實(shí)施例在利用分詞器對(duì)文本進(jìn)行分詞之前預(yù)先使用正則表達(dá)式對(duì) 文本進(jìn)行去重去噪處理,例如文本中的表情符號(hào)〇( n _ n )〇,或類似"。。。。。。。"的極度重復(fù) 標(biāo)點(diǎn)或者類似"哈哈哈哈哈"一類的極度重復(fù)詞。對(duì)于一些特定的網(wǎng)頁(yè)評(píng)論數(shù)據(jù),可以進(jìn)一 步統(tǒng)計(jì)自動(dòng)評(píng)論模板,例如根據(jù)自動(dòng)評(píng)論模板去除評(píng)論數(shù)據(jù)中包含的自動(dòng)評(píng)論、一些網(wǎng)址 鏈接等等。
[0059] 步驟220:根據(jù)所述詞性和預(yù)設(shè)的黑名單對(duì)所述單詞進(jìn)行停用詞過濾得到候選關(guān) 鍵詞;
[0060] 文本中通常含有大量的語(yǔ)氣詞、助詞等一些并不存在實(shí)際意義的詞,這些詞被稱 為停用詞,這類停用詞的出現(xiàn)頻率通常很高,若是不濾除則會(huì)影響到關(guān)鍵詞提取的準(zhǔn)確率。 本發(fā)明實(shí)施例中,首先根據(jù)詞性對(duì)所述候選關(guān)鍵詞進(jìn)行濾除,通常而言,各類助詞和介詞是 需要被濾除的。除此之外,預(yù)先建立黑名單,所述黑名單不僅包括了停用詞,還包括一些非 法詞匯,廣告詞匯等等。根據(jù)預(yù)先建立的黑名單可以再次使用正則表達(dá)式對(duì)所述候選關(guān)鍵 詞進(jìn)行清理,減輕后續(xù)計(jì)算壓力。
[0061] 步驟230:計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;
[0062]本發(fā)明實(shí)施例中,利用word2vec將每個(gè)所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式, 并根據(jù)每個(gè)所述候選詞對(duì)應(yīng)的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān) 鍵詞之間的相似度。
[0063]自然語(yǔ)言理解的問題要轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題,第一步肯定是要找一種方法把這 些符號(hào)數(shù)學(xué)化。w〇rd2veC是Google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效 工具,采用的模型有CB0W(Continuous Bag-〇f-Words,即連續(xù)的詞袋模型)和Skip-Gram兩 種。word2vec遵循Apache License 2.0開源協(xié)議,通過訓(xùn)練,可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化 為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語(yǔ)義上的相似度。 因此,W〇rd2 vec輸出的詞向量可以被用來做很多NLP相關(guān)的工作,比如聚類、找同義詞、詞性 分析等等。
[0064] 對(duì)本文中的單詞進(jìn)行相似性計(jì)算,有助于對(duì)文本進(jìn)行分類,了解文檔主題,從而提 高關(guān)鍵詞的提取準(zhǔn)確度
[0065] 本發(fā)明實(shí)施例中,主要采用word2vec工具將所述候選關(guān)鍵詞轉(zhuǎn)化為K維向量空間 中的向量運(yùn)算,再通過每個(gè)所述候選關(guān)鍵詞對(duì)應(yīng)的空間詞向量的相似性來計(jì)算其對(duì)應(yīng)的相 似度。
[0066] 步驟240:根據(jù)所述候選關(guān)鍵詞構(gòu)建詞項(xiàng)圖;
[0067] 用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口, 每個(gè)所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞;其中N為所述候選關(guān)鍵詞的總數(shù),K為所述窗 口的尺寸;
[0068] 例如,候選關(guān)鍵詞為vl,v2,v3,v4,v5,. . .,vn,窗口長(zhǎng)度為K,將窗口覆蓋在所述候 選關(guān)鍵詞上,逐個(gè)平移,將得到如下的候選關(guān)鍵詞窗口: vl,v2, . . .,vk、v2,v3, . . .,vk+l、 v3,v4, . . .,vk+2,...等等?;谙噜彽奈恢藐P(guān)系,每個(gè)窗口內(nèi)的候選關(guān)鍵詞是相互關(guān)聯(lián)的, 窗口之間默認(rèn)獨(dú)立。
[0069] 得到候選關(guān)鍵詞窗口后,用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候 選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V,E),其中V為所述候選關(guān)鍵詞集合,E為任意兩個(gè)候選 關(guān)鍵詞相連接構(gòu)成的邊的集和,EGVXV。在所述詞項(xiàng)圖中,每一個(gè)所述候選關(guān)鍵詞都可 以看作是一個(gè)節(jié)點(diǎn),詞項(xiàng)圖就是由若干個(gè)節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線構(gòu)成,這些連線最初是無 權(quán)無向的邊。
[0070] 需要說明的是,步驟230和步驟240之間并無先后順序,本發(fā)明實(shí)施例中也可以先 構(gòu)建所述詞項(xiàng)圖再計(jì)算所述候選關(guān)鍵詞之間的相似度。
[0071 ] 步驟250:利用TextRank公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重;
[0072]計(jì)算每個(gè)所述候選關(guān)鍵詞的權(quán)重時(shí),需進(jìn)一步結(jié)合詞項(xiàng)圖之間每個(gè)所述候選關(guān)鍵 詞的連接關(guān)系以及每個(gè)所述候選關(guān)鍵詞之間的相似度,采用如下公式迭代計(jì)算:
[0074] 其中,WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重,In(Vi)表示所述詞項(xiàng)圖 中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合,Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞%所指向的 候選關(guān)鍵詞的集合,表示候選關(guān)鍵詞¥:和候選關(guān)鍵詞%的所述相似度,表示候選關(guān)鍵 詞%和候選關(guān)鍵詞V k的所述相似度,d為阻尼系數(shù),WS(VJ代表上一次迭代時(shí),候選關(guān)鍵詞% 的所述權(quán)重。
[0075] 本發(fā)明實(shí)施例中,迭代次數(shù)是一個(gè)預(yù)設(shè)的經(jīng)驗(yàn)值,迭代的次數(shù)受候選關(guān)鍵詞權(quán)重 初值的影響,通常,需要給所述詞項(xiàng)圖中的任意一個(gè)指定的候選關(guān)鍵詞賦初值,本發(fā)明實(shí)施 例中,將每個(gè)所述候選關(guān)鍵詞的權(quán)重初值設(shè)為1。
[0076] 為了避免權(quán)重計(jì)算過程中出現(xiàn)無限循環(huán)迭代的狀況,本發(fā)明實(shí)施例中為迭代過程 設(shè)定了迭代次數(shù)的上限,根據(jù)經(jīng)驗(yàn)值,將迭代次數(shù)設(shè)置為200,即當(dāng)?shù)螖?shù)達(dá)到200時(shí),停 止迭=代過程,將得到的結(jié)果作為對(duì)應(yīng)的候選關(guān)鍵詞的權(quán)重得分。
[0077]優(yōu)選的,本發(fā)明實(shí)施例還可以通過判斷迭代結(jié)果是否收斂來決定迭代次數(shù)。當(dāng)?shù)?代結(jié)果收斂時(shí),即可停止迭代,所述指定的候選關(guān)鍵詞會(huì)得到一個(gè)權(quán)重值。此處所述收斂通 過判斷指定的候選關(guān)鍵詞計(jì)算出的權(quán)重值的誤差率是否小于預(yù)設(shè)的極限值從而能夠達(dá)到 收斂點(diǎn)。候選關(guān)鍵詞Vi的誤差率為其實(shí)際權(quán)重和第K次迭代時(shí)得到的權(quán)重之間的差值,但由 于候選關(guān)鍵詞的實(shí)際權(quán)重是未知的,所以誤差率近似認(rèn)為是候選關(guān)鍵詞在兩次迭代結(jié)果之 間的差值,一般所述極限值取〇. 0001。
[0078]通過反復(fù)的迭代計(jì)算之后,所述詞項(xiàng)圖會(huì)發(fā)生變化
[0079]步驟260:并根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率;
[0081] 需要說明的是,步驟250和步驟260之間并無先后順序,本發(fā)明實(shí)施例中,也可以先 計(jì)算逆文檔頻率,再迭代計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)重,本發(fā)明并不做限制。
[0082] 步驟270:以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的 乘積作為所述候選關(guān)鍵詞的關(guān)鍵度,并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的 關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0083] Vi 的關(guān)鍵度= IDF*WS(Vi)
[0084] 本實(shí)施例中,提取關(guān)鍵詞的算法中,通過進(jìn)一步地對(duì)文本進(jìn)行非必要因素的過濾, 減輕了數(shù)據(jù)冗余,提高了關(guān)鍵詞提取過程中的計(jì)算效率,同時(shí)使用word2 VeC工具進(jìn)行近義 詞的判斷,結(jié)合詞的位置關(guān)系和詞頻,提取的關(guān)鍵詞質(zhì)量和準(zhǔn)確率更高。
[0085] 實(shí)施例三
[0086] 圖3是本發(fā)明實(shí)施例三的技術(shù)流程圖,結(jié)合圖3,本發(fā)明一種關(guān)鍵詞提取裝置主要 包括候選關(guān)鍵詞獲取模塊310、相似度計(jì)算模塊320、逆文檔頻率計(jì)算模塊330、關(guān)鍵詞提取 模塊340。
[0087] 所述候選關(guān)鍵詞獲取模塊310,用于利用分詞器對(duì)文本進(jìn)行分詞得到每個(gè)單詞及 其詞性,并根據(jù)所述詞性和預(yù)設(shè)的黑名單對(duì)所述單詞進(jìn)行停用詞過濾得到候選關(guān)鍵詞;
[0088] 所述相似度計(jì)算模塊320,用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度;
[0089]所述逆文檔頻率計(jì)算模塊330,用于根據(jù)所述相似度,利用TextRank公式迭代計(jì)算 每個(gè)所述候選關(guān)鍵詞的權(quán)重,并根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻 率;
[0090] 所述關(guān)鍵詞提取模塊340,用于以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞 的所述逆文檔頻率的乘積作為所述候選關(guān)鍵詞的關(guān)鍵度,并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān) 鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn)行關(guān)鍵詞的選取。
[0091] 進(jìn)一步地,所述相似度計(jì)算模塊320進(jìn)一步用于:利用word2vec將每個(gè)所述候選關(guān) 鍵詞轉(zhuǎn)化為單詞向量的形式,并根據(jù)每個(gè)所述候選詞對(duì)應(yīng)的所述單詞向量在空間上的相似 性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。
[0092]所述裝置進(jìn)一步包括構(gòu)圖模塊350,所述構(gòu)圖模塊350用于根據(jù)所述相似度,利用 TextRank公式迭代計(jì)算每個(gè)所述單詞的權(quán)重之前,用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè) 平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口,每個(gè)所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞;其 中N為所述候選關(guān)鍵詞的總數(shù),K為所述窗口的尺寸;用一條無向的邊連接每個(gè)所述窗口中 的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞項(xiàng)圖G(V,E),其中V為所述候選關(guān)鍵詞集合, E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集和,ESVxV。
[0093]所述逆文檔頻率計(jì)算模塊330進(jìn)一步用于:根據(jù)預(yù)設(shè)的迭代次數(shù),采用如下公式迭 代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重:
[0095] 其中,WS(Vi)表示所述詞項(xiàng)圖中候選關(guān)鍵詞Vi的所述權(quán)重,In(Vi)表示所述詞項(xiàng)圖 中指向候選關(guān)鍵詞I的候選關(guān)鍵詞集合,Out(L)表示所述詞項(xiàng)圖中候選關(guān)鍵詞%所指向的 候選關(guān)鍵詞的集合,表示候選關(guān)鍵詞¥:和候選關(guān)鍵詞%的所述相似度,表示候選關(guān)鍵 詞%和候選關(guān)鍵詞V k的所述相似度,d為阻尼系數(shù),WS(VJ代表上一次迭代時(shí),候選關(guān)鍵詞% 的所述權(quán)重。
[0096] 所述逆文檔頻率計(jì)算模塊進(jìn)一步還用于,
[0097] 使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率:
[0099]其中,log〇表示取對(duì)數(shù)運(yùn)算。
[0100] 應(yīng)用實(shí)例
[0101] 假設(shè)網(wǎng)絡(luò)爬蟲爬取到一篇豆瓣影評(píng)文本等待關(guān)鍵詞提取處理,文本內(nèi)容如下:哈 哈哈哈哈哈哈!太好看了乙~!太震撼了!強(qiáng)力推薦!這是能讓人真心大笑又哽咽感動(dòng)的影 片---好的喜劇劇本、演員,其實(shí)比悲劇更難表現(xiàn)好,兩位主演的表現(xiàn)相當(dāng)亮眼,細(xì)節(jié)也 非常出彩到位。真是讓人回味無窮。。。。。。推薦下載地址http://movie.xxx. com。
[0102] 對(duì)于這樣一篇影評(píng),要提取其關(guān)鍵詞作為標(biāo)簽,首先在詞語(yǔ)分隔之前進(jìn)行使用正 則表達(dá)式對(duì)文本進(jìn)行去重去噪處理,去除類似"哈哈哈哈哈哈哈"~ _ "---"、"。。。。。。"、"。。。。。。"、"http://movie .xxx. com"這樣的非必要內(nèi)容,使得文本 更加清潔。
[0103] 于是得到下述結(jié)果:
[0104] !太好看了!太震撼了!強(qiáng)力推薦!這是能讓人真心大笑又哽咽感動(dòng)的影片好的喜 劇劇本、演員,其實(shí)比悲劇更難表現(xiàn)好,兩位主演的表現(xiàn)相當(dāng)亮眼,細(xì)節(jié)也非常出彩到位。真 是讓人回味無窮推薦下載地址。
[0105] 這段文本中,除了必要的句子之外,還有很多標(biāo)點(diǎn)符號(hào)以及停用詞,此時(shí),可以再 次采用正則表達(dá)式過濾掉標(biāo)點(diǎn)符號(hào)以及"太、了、這、是、能"等這一類詞,得到下述結(jié)果:
[0106] 好看震撼強(qiáng)力推薦讓人真心大笑又哽咽感動(dòng)的影片好的喜劇劇本演員其實(shí)比悲 劇更難表現(xiàn)好兩位主演的表現(xiàn)相當(dāng)亮眼細(xì)節(jié)也非常出彩到位真是讓人回味無窮推薦下載 地址
[0107] 接下來,采用分詞器進(jìn)行句子分割,此處采用基于字典、詞庫(kù)匹配的分詞方法,正 向掃描出每一個(gè)詞,并將之與預(yù)設(shè)的詞庫(kù)進(jìn)行匹配,可能會(huì)得到下述結(jié)果:
[0108] 好看震撼強(qiáng)力推薦讓人真心大笑又哽咽感動(dòng)的影片好的喜劇劇本演員其實(shí)比悲 劇更難表現(xiàn)好兩位主演的表現(xiàn)相當(dāng)亮眼細(xì)節(jié)也非常出彩到位真是讓人回味無窮推薦下載 地址
[0109] 得到分割后的關(guān)鍵詞之后,發(fā)現(xiàn)部分單字不能成詞,且不具實(shí)際意義,因此,還需 要進(jìn)一步過濾,將不能成詞的單字濾除。進(jìn)一步,根據(jù)得到的若干候選關(guān)鍵詞,采用 W〇rd2vec工具將其轉(zhuǎn)化為詞向量,計(jì)算任意二者之間的相似度W,例如:W(好看,震撼)=a,W (好看,強(qiáng)力)=b,W(好看,推薦)=c等等。與此同時(shí),采用長(zhǎng)度為5的窗口覆蓋在所述候選關(guān) 鍵詞上,逐個(gè)平移,得到如下的候選關(guān)鍵詞窗口: 好看震撼強(qiáng)力推薦真心 震撼強(qiáng)力推薦真心大笑 強(qiáng)力推薦真心大笑哽咽 推薦真心大笑雙感動(dòng)的
[0110] 真心大笑0更咽感動(dòng)的影片 大笑咬P因感動(dòng)的影片好的 回味無窮推薦T載地址 每一個(gè)窗口內(nèi)的詞語(yǔ)都是相互連接的,兩兩相互指向,參見圖4所示。
[0112]得到指向關(guān)系和相似度W之后,將其代入TextRank公式計(jì)算每個(gè)候選關(guān)鍵詞的權(quán) 重。
[0113]假設(shè)在200次迭代完成之后得到圖5的結(jié)果。從圖5中可以得到關(guān)鍵詞的投票結(jié)果, 被指向最多的候選關(guān)鍵詞對(duì)應(yīng)的權(quán)重是最尚的。與此同時(shí),針對(duì)每一個(gè)候選關(guān)鍵詞,還要結(jié) 合預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述候選關(guān)鍵詞的逆文檔頻率。權(quán)重與逆文檔頻率的乘積即是每 個(gè)候選關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵度。將這些候選關(guān)鍵詞按照對(duì)應(yīng)的關(guān)鍵度從大到小排列,根據(jù)需 要的數(shù)量即可進(jìn)行抽取。
[0114] 以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其 中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0115] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可 借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件。基于這樣的理解,上 述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施 例或者實(shí)施例的某些部分所述的方法。
[0116]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管 參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可 以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換; 而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和 范圍。
【主權(quán)項(xiàng)】
1. 一種關(guān)鍵詞提取方法,其特征在于,所述方法包括如下步驟: 利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn)行過濾得到候選關(guān)鍵詞; 計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度; 根據(jù)所述相似度計(jì)算所述候選關(guān)鍵詞的權(quán)重,根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞 的逆文檔頻率; 根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述候選關(guān)鍵詞的關(guān)鍵度,根據(jù) 所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的 相似度包括: 利用W〇rd2vec將所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式,根據(jù)所述候選詞的所述單詞 向量在空間上的相似性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述候選關(guān)鍵詞的權(quán)重包括, 用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口,每個(gè) 所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞,其中N為所述候選關(guān)鍵詞的總數(shù),K為所述窗口的 尺寸; 用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞 項(xiàng)圖G(V,E),其中,V為所述候選關(guān)鍵詞集合,E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集 和,EGVxV; 根據(jù)預(yù)設(shè)的迭代次數(shù),采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重:其中,WS(V1)表示所述詞項(xiàng)圖中候選關(guān)鍵詞¥1的所述權(quán)重,In(V1)表示所述詞項(xiàng)圖中指 向候選關(guān)鍵詞V1的候選關(guān)鍵詞集合,Out(Vj)表示所述詞項(xiàng)圖中候選關(guān)鍵詞%所指向的候選 關(guān)鍵詞的集合,M表示候選關(guān)鍵詞¥ 1和候選關(guān)鍵詞Vj的所述相似度,^表示候選關(guān)鍵詞Vj 和候選關(guān)鍵詞Vk的所述相似度,d為阻尼系數(shù),WS(Vj)代表上一次迭代時(shí),候選關(guān)鍵詞V j的所 述權(quán)重。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)預(yù)設(shè)的語(yǔ)料庫(kù)計(jì)算每個(gè)所述單詞的逆 文檔頻率括, 使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率:其中,l〇g()表示取對(duì)數(shù)運(yùn)算。5. 根據(jù)權(quán)利要求1所述的方法,所述根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲 取所述候選關(guān)鍵詞的關(guān)鍵度,包括: 以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述 候選關(guān)鍵詞的關(guān)鍵度,并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn) 行關(guān)鍵詞的選取。6. -種關(guān)鍵詞提取裝置,其特征在于,所述方法包括如下模塊: 候選關(guān)鍵詞獲取模塊,用于利用分詞器對(duì)文本進(jìn)行分詞得到單詞,對(duì)所述單詞進(jìn)行過 濾得到候選關(guān)鍵詞; 相似度計(jì)算模塊,用于計(jì)算任意兩個(gè)所述候選關(guān)鍵詞之間的相似度; 逆文檔頻率計(jì)算模塊,用于根據(jù)所述相似度,計(jì)算所述候選關(guān)鍵詞的權(quán)重,根據(jù)預(yù)設(shè)的 語(yǔ)料庫(kù)計(jì)算所述候選關(guān)鍵詞的逆文檔頻率; 關(guān)鍵詞提取模塊,用于根據(jù)所述候選關(guān)鍵詞的權(quán)重和所述逆文檔頻率,獲取所述候選 關(guān)鍵詞的關(guān)鍵度,根據(jù)所述候選關(guān)鍵詞的關(guān)鍵度選取關(guān)鍵詞。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述相似度計(jì)算模塊進(jìn)一步用于: 利用W〇rd2vec將每個(gè)所述候選關(guān)鍵詞轉(zhuǎn)化為單詞向量的形式,并根據(jù)每個(gè)所述候選詞 對(duì)應(yīng)的所述單詞向量在空間上的相似性得到任意兩個(gè)所述候選關(guān)鍵詞之間的相似度。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述逆文檔頻率計(jì)算模塊具體用于: 用預(yù)設(shè)的窗口在所述候選關(guān)鍵詞上逐個(gè)平移選取得到N-K+1個(gè)候選關(guān)鍵詞窗口,每個(gè) 所述窗口包含K個(gè)相鄰的所述候選關(guān)鍵詞;其中N為所述候選關(guān)鍵詞的總數(shù),K為所述窗口的 尺寸; 用一條無向的邊連接每個(gè)所述窗口中的任意兩個(gè)所述候選關(guān)鍵詞得到一定數(shù)量的詞 項(xiàng)圖G(V,E),其中V為所述候選關(guān)鍵詞集合,E為任意兩個(gè)候選關(guān)鍵詞相連接構(gòu)成的邊的集 和,E£VxV; 根據(jù)預(yù)設(shè)的迭代次數(shù),采用如下公式迭代計(jì)算每個(gè)所述候選關(guān)鍵詞的所述權(quán)重:其中,WS(V1)表示所述詞項(xiàng)圖中候選關(guān)鍵詞¥1的所述權(quán)重,In(V1)表示所述詞項(xiàng)圖中指 向候選關(guān)鍵詞V1的候選關(guān)鍵詞集合,Out(Vj)表示所述詞項(xiàng)圖中候選關(guān)鍵詞%所指向的候選 關(guān)鍵詞的集合,M表示候選關(guān)鍵詞¥ 1和候選關(guān)鍵詞Vj的所述相似度,^表示候選關(guān)鍵詞Vj 和候選關(guān)鍵詞Vk的所述相似度,d為阻尼系數(shù),WS(Vj)代表上一次迭代時(shí),候選關(guān)鍵詞V j的所 述權(quán)重。9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述逆文檔頻率計(jì)算模塊具體用于, 使用如下公式計(jì)算每個(gè)所述候選關(guān)鍵詞的所述逆文檔頻率: 談文觸率=1〇g ( 麵語(yǔ)料庫(kù)的文檔總數(shù)) ' g 包含所述候選關(guān)鍵詞的文檔數(shù)+1 其中,l〇g()表示取對(duì)數(shù)運(yùn)算。10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述關(guān)鍵詞提取模塊,具體用于: 以所述候選關(guān)鍵詞的所述權(quán)重和所述候選關(guān)鍵詞的所述逆文檔頻率的乘積作為所述 候選關(guān)鍵詞的關(guān)鍵度,并根據(jù)每個(gè)所述候選關(guān)鍵詞的關(guān)鍵度排序以及預(yù)設(shè)的關(guān)鍵詞數(shù)量進(jìn) 行關(guān)鍵詞的選取。
【文檔編號(hào)】G06F17/27GK105893410SQ201510799348
【公開日】2016年8月24日
【申請(qǐng)日】2015年11月18日
【發(fā)明人】趙九龍
【申請(qǐng)人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司