一種基于lda和vsm的中草藥相似文獻(xiàn)的推薦方法

文檔序號(hào)：6537535閱讀：343來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于lda和vsm的中草藥相似文獻(xiàn)的推薦方法
【專利摘要】本發(fā)明公開了一種基于LDA和VSM的中草藥相似文獻(xiàn)的推薦方法，基于中草藥專業(yè)詞典采用IKAnalyzer對(duì)文獻(xiàn)的題目和摘要信息進(jìn)行切詞，構(gòu)建出向量空間，再對(duì)向量空間進(jìn)行降維，構(gòu)建出語義詞典，對(duì)詞典中的每一個(gè)詞項(xiàng)按序編號(hào)，通過每篇文檔基于該語義詞典進(jìn)行矢量化，構(gòu)建出每篇文檔的詞向量，利用LDA的Gibbs采樣算法進(jìn)行訓(xùn)練，得到每篇文檔在主題上的概率分布，再利用KL散度計(jì)算出每?jī)善臋n之間的相似度值，同時(shí)對(duì)每篇文檔的詞向量基于詞頻計(jì)算余弦相似度，最后對(duì)兩種相似度進(jìn)行聯(lián)合加權(quán)，之后進(jìn)行相似度排序，然后推薦出來。本發(fā)明可以將中草藥文獻(xiàn)中在內(nèi)容和主題上均相似的文獻(xiàn)推薦給用戶，推薦的結(jié)果更加貼近用戶需求。
【專利說明】—種基于LDA和VSM的中草藥相似文獻(xiàn)的推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)相似文獻(xiàn)推薦【技術(shù)領(lǐng)域】，尤其涉及一種基于LDA (LatentDirichlet Allocation,隱含狄利克雷分布)和VSM (Vector Space Model,向量空間模型)的中草藥相似文獻(xiàn)的推薦方法。
【背景技術(shù)】
[0002]用戶在做文獻(xiàn)搜索和詳細(xì)信息查看的時(shí)候，往往不滿足于一篇文獻(xiàn)所提供的信息，還希望能查看內(nèi)容相近的其他文獻(xiàn)。此時(shí)，就需要將與當(dāng)前文獻(xiàn)在內(nèi)容上相似的文獻(xiàn)并推薦給用戶。
[0003]傳統(tǒng)的文獻(xiàn)相似度推薦方法，大多數(shù)基于字面文本內(nèi)容相似度的計(jì)算。例如基于TF-1DF的相似度計(jì)算方法是非常常用的方法，但這類算法的擁有一些缺陷，比如僅僅能感知文本的表面含義，無法在文本的隱含語義層面來進(jìn)步挖掘相似性。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是為克服上述現(xiàn)有方法僅僅能感知文本的表面含義，無法在文本的隱含語義層面來進(jìn)步挖掘相似性的缺陷，提供一種基于LDA和VSM的中草藥相似文獻(xiàn)的推薦方法。
[0005]本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，包括以下步驟:
[0006]( I)針對(duì)已經(jīng)建立好的中草藥文獻(xiàn)庫，針對(duì)每一篇文檔,基于中草藥專用詞典,利用IKAnalyzer對(duì)文檔進(jìn)行切詞，過濾掉停用詞、形容詞、介詞等無用詞項(xiàng),保留動(dòng)詞和名詞。切詞完畢后，構(gòu)建出整個(gè)中草藥文獻(xiàn)庫的詞向量空間，對(duì)已經(jīng)構(gòu)建好的詞向量空間逐詞進(jìn)行編號(hào)處理，獲得映射詞典。
[0007](2)對(duì)每篇文獻(xiàn)基于映射詞典進(jìn)行矢量化處理形成參數(shù)化的詞向量，再整合所有文獻(xiàn)的詞向量，形成“文檔-詞”矩陣。
[0008](3)針對(duì)“文檔-詞”矩陣，設(shè)定較優(yōu)的超參數(shù)α和β，利用主題模型LDA進(jìn)行訓(xùn)練，獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。
[0009](4)對(duì)訓(xùn)練后得到的“文檔-主題”矩陣?yán)肒L-Divergence計(jì)算任意兩篇文獻(xiàn)在主題上的相似度，構(gòu)建出相似文獻(xiàn)網(wǎng)絡(luò)。
[0010](5)針對(duì)前述已經(jīng)獲得的文獻(xiàn)詞向量，利用VSM計(jì)算任意兩篇文獻(xiàn)的余弦相似度。
[0011](6)通過對(duì)VSM和LDA兩種方法獲得的兩篇文獻(xiàn)的相似度進(jìn)行加權(quán)處理，獲得最終的相似度值，并以此為依據(jù)進(jìn)行相似文獻(xiàn)推薦。
[0012]本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果:
[0013]1.該方法能在主題和內(nèi)容上同時(shí)感知文獻(xiàn)內(nèi)容的相似性；
[0014]2.能夠應(yīng)對(duì)海量文本數(shù)據(jù)的應(yīng)用場(chǎng)景，提供快速高效的相似推薦；
[0015]3.對(duì)文本挖掘中的一詞多義具有魯棒性。【具體實(shí)施方式】
[0016]本發(fā)明基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，包括以下步驟:
[0017]1、針對(duì)已經(jīng)建立好的中草藥文獻(xiàn)庫，針對(duì)每一篇文檔，基于中草藥專用詞典，利用IKAnalyzer對(duì)文檔進(jìn)行切詞,過濾掉停用詞、形容詞、介詞等無用詞項(xiàng)，保留動(dòng)詞和名詞。切詞完畢后，構(gòu)建出整個(gè)中草藥文獻(xiàn)庫的詞向量空間，對(duì)已經(jīng)構(gòu)建好的詞向量空間逐詞進(jìn)行編號(hào)處理，獲得映射詞典。
[0018]2、對(duì)每篇文獻(xiàn)基于映射詞典進(jìn)行矢量化處理形成參數(shù)化的詞向量，再整合所有文獻(xiàn)的詞向量，形成“文檔-詞”矩陣。
[0019]3、針對(duì)“文檔-詞”矩陣，設(shè)定超參數(shù)α和β，利用主題模型LDA進(jìn)行訓(xùn)練，獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。
[0020]4、對(duì)訓(xùn)練后得到的“文檔-主題”矩陣，利用KL-Divergence計(jì)算任意兩篇文獻(xiàn)在主題上的相似度，構(gòu)建出相似文獻(xiàn)網(wǎng)絡(luò)。
[0021]5、針對(duì)前述已經(jīng)獲得的文獻(xiàn)詞向量，利用VSM計(jì)算任意兩篇文獻(xiàn)的余弦相似度。
[0022]6、通過對(duì)VSM和LDA兩種方法獲得的兩篇文獻(xiàn)的相似度進(jìn)行加權(quán)處理，獲得最終的相似度值，并以此為依據(jù)進(jìn)行相似文獻(xiàn)推薦。
[0023]所述的步驟3通過以下子步驟來實(shí)現(xiàn):
[0024]3.1、針對(duì)“文檔-詞”矩陣，利用LDA的Gibbs采樣算法，在超參數(shù)α =0.0484和β =0.02的條件下，通過不斷的迭代訓(xùn)練，度過burn-1n階段，獲得收斂后每篇文獻(xiàn)的主題概率分布。采樣過程中，對(duì)每一篇文檔的每一個(gè)單詞采樣某主題的概率為:[0025]
【權(quán)利要求】
1.一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，其特征在于，包括以下步驟: (1)針對(duì)已經(jīng)建立好的中草藥文獻(xiàn)庫，針對(duì)每一篇文檔，基于中草藥專用詞典，利用IKAnalyzer對(duì)文檔進(jìn)行切詞,過濾掉停用詞、形容詞、介詞等無用詞項(xiàng)，保留動(dòng)詞和名詞。切詞完畢后，構(gòu)建出整個(gè)中草藥文獻(xiàn)庫的詞向量空間，對(duì)已經(jīng)構(gòu)建好的詞向量空間逐詞進(jìn)行編號(hào)處理，獲得映射詞典。 (2)對(duì)每篇文獻(xiàn)基于映射詞典進(jìn)行矢量化處理形成參數(shù)化的詞向量，再整合所有文獻(xiàn)的詞向量，形成“文檔-詞”矩陣。 (3)針對(duì)“文檔-詞”矩陣，設(shè)定較優(yōu)的超參數(shù)α和β，利用主題模型LDA進(jìn)行訓(xùn)練，獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。 (4)對(duì)訓(xùn)練后得到的“文檔-主題”矩陣?yán)肒L-Divergence計(jì)算任意兩篇文獻(xiàn)在主題上的相似度，構(gòu)建出相似文獻(xiàn)網(wǎng)絡(luò)。 (5)針對(duì)前述已經(jīng)獲得的文獻(xiàn)詞向量，利用VSM計(jì)算任意兩篇文獻(xiàn)的余弦相似度。 (6)通過對(duì)VSM和LDA兩種方法獲得的兩篇文獻(xiàn)的相似度進(jìn)行加權(quán)處理，獲得最終的相似度值，并以此為依據(jù)進(jìn)行相似文獻(xiàn)推薦。
2.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，其特征在于，所述的步驟(3)包括: (3.1)針對(duì)“文檔-詞”矩陣，利用LDA的Gibbs采樣算法，在超參數(shù)α =0.0484和β =0.02的條件下，通過不斷的迭代訓(xùn)練，度過burn-1n階段，獲得收斂后每篇文獻(xiàn)的主題概率分布。采樣過程中，對(duì)每一篇文檔的每一個(gè)單詞采樣某主題的概率為:

3.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，其特征在于，所述的步驟(4)包括:利用KL-Divergence來計(jì)算任意兩篇文獻(xiàn)之間的主題分布相似度，KL-Divergence的公式如下:
4.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法，其特征在于，所述的步驟(5)包括:利用VSM計(jì)算任意兩篇文獻(xiàn)的余弦相似度，其中文獻(xiàn)詞向量的每一維的權(quán)值采用TF-1DF算法來度量。TF采用如下公式計(jì)算:
5.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻(xiàn)推薦方法,其特征在于，所述的步驟(6)包括:最終任意兩篇文檔i，j之間的相似度計(jì)算公式如下:
Similarity(i, j) = (1-LDASimilarity(i, j)) * a +VSMSimilarity(i, j)* β
依據(jù)相似度計(jì)算公式，對(duì)相似文獻(xiàn)計(jì)算結(jié)果排序，推薦給用戶。
【文檔編號(hào)】G06F17/30GK103823848SQ201410046769
【公開日】2014年5月28日申請(qǐng)日期:2014年2月11日優(yōu)先權(quán)日:2014年2月11日
【發(fā)明者】張引, 魏寶剛, 莊越挺, 凌超, 申晨, 張?jiān)聥? 申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張引;魏寶剛;莊越挺;凌超;申晨;張?jiān)聥?/span>
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于lda和vsm的中草藥相似文獻(xiàn)的推薦方法