一種基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)的制作方法

文檔序號：9489483閱讀：734來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及一種基于數(shù)據(jù)挖掘技術(shù)的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)。
【背景技術(shù)】
[0002] 專家知識是企業(yè)的寶貴資源，而專家的知識主要以文本數(shù)據(jù)的形式體現(xiàn)。因此，對專家知識的管理即為對專家創(chuàng)造的文本數(shù)據(jù)的管理。目前，對專家知識的管理手段分為兩方面，一方面，構(gòu)建專家黃頁或?qū)＜业貓D，但該種方法以專家自身申報(bào)的研究領(lǐng)域?yàn)殛P(guān)聯(lián) 點(diǎn)，對專家研究方向的定位過于寬泛，不易于掌握專家精準(zhǔn)的研究技術(shù)，也忽略了專家研究領(lǐng)域的多樣性、細(xì)微性以及研究方向的動態(tài)變更或調(diào)整；另一方面，采用文本分析技術(shù)對專家研究成果進(jìn)行智能分析，自動分析專家研究領(lǐng)域，該種方法雖然有利于精確掌握專家的研究方向，但僅關(guān)注于專家本身，忽視了專家與專家之間的關(guān)聯(lián)程度，未實(shí)現(xiàn)同領(lǐng)域、同方向、同技術(shù)點(diǎn)專家群體的聚合分析。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的技術(shù)解決問題是：克服現(xiàn)有技術(shù)的不足，提供一種基于數(shù)據(jù)挖掘技術(shù)的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)，實(shí)現(xiàn)專家研究領(lǐng)域的精準(zhǔn)分析與專家之間關(guān)系的準(zhǔn)確關(guān)聯(lián)，為企業(yè)智力資產(chǎn)的精細(xì)化、系統(tǒng)化管理提供手段。
[0004] 本發(fā)明的技術(shù)解決方案是：
[0005] -種基于數(shù)據(jù)挖掘的專業(yè)領(lǐng)域人際網(wǎng)絡(luò)構(gòu)建系統(tǒng)：數(shù)據(jù)采集模塊、數(shù)據(jù)挖掘模塊、人際網(wǎng)絡(luò)構(gòu)建模塊、可視化展示模塊和數(shù)據(jù)庫：
[0006] 數(shù)據(jù)采集模塊，接收系統(tǒng)外部發(fā)送的新增文本數(shù)據(jù)，記錄數(shù)據(jù)發(fā)送者信息，并對文本數(shù)據(jù)依次進(jìn)行分詞，將分詞后的數(shù)據(jù)存儲于數(shù)據(jù)庫；
[0007] 數(shù)據(jù)挖掘模塊，提取數(shù)據(jù)庫中經(jīng)過分詞處理的新增文本數(shù)據(jù)的特征值，并與數(shù)據(jù) 庫中已經(jīng)存儲的、已提取特征值的文本數(shù)據(jù)進(jìn)行比對，取與新增文本數(shù)據(jù)特征值最相近的數(shù)據(jù)進(jìn)彳丁關(guān)聯(lián)映射；
[0008] 人際網(wǎng)絡(luò)構(gòu)建模塊，根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)映射關(guān)系，以數(shù)據(jù)采集模塊接收到的文本數(shù)據(jù)發(fā)送者為文件名稱，以新增文本數(shù)據(jù)名稱、進(jìn)行關(guān)聯(lián)映射的數(shù)據(jù)名稱以及關(guān)聯(lián)映射數(shù)據(jù)對應(yīng)的數(shù)據(jù)發(fā)送者為文件屬性，構(gòu)建文件，形成人際網(wǎng)絡(luò)本體庫；
[0009] 可視化展示模塊，接收人際網(wǎng)絡(luò)構(gòu)建模塊發(fā)送的人際網(wǎng)絡(luò)本體庫，解析文件對應(yīng) 的數(shù)據(jù)，并使用線段、節(jié)點(diǎn)方式展現(xiàn)。
[0010] 數(shù)據(jù)采集模塊，讀取發(fā)送的新增文本數(shù)據(jù)后，為每一條數(shù)據(jù)進(jìn)行命名和生成唯一 ID，所述的新增文本數(shù)據(jù)命名采用新增文本數(shù)據(jù)ID+新增文本數(shù)據(jù)上傳人ID+新增文本數(shù) 據(jù)名稱的格式；
[0011] 數(shù)據(jù)采集模塊，采用隱馬爾科夫模型對新增數(shù)據(jù)進(jìn)行分詞，識別并去除分詞結(jié)果約定的人名、地名和機(jī)構(gòu)名，以空格作為分詞結(jié)果的分隔符，將分詞結(jié)果以.txt文件格式保存；
[0012] 數(shù)據(jù)采集模塊，對分詞.txt文件進(jìn)行格式轉(zhuǎn)換，生成.xml文件，存入分詞結(jié)果數(shù) 據(jù)庫，.xml文件包含分詞結(jié)果、新增文本數(shù)據(jù)ID、新增文本數(shù)據(jù)上傳人ID、新增文本數(shù)據(jù)名稱。
[0013] 數(shù)據(jù)挖掘模塊提取數(shù)據(jù)庫中的新增文本數(shù)據(jù)的特征值的具體方式如下：
[0014] 數(shù)據(jù)挖掘模塊，將新生成的分詞結(jié)果與數(shù)據(jù)庫已經(jīng)存儲的歷史分詞數(shù)據(jù)進(jìn)行逐一比對，統(tǒng)計(jì)出各分詞出現(xiàn)的次數(shù)D，將滿足Dmin〈D〈Dmax的分詞，作為特征詞tp，其中Dmax表示預(yù)設(shè)的分詞出現(xiàn)的最高閾值，Dmin表示預(yù)設(shè)的分詞出現(xiàn)的最低閾值；
[0015] 數(shù)據(jù)挖掘模塊，計(jì)算出每個新增文本分詞結(jié)果中每項(xiàng)特征詞tp在當(dāng)前分詞結(jié)果中出現(xiàn)的頻率tfp以及每個新增數(shù)據(jù)文本分詞結(jié)果中出現(xiàn)特征詞tp的數(shù)目ηp，利用特征權(quán)重計(jì)算公式得到每個特征詞tp在當(dāng)前分詞結(jié)果中的權(quán)重
進(jìn)一步計(jì)算每個新增文本數(shù)據(jù)的特征向量Tq:
[0016] Tq=Z(t!,w1；t2,w2； ......tn，wn)
[0017] 其中，M表示新增文本數(shù)據(jù)的總數(shù)，n表示每個新增文本數(shù)據(jù)中特征詞的總數(shù)，n小于等于每個新增數(shù)據(jù)文本分詞后的分詞結(jié)果數(shù)。
[0018] 數(shù)據(jù)挖掘模塊與數(shù)據(jù)庫中已經(jīng)存儲的、已提取特征值的文本數(shù)據(jù)進(jìn)行比對，取與新增文本數(shù)據(jù)特征值最相近的數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射的具體方式如下：
[0019] (1)判斷數(shù)據(jù)庫中是否已經(jīng)存在文本數(shù)據(jù)，若存在直接進(jìn)入步驟（4)，否則進(jìn)入步驟（2)建立聚類中心特征向量；
[0020] (2)數(shù)據(jù)挖掘模塊，通過對特征向量Tq的處理進(jìn)行文本數(shù)據(jù)分類，計(jì)算得到分類類別數(shù)K=round((logM)2,0);
[0021] (3)數(shù)據(jù)挖掘模塊，隨機(jī)選取K個特征向量作為聚類中心，分別為?\，T2，……Tk，將剩余的M-K個特征向量Tk+1，Tk+2,……TM_k進(jìn)行聚類劃分，聚類劃分的具體方式為：
[0022] (3a)利用下式計(jì)算M-K個特征向量中每一項(xiàng)向量與K項(xiàng)聚類中心空間向量1\， T2，……Tk的距離SdT):
[0024] 其中，|IT」|和| |τ」|分別表示向量TjPT^長度，i小于等于k、j小于等于 M-K；
[0025] (3b)將M-K個特征向量中的每一項(xiàng)向量，與K個聚類中心特征向量的距離記為S ={S!，S2,……sk}，取M-K個特征向量中的每一項(xiàng)向量對應(yīng)的S中的最小值S_=min(S)，最小值3_對應(yīng)的聚類中心即為該M-K個特征向量中的特征向量對應(yīng)的類別，重復(fù)上述過程完成M-K個特征向量的分類；
[0026] (3c)將K個聚類中心包含的所有特征向量分別求取特征向量平均值，然后將該平均值作為新的聚類中心，重復(fù)步驟（3a)_(3b)，直到M-K個特征向量中每一項(xiàng)向量的Si前后兩次變化幅度不超過特定閾值時，記此時的K個聚類中心對應(yīng)的特征向量為F;
[0027] (4)對于數(shù)據(jù)采集模塊新增文本數(shù)據(jù)分詞結(jié)果對應(yīng)的特征向量，利用公式⑴計(jì) 算其與步驟（3c)中新求出的K個聚類中心對應(yīng)的特征向量F的距離，并根據(jù)特征向兩種的最小值對應(yīng)的聚類中心，劃分該新增文本數(shù)據(jù)所屬的分類；
[0028] (5)利用下式計(jì)算新增文本分詞結(jié)果對應(yīng)的特征向量與其分類中已存的分詞結(jié)果的特征向量的距離，取。^最小值對應(yīng)的已存分詞結(jié)果的特征向量對應(yīng)的文本數(shù)據(jù)，作為映射數(shù)據(jù)，建立映射關(guān)系；
[0030] 其中，Tadd表示新增文本分詞結(jié)果對應(yīng)的特征向量，T表示分類中已存的每項(xiàng) 分詞結(jié)果的特征向量。
[0031] 可視化展示模塊對人際網(wǎng)絡(luò)本體庫進(jìn)行解析并可視化顯示的具體方式如下：
[0032] 可視化展示模塊，解析人際網(wǎng)絡(luò)構(gòu)建模塊生成的本體文件，提取本體名稱及本體屬性內(nèi)容；
[0033] 可視化展示模塊，根據(jù)解析的本體內(nèi)容，以本體名稱作為網(wǎng)絡(luò)節(jié)點(diǎn)，以關(guān)聯(lián)映射數(shù) 據(jù)對應(yīng)的數(shù)據(jù)發(fā)送者屬性作為節(jié)點(diǎn)間連線的依據(jù)，形成由點(diǎn)、線組成的可視化網(wǎng)絡(luò)圖。
[0034] 本發(fā)明與現(xiàn)有技術(shù)相比有益效果為：
[0035] (1)本發(fā)明給出的數(shù)據(jù)采集、數(shù)據(jù)挖掘以及人際網(wǎng)絡(luò)構(gòu)建功能，實(shí)現(xiàn)了人與人之間通過上傳文本數(shù)據(jù)相關(guān)程度的關(guān)聯(lián)映射，有助于發(fā)現(xiàn)系統(tǒng)用戶之間的關(guān)聯(lián)關(guān)系，進(jìn)而在不需要更多用戶背景信息的前提下快速構(gòu)建專業(yè)領(lǐng)域人際網(wǎng)絡(luò)。
[0036] (2)本發(fā)明建立形成基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)，實(shí)現(xiàn)對文本數(shù)據(jù)的深入分析及關(guān)聯(lián)映射，動態(tài)、精準(zhǔn)定位專家研究方向的同時，解決專家與多種文本數(shù)據(jù)、多個專家的多維度關(guān)聯(lián)問題，使某領(lǐng)域?qū)＜抑g能夠通過所上傳的文本數(shù)據(jù)挖掘分析結(jié)果進(jìn) 行準(zhǔn)確關(guān)聯(lián)。
[0037] (3)本發(fā)明通過隨機(jī)選取K個特征向量與剩余向量進(jìn)行距離求解，通

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：畢經(jīng)元;王立偉;賈倩;張冶;王長慶;池元成;陸小兵;朱亞亞;楊玉堃;李一帆;康磊晶;
技術(shù)所有人：中國運(yùn)載火箭技術(shù)研究院;
我是此專利的發(fā)明人

上一篇：一種基于社交軟件的數(shù)據(jù)獲取方法及裝置的制造方法
上一篇：一種檢索方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本數(shù)據(jù)挖掘相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)的制作方法