一種基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及一種基于數(shù)據(jù)挖掘技術(shù)的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng)。
【背景技術(shù)】
[0002] 專家知識是企業(yè)的寶貴資源,而專家的知識主要以文本數(shù)據(jù)的形式體現(xiàn)。因此, 對專家知識的管理即為對專家創(chuàng)造的文本數(shù)據(jù)的管理。目前,對專家知識的管理手段分為 兩方面,一方面,構(gòu)建專家黃頁或?qū)<业貓D,但該種方法以專家自身申報(bào)的研究領(lǐng)域?yàn)殛P(guān)聯(lián) 點(diǎn),對專家研究方向的定位過于寬泛,不易于掌握專家精準(zhǔn)的研究技術(shù),也忽略了專家研究 領(lǐng)域的多樣性、細(xì)微性以及研究方向的動態(tài)變更或調(diào)整;另一方面,采用文本分析技術(shù)對專 家研究成果進(jìn)行智能分析,自動分析專家研究領(lǐng)域,該種方法雖然有利于精確掌握專家的 研究方向,但僅關(guān)注于專家本身,忽視了專家與專家之間的關(guān)聯(lián)程度,未實(shí)現(xiàn)同領(lǐng)域、同方 向、同技術(shù)點(diǎn)專家群體的聚合分析。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種基于數(shù)據(jù)挖掘技術(shù)的 文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng),實(shí)現(xiàn)專家研究領(lǐng)域的精準(zhǔn)分析與專家之間關(guān)系的準(zhǔn)確關(guān)聯(lián),為企 業(yè)智力資產(chǎn)的精細(xì)化、系統(tǒng)化管理提供手段。
[0004] 本發(fā)明的技術(shù)解決方案是:
[0005] -種基于數(shù)據(jù)挖掘的專業(yè)領(lǐng)域人際網(wǎng)絡(luò)構(gòu)建系統(tǒng):數(shù)據(jù)采集模塊、數(shù)據(jù)挖掘模塊、 人際網(wǎng)絡(luò)構(gòu)建模塊、可視化展示模塊和數(shù)據(jù)庫:
[0006] 數(shù)據(jù)采集模塊,接收系統(tǒng)外部發(fā)送的新增文本數(shù)據(jù),記錄數(shù)據(jù)發(fā)送者信息,并對文 本數(shù)據(jù)依次進(jìn)行分詞,將分詞后的數(shù)據(jù)存儲于數(shù)據(jù)庫;
[0007] 數(shù)據(jù)挖掘模塊,提取數(shù)據(jù)庫中經(jīng)過分詞處理的新增文本數(shù)據(jù)的特征值,并與數(shù)據(jù) 庫中已經(jīng)存儲的、已提取特征值的文本數(shù)據(jù)進(jìn)行比對,取與新增文本數(shù)據(jù)特征值最相近的 數(shù)據(jù)進(jìn)彳丁關(guān)聯(lián)映射;
[0008] 人際網(wǎng)絡(luò)構(gòu)建模塊,根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)映射關(guān)系,以數(shù)據(jù)采集模塊接收到的文 本數(shù)據(jù)發(fā)送者為文件名稱,以新增文本數(shù)據(jù)名稱、進(jìn)行關(guān)聯(lián)映射的數(shù)據(jù)名稱以及關(guān)聯(lián)映射 數(shù)據(jù)對應(yīng)的數(shù)據(jù)發(fā)送者為文件屬性,構(gòu)建文件,形成人際網(wǎng)絡(luò)本體庫;
[0009] 可視化展示模塊,接收人際網(wǎng)絡(luò)構(gòu)建模塊發(fā)送的人際網(wǎng)絡(luò)本體庫,解析文件對應(yīng) 的數(shù)據(jù),并使用線段、節(jié)點(diǎn)方式展現(xiàn)。
[0010] 數(shù)據(jù)采集模塊,讀取發(fā)送的新增文本數(shù)據(jù)后,為每一條數(shù)據(jù)進(jìn)行命名和生成唯一 ID,所述的新增文本數(shù)據(jù)命名采用新增文本數(shù)據(jù)ID+新增文本數(shù)據(jù)上傳人ID+新增文本數(shù) 據(jù)名稱的格式;
[0011] 數(shù)據(jù)采集模塊,采用隱馬爾科夫模型對新增數(shù)據(jù)進(jìn)行分詞,識別并去除分詞結(jié)果 約定的人名、地名和機(jī)構(gòu)名,以空格作為分詞結(jié)果的分隔符,將分詞結(jié)果以.txt文件格式 保存;
[0012] 數(shù)據(jù)采集模塊,對分詞.txt文件進(jìn)行格式轉(zhuǎn)換,生成.xml文件,存入分詞結(jié)果數(shù) 據(jù)庫,.xml文件包含分詞結(jié)果、新增文本數(shù)據(jù)ID、新增文本數(shù)據(jù)上傳人ID、新增文本數(shù)據(jù)名 稱。
[0013] 數(shù)據(jù)挖掘模塊提取數(shù)據(jù)庫中的新增文本數(shù)據(jù)的特征值的具體方式如下:
[0014] 數(shù)據(jù)挖掘模塊,將新生成的分詞結(jié)果與數(shù)據(jù)庫已經(jīng)存儲的歷史分詞數(shù)據(jù)進(jìn)行逐一 比對,統(tǒng)計(jì)出各分詞出現(xiàn)的次數(shù)D,將滿足Dmin〈D〈Dmax的分詞,作為特征詞tp,其中Dmax表 示預(yù)設(shè)的分詞出現(xiàn)的最高閾值,Dmin表示預(yù)設(shè)的分詞出現(xiàn)的最低閾值;
[0015] 數(shù)據(jù)挖掘模塊,計(jì)算出每個新增文本分詞結(jié)果中每項(xiàng)特征詞tp在當(dāng)前分詞結(jié)果中 出現(xiàn)的頻率tfp以及每個新增數(shù)據(jù)文本分詞結(jié)果中出現(xiàn)特征詞tp的數(shù)目ηp,利用特征權(quán)重 計(jì)算公式得到每個特征詞tp在當(dāng)前分詞結(jié)果中的權(quán)重
進(jìn)一步計(jì)算每個新 增文本數(shù)據(jù)的特征向量Tq:
[0016] Tq=Z(t!,w1;t2,w2; ......tn,wn)
[0017] 其中,M表示新增文本數(shù)據(jù)的總數(shù),n表示每個新增文本數(shù)據(jù)中特征詞的總數(shù),n小 于等于每個新增數(shù)據(jù)文本分詞后的分詞結(jié)果數(shù)。
[0018] 數(shù)據(jù)挖掘模塊與數(shù)據(jù)庫中已經(jīng)存儲的、已提取特征值的文本數(shù)據(jù)進(jìn)行比對,取與 新增文本數(shù)據(jù)特征值最相近的數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射的具體方式如下:
[0019] (1)判斷數(shù)據(jù)庫中是否已經(jīng)存在文本數(shù)據(jù),若存在直接進(jìn)入步驟(4),否則進(jìn)入步 驟(2)建立聚類中心特征向量;
[0020] (2)數(shù)據(jù)挖掘模塊,通過對特征向量Tq的處理進(jìn)行文本數(shù)據(jù)分類,計(jì)算得到分類類 別數(shù)K=round((logM)2,0);
[0021] (3)數(shù)據(jù)挖掘模塊,隨機(jī)選取K個特征向量作為聚類中心,分別為?\,T2,……Tk, 將剩余的M-K個特征向量Tk+1,Tk+2,……TM_k進(jìn)行聚類劃分,聚類劃分的具體方式為:
[0022] (3a)利用下式計(jì)算M-K個特征向量中每一項(xiàng)向量與K項(xiàng)聚類中心空間向量1\, T2,……Tk的距離SdT):
[0024] 其中,|IT」|和| |τ」|分別表示向量TjPT^長度,i小于等于k、j小于等于 M-K;
[0025] (3b)將M-K個特征向量中的每一項(xiàng)向量,與K個聚類中心特征向量的距離記為S ={S!,S2,……sk},取M-K個特征向量中的每一項(xiàng)向量對應(yīng)的S中的最小值S_=min(S), 最小值3_對應(yīng)的聚類中心即為該M-K個特征向量中的特征向量對應(yīng)的類別,重復(fù)上述過 程完成M-K個特征向量的分類;
[0026] (3c)將K個聚類中心包含的所有特征向量分別求取特征向量平均值,然后將該平 均值作為新的聚類中心,重復(fù)步驟(3a)_(3b),直到M-K個特征向量中每一項(xiàng)向量的Si前后 兩次變化幅度不超過特定閾值時,記此時的K個聚類中心對應(yīng)的特征向量為F;
[0027] (4)對于數(shù)據(jù)采集模塊新增文本數(shù)據(jù)分詞結(jié)果對應(yīng)的特征向量,利用公式⑴計(jì) 算其與步驟(3c)中新求出的K個聚類中心對應(yīng)的特征向量F的距離,并根據(jù)特征向兩種的 最小值對應(yīng)的聚類中心,劃分該新增文本數(shù)據(jù)所屬的分類;
[0028] (5)利用下式計(jì)算新增文本分詞結(jié)果對應(yīng)的特征向量與其分類中已存的分詞結(jié)果 的特征向量的距離,取。^最小值對應(yīng)的已存分詞結(jié)果的特征向量對應(yīng)的文本數(shù)據(jù), 作為映射數(shù)據(jù),建立映射關(guān)系;
[0030] 其中,Tadd表示新增文本分詞結(jié)果對應(yīng)的特征向量,T表示分類中已存的每項(xiàng) 分詞結(jié)果的特征向量。
[0031] 可視化展示模塊對人際網(wǎng)絡(luò)本體庫進(jìn)行解析并可視化顯示的具體方式如下:
[0032] 可視化展示模塊,解析人際網(wǎng)絡(luò)構(gòu)建模塊生成的本體文件,提取本體名稱及本體 屬性內(nèi)容;
[0033] 可視化展示模塊,根據(jù)解析的本體內(nèi)容,以本體名稱作為網(wǎng)絡(luò)節(jié)點(diǎn),以關(guān)聯(lián)映射數(shù) 據(jù)對應(yīng)的數(shù)據(jù)發(fā)送者屬性作為節(jié)點(diǎn)間連線的依據(jù),形成由點(diǎn)、線組成的可視化網(wǎng)絡(luò)圖。
[0034] 本發(fā)明與現(xiàn)有技術(shù)相比有益效果為:
[0035] (1)本發(fā)明給出的數(shù)據(jù)采集、數(shù)據(jù)挖掘以及人際網(wǎng)絡(luò)構(gòu)建功能,實(shí)現(xiàn)了人與人之間 通過上傳文本數(shù)據(jù)相關(guān)程度的關(guān)聯(lián)映射,有助于發(fā)現(xiàn)系統(tǒng)用戶之間的關(guān)聯(lián)關(guān)系,進(jìn)而在不 需要更多用戶背景信息的前提下快速構(gòu)建專業(yè)領(lǐng)域人際網(wǎng)絡(luò)。
[0036] (2)本發(fā)明建立形成基于數(shù)據(jù)挖掘的文本數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建系統(tǒng),實(shí)現(xiàn)對文本數(shù)據(jù)的 深入分析及關(guān)聯(lián)映射,動態(tài)、精準(zhǔn)定位專家研究方向的同時,解決專家與多種文本數(shù)據(jù)、多 個專家的多維度關(guān)聯(lián)問題,使某領(lǐng)域?qū)<抑g能夠通過所上傳的文本數(shù)據(jù)挖掘分析結(jié)果進(jìn) 行準(zhǔn)確關(guān)聯(lián)。
[0037] (3)本發(fā)明通過隨機(jī)選取K個特征向量與剩余向量進(jìn)行距離求解,通