專利名稱:建立文本組織框架的方法及設備的制作方法
技術領域:
本發(fā)明涉及移動通信核心網IP化網管技術,特別涉及一種建立文本組織框架的 方法及設備。
背景技術:
隨著移動運營商網絡IP化改造日益深入,運營商內部積累了大量文本,例如,移 動通信網絡安全文本以及移動通信網絡維護文本等,以移動通信網絡安全文本為例,移動 通信網絡全文本數據包括設備指標文本、IP承載網文本、網管支撐文本等。如果移動通信 網絡安全文本無法快速、準確地進行分類,將會直接造成網絡維護工作無章可循,進而影響 到網絡的安全性。
現有處理移動通信網絡安全文本的方法一般是采用人工分類歸檔的方式,網管人 員通過查看一定數量的移動通信網絡安全文本的全部內容、摘要、或關鍵詞以及個人的工 作經驗、理解預先建立文本組織框架,然后根據建立的移動通信網絡安全文本組織框架以 及新的移動通信網絡安全文本中包含的相關內容,對該新文本進行手工分類歸檔,并通過 不定期的檢查和整理的方式維護分類歸檔的移動通信網絡安全文本。當需要查詢移動通信 網絡安全性相關文本時,輸入相關搜索特征詞,系統從移動通信網絡安全文本組織框架的 相應分類中查詢特征詞對應的文本,并輸出給查詢人員。
由上述可見,現有的移動通信網絡安全文本(以下簡稱為文本)處理方式存在以 下缺點
(1)文本組織框架缺乏科學性及一致性?,F有的文本處理方式屬于粗放式的文檔 管理方式,文本組織框架以及文檔的整理分類完全取決于網管人員的專業(yè)知識水平、業(yè)務 能力及工作態(tài)度,分類的方式受個人主觀因素影響較大,不同的人有不同的看法,在這樣的 方式下,很難保證各個網管人員構建的文本組織框架采用統一客觀的分類標準,缺乏科學合理性。
(2)效率較低,準確率不能保證。人工歸檔的方式需要消耗較多的時間,尤其在文 本數據量較大的情況下,不能實現較高的處理效率;并且這種人工歸檔的分類方式還會受 到一些個人因素,如專業(yè)知識水平以及人為判斷的失誤等的影響,使得分類準確率不高。
(3)不利于網管人員的檢索、利用現有文本知識。采用現有的處理方式處理移動通 信網絡安全文本,即網管人員按照自身已經建立的文本組織框架以及閱讀文本后的理解來 對文本分類,使得不同專業(yè)人員的分類方式存在偏差(例如一份關于核心網VOIP改造的 OA文檔,交換人員會將其劃入交換端局相關的類別中,而數據網維護人員會將其劃入IP骨 干相關的類別中,增加了資源開銷)。由于未能采用統一客觀的分類標準,從而使得相應的 網管人員對該文本的搜索、查詢與利用會十分困難(例如,如前所述,當第三個人要以上傳 到FTP的方式來共享關于核心網VOIP改造的OA文檔分類結果時,根據檢索結果發(fā)現其既 屬于交換端局相關的類別,又屬于IP骨干相關的類別,可能就不對其進行上傳,導致了文 本組織框架無法在內部人員之間進行共享),致使文本知識的利用率低下,而且,檢索得到的文本出現重復,也增加了檢索所需的時間,浪費了系統資源。 發(fā)明內容
有鑒于此,本發(fā)明的主要目的在于提出一種建立文本組織框架的方法,提高建立 的文本組織框架的科學性、新文本分類的準確率。
本發(fā)明的另一目的在于提出一種建立文本組織框架的設備,實現了文本組織框架 建立過程的科學性,提高了新文本分類的準確率。
為達到上述目的,本發(fā)明提供了一種建立文本組織框架的方法,該方法包括
獲取預先設定數量的文本信息中包含的特征詞,根據特征詞構造各文本的文本特 征向量,利用文本特征向量對所述預先設定的樣本量的文本進行分類整理,建立第一文本 組織框架;
應用多聚類算法對所述預先設定數量的文本信息分別進行聚類,獲取與所述第一 文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。
所述文本包括移動通信網絡安全文本,所述第一文本組織框架包括指標類材料、 IP承載網類材料、交換設備類材料、全網業(yè)務材料、以及安全管理與網管支撐材料。
所述IP承載網類材料包括設備建設方案、日常維護管理辦法、安全評估與巡檢、 省際IP承載網相關文件、網絡改造與調整;
所述交換設備類材料包括工程建設方案及管理辦法、專項提升活動;
所述全網業(yè)務材料包括網絡運行維護實施、應急處理與重大故障;
所述安全管理與網管支撐材料包括賬號與口令安全管理辦法、其它安全管理辦 法及文件。
所述多聚類算法包括k-meanS聚類算法、模糊c均值聚類算法、蟻群聚類算法和 層次聚類算法。
所述方法進一步包括抽取新導入文本的特征詞,構造各文本特征向量,與所述文 本組織框架中各類包含的文本特征向量進行匹配,對所述新導入文本進行自動分類。
所述方法進一步包括對所述新導入文本進行人工分類,將自動分類結果與人工 分類結果進行比較,如果自動分類結果誤差大于預先設定的閾值,按照人工分類結果調整 所述文本組織框架。
所述方法進一步包括對所述新導入文本進行人工分類,將自動分類結果與人工 分類結果進行比較,如果自動分類結果誤差大于預先設定的閾值,重新啟動優(yōu)選聚類算法 建立的第二的文本組織框架來代替第一文本組織框架。
所述方法進一步包括接收輸入的搜索關鍵詞,從所述文本組織框架中查詢搜索 關鍵詞對應的文本特征詞,將該文本特征詞對應的搜索結果進行輸出。
一種建立文本組織框架的設備,該設備包括文本數據導入模塊、第一文本組織框 架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,其中,
文本數據導入模塊,用于文本數據,分別輸出至第一文本組織框架處理模塊和多 聚類算法模塊;
第一文本組織框架處理模塊,用于獲取接收的文本信息中包含的關鍵詞,根據關 鍵詞構造各文本的文本特征向量,利用文本特征向量對所述預先設定的樣本量的文本進行分類整理,建立第一文本組織框架,并將建立的第一文本組織框架信息分別輸出至聚類結 果匹配模塊及文本組織框架生成模塊;
多聚類算法模塊,用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚 類結果匹配模塊輸出聚類結果;
聚類結果匹配模塊,用于根據接收的第一文本組織框架信息匹配來自多聚類算法 模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本 組織框架生成模塊;
文本組織框架生成模塊,用于根據接收的第一文本組織框架信息以及聚類結果信 息建立文本組織框架。
進一步包括文本分類模塊,用于依據文本組織框架生成模塊中存儲的文本組織 框架信息,對來自文本數據導入模塊的文本進行自動分類。
進一步包括文本組織框架調整模塊,用于接收來自文本分類模塊的自動分類結 果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結果并進行比較,如果 自動分類結果誤差大于預先設定的閾值,按照人工分類結果調整文本組織框架生成模塊存 儲的文本組織框架信息。
進一步包括搜索和查詢模塊,用于接收來自外部的搜索特征詞,發(fā)送至文本組織 框架生成模塊,將文本組織框架生成模塊根據存儲的文本組織框架信息查詢得到的特征詞 對應的文本信息進行輸出。
由上述的技術方案可見,本發(fā)明提供的一種建立文本組織框架的方法及設備,根 據預先設定的樣本量建立第一文本組織框架,應用多聚類算法對所述預先設定的樣本量進 行聚類,獲取與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。當 第一文本組織框架無法進行準備分類時,啟動優(yōu)選聚類算法來建立第二文本組織框架,用 第二文本組織框架來代替第一文本組織框架。具有如下有益效果
(1)提供了一套完備且可完善的文本組織框架。通過人工聚類與知識相結合的方 式整理出了一套科學合理的文本組織框架。
( 提高了文本整理效率和準確率。通過采用機器聚類、分類與先驗知識相結合的 方式進行文本處理,大大提高了工作效率和新文本分類的準確率。
(3)便于網管相關人員的搜索、查詢與應用。通過將文本進行系統化管理,網管人 員可隨時根據需要從文本庫中搜索和查詢所需要的文本,獲取相關知識,相比以往采取關 鍵字的搜索方式,網管人員可以可進行更為深入的搜索,搜索結果更加貼近文本內容。
圖1為本發(fā)明建立文本組織框架的方法流程示意圖。
圖2為本發(fā)明建立文本組織框架的方法具體流程示意圖。
圖3為本發(fā)明建立文本組織框架的設備結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖及具體實施例對 本發(fā)明作進一步地詳細描述。
本發(fā)明提供的建立文本組織框架的方法及設備,通過利用多聚類算法,針對現有 文本集合聚類得出基于統計意義的文本組織框架,同時通過整理現有文本集合得出基于整 理的文本組織框架,并綜合兩種框架整合出一套完備合理的文本組織框架,同時得出優(yōu)選 聚類算法;之后對該組織框架進行分類訓練學習,當有新的文本進入時,該組織框架可以自 動進行分類,并通過人工檢查和定期的重復聚類,動態(tài)完善該用于分類的文本組織框架。
以下以文本為移動通信網絡安全文本、并建立移動通信網絡安全文本組織框架為 例進行說明,所應理解的是,以下描述同樣適用于其他類型的文本建立相應的文本組織框^K O
圖1為本發(fā)明建立文本組織框架的方法流程示意圖,參見圖1,該流程包括
步驟101,根據預先設定的樣本量建立第一文本組織框架;
本步驟中,預先設定的樣本量為一定數量的移動通信網絡安全文本,本實施例中, 預先設定的樣本量為小樣本量,移動通信網絡領域內專業(yè)技術人員根據已有的專業(yè)技術框 架、自身的工作過程中積累的經驗及對文本的理解來實現移動通信網絡安全文本組織框架 的制訂,例如,根據各移動通信網絡安全文本的文本特征向量,建立五大類的移動通信網絡 安全文本組織框架,即第一文本組織框架包括指標類材料、IP承載網類材料、交換設備類 材料、全網業(yè)務材料、以及安全管理與網管支撐材料,并計算每類對應的分類文本特征向 量。當然,實際應用中,也可以根據實際的需要,按照文本特征向量構造其它類型的移動通 信網絡安全文本組織框架,例如,將移動通信網絡安全文本按照集團公司、省公司、地市公 司的發(fā)文、管理辦法和不同地方網絡維護案例文本,以及不同部門交流文本數據進行劃分, 構造相應類別的移動通信網絡安全文本組織框架。
本實施例中,對于移動通信網絡安全文本組織框架下的每個大類,又可以分為不 同的子類并設置每個子類對應的子分類文本特征向量,例如,將IP承載網類材料分為五個 子類,分別為設備建設方案、日常維護管理辦法、安全評估與巡檢、省際IP承載網相關文 件、網絡改造與調整;交換設備類材料分為工程建設方案及管理辦法、專項提升活動等子 類;全網業(yè)務材料分為網絡運行維護實施、應急處理與重大故障等子類;安全管理與網管 支撐材料分為賬號與口令安全管理辦法、其它安全管理辦法及文件等子類。請參見表1所 示的移動通信網絡安全文本組織框架示例。
表 權利要求
1.一種建立文本組織框架的方法,其特征在于,該方法包括獲取預先設定數量的文本信息中包含的特征詞,根據特征詞構造各文本的文本特征向 量,利用文本特征向量對所述預先設定的樣本量的文本進行分類整理,建立第一文本組織 框架;應用多聚類算法對所述預先設定數量的文本信息分別進行聚類,獲取與所述第一文本 組織框架最為相似的聚類算法作為優(yōu)選聚類算法。
2.如權利要求1所述的方法,其特征在于,所述文本為移動通信網絡安全文本,所述第 一文本組織框架包括指標類材料、IP承載網類材料、交換設備類材料、全網業(yè)務材料、以 及安全管理與網管支撐材料。
3.如權利要求2所述的方法,其特征在于,所述IP承載網類材料包括設備建設方案、日常維護管理辦法、安全評估與巡檢、省際 IP承載網相關文件、網絡改造與調整;所述交換設備類材料包括工程建設方案及管理辦法、專項提升活動;所述全網業(yè)務材料包括網絡運行維護實施、應急處理與重大故障;所述安全管理與網管支撐材料包括賬號與口令安全管理辦法、其它安全管理辦法及 文件。
4.如權利要求1所述的方法,其特征在于,所述多聚類算法包括k-means聚類算法、模 糊c均值聚類算法、蟻群聚類算法和層次聚類算法。
5.如權利要求1所述的方法,其特征在于,所述方法進一步包括抽取新導入文本的特 征詞,構造各文本特征向量,與所述文本組織框架中各類包含的文本特征向量進行匹配,對 所述新導入文本進行自動分類。
6.如權利要求5所述的方法,其特征在于,所述方法進一步包括對所述新導入文本進 行人工分類,將自動分類結果與人工分類結果進行比較,如果自動分類結果誤差大于預先 設定的閾值,按照人工分類結果調整所述文本組織框架。
7.如權利要求5所述的方法,其特征在于,所述方法進一步包括對所述新導入文本進 行人工分類,將自動分類結果與人工分類結果進行比較,如果自動分類結果誤差大于預先 設定的閾值,重新啟動優(yōu)選聚類算法建立的第二文本組織框架來代替第一文本組織框架。
8.如權利要求1至4任一項所述的方法,其特征在于,所述方法進一步包括接收輸入 的搜索關鍵詞,從所述文本組織框架中查詢搜索關鍵詞對應的文本特征詞,將該文本特征 詞對應的搜索結果進行輸出。
9.一種建立文本組織框架的設備,其特征在于,該設備包括文本數據導入模塊、第一 文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模 塊,其中,文本數據導入模塊,用于導入文本數據,分別輸出至第一文本組織框架處理模塊和多 聚類算法模塊;第一文本組織框架處理模塊,用于獲取接收的文本信息中包含的關鍵詞,根據關鍵詞 構造各文本的文本特征向量,利用文本特征向量對所述預先設定的樣本量的文本進行分類 整理,建立第一文本組織框架,并將建立的第一文本組織框架信息分別輸出至聚類結果匹 配模塊及文本組織框架生成模塊;多聚類算法模塊,用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結 果匹配模塊輸出聚類結果;聚類結果匹配模塊,用于根據接收的第一文本組織框架信息匹配來自多聚類算法模塊 的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織 框架生成模塊;文本組織框架生成模塊,用于根據接收的第一文本組織框架信息以及聚類結果信息建 立文本組織框架。
10.如權利要求9所述的設備,其特征在于,進一步包括文本分類模塊,用于依據文本 組織框架生成模塊中存儲的文本組織框架信息,對來自文本數據導入模塊的文本進行自動 分類。
11.如權利要求10所述的設備,其特征在于,進一步包括文本組織框架調整模塊,用 于接收來自文本分類模塊的自動分類結果、以及來自第一文本組織框架處理模塊對同批量 文本的人工分類結果并進行比較,如果自動分類結果誤差大于預先設定的閾值,按照人工 分類結果調整文本組織框架生成模塊存儲的文本組織框架信息。
12.如權利要求9至11任一項所述的設備,其特征在于,進一步包括搜索和查詢模 塊,用于接收來自外部的搜索特征詞,發(fā)送至文本組織框架生成模塊,將文本組織框架生成 模塊根據存儲的文本組織框架信息查詢得到的特征詞對應的文本信息進行輸出。
全文摘要
本發(fā)明公開了一種建立文本組織框架的方法。該方法根據預先設定的樣本量建立第一文本組織框架,應用多聚類算法對所述預先設定的樣本量進行聚類,獲取與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。本發(fā)明還公開了一種建立文本組織框架的設備。應用本發(fā)明,可以提高建立的文本組織框架的科學性,實現新增文本自動分類,提高文本整理效率和準確率,便于網管相關人員的搜索、查詢與應用。
文檔編號G06F17/30GK102033873SQ20091009312
公開日2011年4月27日 申請日期2009年9月29日 優(yōu)先權日2009年9月29日
發(fā)明者余志芳, 商炳章, 莊浩鵬, 廖建坤, 方鵬程, 林旭輝, 沈志斌, 邱明, 鄭朔毅, 陳曉東 申請人:中國移動通信集團福建有限公司