互聯(lián)網(wǎng)段落級話題識別系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),包括網(wǎng)絡(luò)蜘蛛模塊、文本段落切片模塊、語義分析與標(biāo)注模塊、維度識別模塊、LSA分析模塊、語義化文本描述模塊、業(yè)務(wù)表現(xiàn)模塊和UI模塊八個模塊。本發(fā)明由于運用話題識別與語義維度分析、對特定文本集自動話題抽取和定義、識別文本與特定話題之間的關(guān)聯(lián)強度、識別文本之間在話題層面的交叉、相似等關(guān)系特定的技術(shù)手段,因此具有可與操作人員交互并糾偏、在線離線相結(jié)合,計算速度快;能支持多個數(shù)據(jù)庫、文件系統(tǒng)、互聯(lián)網(wǎng)等多種分析目標(biāo)等功能。
【專利說明】互聯(lián)網(wǎng)段落級話題識別系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種互聯(lián)網(wǎng)話題識別系統(tǒng),尤其涉及一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng)。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)的發(fā)展日新月異,但互聯(lián)網(wǎng)文本的語義分析與商業(yè)情報提取主要依賴于對文本話題的識別,而一般的文本語義分析以篇章為單位,很難適應(yīng)微博興起之后的互聯(lián)網(wǎng)文本分布情況。在微博逐漸興起之時,微博生產(chǎn)數(shù)據(jù)的能力超乎想象,占可提取情報的比重也越來越大,但是微博的文本有段落化與碎片化等特點,這些短小文本用一般的語義分析技術(shù)已經(jīng)很難應(yīng)對,主要表現(xiàn)為:語言特征段、語義段落、去中心化、以前的信息組織方式相對有序的,分門別類的;造成微博之間聯(lián)系性較低。
【發(fā)明內(nèi)容】
[0003]為了克服上述現(xiàn)有技術(shù)的缺陷,本發(fā)明提供了一種段落級語義分析,能支持多個數(shù)據(jù)庫、文件系統(tǒng)、互聯(lián)網(wǎng)等多種分析目標(biāo)的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng)。
[0004]本發(fā)明通過以下方案實現(xiàn)的,一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:包括網(wǎng)絡(luò)蜘蛛模塊、文本段落切片模塊、語義分析與標(biāo)注模塊、維度識別模塊、LSA分析模塊、語義化文本描述模塊、業(yè)務(wù)表現(xiàn)模塊和UI模塊八個模塊。
[0005]其中:1、網(wǎng)絡(luò)蜘蛛模塊,根據(jù)情報搜集與分析目標(biāo),通過網(wǎng)絡(luò)蜘蛛模塊,利用網(wǎng)絡(luò)蜘蛛,采集各類信息,并丟入存儲系統(tǒng)(默認(rèn)存儲系統(tǒng)為分布式存儲系統(tǒng)hadoop系統(tǒng))。
[0006]2、文本段落切片模塊,文本段落切片模塊對文本向段落切割,使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落。
[0007]3、語義分析與標(biāo)注模塊,語義分析與標(biāo)注模塊實現(xiàn)段落分詞后,通過本體和語法規(guī)則,對分詞后的段落內(nèi)的詞或詞組進(jìn)行語義標(biāo)注,通過這種詞匯向語義概念的轉(zhuǎn)換(段落語義次回話描述體系),將段落從文本轉(zhuǎn)變?yōu)楦拍罱M合體,以便于進(jìn)行相應(yīng)語義計算,抽取語義維度以及維度強度。
[0008]4、維度識別模塊是維度標(biāo)注段落的程序,實現(xiàn)段落的維度標(biāo)注工作。
[0009]5、LSA分析模塊,LSA分析模塊首先在做好語料庫的上進(jìn)行潛在語義分析(LSA),分解后得到三個矩陣SVD,用S、D矩陣作為計算段落間關(guān)聯(lián)度計算、話題見關(guān)聯(lián)度、維度獨
立性計算。
[0010]6、語義化文本描述模塊,是在各個語義段落做完段落級語義分析之后,對整個文本文檔匯總語義信息和語義維度化描述該文檔的模塊。
[0011]7、業(yè)務(wù)表現(xiàn)模塊,是情報系統(tǒng)內(nèi)核的Shell。它將用戶的情報需求邏輯表達(dá)給系統(tǒng),生成執(zhí)行腳本;另一方面,它根據(jù)執(zhí)行腳本,調(diào)用情報系統(tǒng)的核心執(zhí)行模塊,以實現(xiàn)用戶的情報收集與分析的需求。它的存在,使得本系統(tǒng)將極大減少二次開發(fā)的必要性,降低使用復(fù)雜程度,以便于推廣和維護(hù)。[0012]8、UI模塊,分為兩大類,一類為用戶根據(jù)實際情報搜集和分析的需求,將這種需求表達(dá)給系統(tǒng)的UI ;另一類是提供給情報最終消費者的UI。
[0013]綜上所述,本發(fā)明具有以下有益效果:本發(fā)明由于運用話題識別與語義維度分析、對特定文本集自動話題抽取和定義、識別文本與特定話題之間的關(guān)聯(lián)強度、識別文本之間在話題層面的交叉、相似等關(guān)系特定的技術(shù)手段,因此具有可與操作人員交互并糾偏、在線離線相結(jié)合,計算速度快;支持多個數(shù)據(jù)庫、文件系統(tǒng)、互聯(lián)網(wǎng)等多種分析目標(biāo)等功能。
【專利附圖】
【附圖說明】
[0014]圖1為本發(fā)明系統(tǒng)總體框圖
[0015]圖2為本發(fā)明網(wǎng)絡(luò)蜘蛛模塊流程圖
[0016]圖3為本發(fā)明文本段落切片模塊流程圖
[0017]圖4為本發(fā)明語義分析與標(biāo)注模塊流程圖
[0018]圖5為本發(fā)明維度識別模塊流程圖
[0019]圖6為本發(fā)明網(wǎng)絡(luò)蜘蛛模塊流程圖
[0020]圖7為本發(fā)明語義化文本描述模塊流程圖
[0021]圖8為本發(fā)明業(yè)務(wù)表現(xiàn)模塊流程圖
[0022]圖9為本發(fā)明用戶Π模塊流程圖
【具體實施方式】
[0023]本發(fā)明通過以下方案實現(xiàn)的,一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),包括網(wǎng)絡(luò)蜘蛛模塊、文本段落切片模塊、語義分析與標(biāo)注模塊、維度識別模塊、LSA分析模塊、語義化文本描述模塊、業(yè)務(wù)表現(xiàn)模塊和UI模塊八個模塊。
[0024]其中:1、網(wǎng)絡(luò)蜘蛛模塊。根據(jù)情報搜集與分析目標(biāo),利用網(wǎng)絡(luò)蜘蛛,采集各類信息,并丟入存儲系統(tǒng)(默認(rèn)存儲系統(tǒng)為分布式存儲系統(tǒng)hadoop系統(tǒng))。
[0025]2、文本段落切片模塊。對文本向段落切割,使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落。
[0026]3、語義分析與標(biāo)注模塊。語義分析與標(biāo)注模塊實現(xiàn)段落分詞后,通過本體和語法規(guī)則,對分詞后的段落內(nèi)的詞或詞組進(jìn)行語義標(biāo)注,通過這種詞匯向語義概念的轉(zhuǎn)換(段落語義次回話描述體系),將段落從文本轉(zhuǎn)變?yōu)楦拍罱M合體,以便于進(jìn)行相應(yīng)語義計算,抽取語義維度以及維度強度。
[0027]4、維度識別模塊。是維度標(biāo)注段落的程序,實現(xiàn)段落的維度標(biāo)注工作。
[0028]5,LSA分析模塊。首先在做好語料庫的上進(jìn)行潛在語義分析(LSA),分解后得到三個矩陣SVD,用S、D矩陣作為計算段落間關(guān)聯(lián)度計算、話題見關(guān)聯(lián)度、維度獨立性計算。
[0029]6、語義化文本描述模塊。在各個語義段落做完段落級語義分析之后,對整個文本文檔匯總語義信息和語義維度化描述該文檔的模塊。
[0030]7、業(yè)務(wù)表現(xiàn)模塊。業(yè)務(wù)表現(xiàn)模塊是情報系統(tǒng)內(nèi)核的Shell。它將用戶的情報需求邏輯表達(dá)給系統(tǒng),生成執(zhí)行腳本;根據(jù)執(zhí)行腳本,調(diào)用情報系統(tǒng)的核心執(zhí)行模塊,以實現(xiàn)用戶的情報收集與分析的需求。
[0031]8、UI模塊。UI模塊分為兩大類,一類為用戶根據(jù)實際情報搜集和分析的需求,將這種需求表達(dá)給系統(tǒng)的Π ;另一類是提供給情報最終消費者的Π。
[0032]具體實施例:
[0033]1、網(wǎng)絡(luò)蜘蛛模塊
[0034]根據(jù)圖2所示,系統(tǒng)根據(jù)情報搜集與分析目標(biāo),通過網(wǎng)絡(luò)蜘蛛模塊,利用網(wǎng)絡(luò)蜘蛛,采集各類信息,并丟入存儲系統(tǒng)(默認(rèn)存儲系統(tǒng)為分布式存儲系統(tǒng)hadoop系統(tǒng))。
[0035]2、文本段落切片模塊
[0036]根據(jù)圖3所示,段落化切片模塊對文本切割,使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落,這不但有利于系統(tǒng)便于統(tǒng)一接口和設(shè)計,而且充分利用在段落級別文本分析的優(yōu)勢,在更小粒度的文本上精煉更加詳盡、準(zhǔn)確的語義信息,以支持情報采集、識別和分析。段落花切片模塊的切割不但需要考慮文本、段落長度限制因素,而且應(yīng)最大限度上保證將語義關(guān)聯(lián)緊密的小段落合并為長度較為適中的語義段落。段落切割過程分為粗切害I]、分析段落關(guān)系、成本最小化原則下粗切割小段合并為語義段落等步驟。
[0037]根據(jù)圖3所示,描述了本模塊的處理流程,其輸入為互聯(lián)數(shù)據(jù)(html中正文、title.meta以及錨文字(取自存儲系統(tǒng),與采集系統(tǒng)物理上隔離,使用不同進(jìn)程,不存在同步);輸出為段落化的文本描述,輸出對象為存儲系統(tǒng)(也是與其他模塊物理上隔離,以單獨進(jìn)程形式存在)粗切分,是對文本長度超過一定長度(300字)的文檔盡量依據(jù)原文的段落結(jié)構(gòu),進(jìn)行切割;對超過300字的文本,根據(jù)句點(。)嘆號等標(biāo)點符號,在合適位置(各段等長原則及長句子獨立語義段落原則),人為強制切割為小段落。頁面原始信息(html文檔的title、meta,body標(biāo)簽以及其中文字)作為參考信息指導(dǎo)強制切割,原則為,body中內(nèi)容進(jìn)行切割,但是在title、meta中出現(xiàn)的詞匯應(yīng)盡量拆分到至少兩個自然段落中。段落相關(guān)性分析與段落重組,實現(xiàn)根據(jù)LSA訓(xùn)練的矩陣計算各小的自然(包括認(rèn)為強制切割的小段落)段落之間潛在語義關(guān)聯(lián)度,以平均代價最小原則尋找最優(yōu)合并小段落合并方案,以組成各個語義段落群(即段落級文本)。文本段落化描述,實現(xiàn)將原始文檔與段落級文本之間建立關(guān)聯(lián),以便于知道段落與文本之間的關(guān)系、段落之間的先后關(guān)系。最后將這種關(guān)系永久地序列化到存儲系統(tǒng)之中。
[0038]4、語義分析與標(biāo)注模塊
[0039]根據(jù)圖4所示,語義分析與標(biāo)注模塊實現(xiàn)段落分詞后,通過本體和語法規(guī)則,對分詞后的段落內(nèi)的詞或詞組進(jìn)行語義標(biāo)注,通過這種詞匯向語義概念的轉(zhuǎn)換(段落語義次回話描述體系),將段落從文本轉(zhuǎn)變?yōu)楦拍罱M合體,以便于進(jìn)行相應(yīng)語義計算,抽取語義維度以及維度強度。段落-維度結(jié)構(gòu)化關(guān)聯(lián)是將段落根據(jù)維度特征庫,計算出各種維度(包括內(nèi)置維度和用戶自定義維度)的強度值。結(jié)構(gòu)化的好處是所有段落就是格式統(tǒng)一的表達(dá)方式,便于檢索和計算,而在文檔自然詞匯空間中,這種檢索只能實現(xiàn)關(guān)鍵詞興致的搜索,無法體現(xiàn)語義信息,更不便于語義上的計算。通過段落-維度結(jié)構(gòu)化關(guān)聯(lián)這個過程,段落即可以在語義空間中即可以表示為一個點,然后將段落在語義空間上的點坐標(biāo)表示出來,并將其按照結(jié)構(gòu)化形式存儲到存儲系統(tǒng)中,即實現(xiàn)文檔在語義維度下的結(jié)構(gòu)化表示。段落語義信息結(jié)構(gòu)化是進(jìn)行維度識別的基礎(chǔ),語義詞匯與段落之間可實現(xiàn)標(biāo)準(zhǔn)的SQL互查詢。
[0040]4、維度識別模塊。
[0041]根據(jù)圖5所示,維度識別模塊是維度標(biāo)注段落的程序,實現(xiàn)段落的維度匹配、標(biāo)注、權(quán)重計算等工作。維度識別將已經(jīng)定義過的、客戶在特定分析目標(biāo)下關(guān)注的語義維度及其特征描述調(diào)閱出來,與語義空間中的段落特征進(jìn)行匹配與計算,得出各個語義維度在特定段落上的強度值。段落-維度強弱描述,是對段落的各個維度計算結(jié)果,聯(lián)系上下文關(guān)系和詞頻關(guān)系,對段落內(nèi)多次或者重復(fù)的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值。將所有的維度值綜合起來,就可以在維度空間中表達(dá)該段落,即實現(xiàn)段落的維度化描述。
[0042]5、LSA分析模塊。
[0043]根據(jù)圖6所示,LSA分析模塊首先在做好語料庫的上進(jìn)行潛在語義分析(LSA),分解后得到三個矩陣SVD,用S、D矩陣作為計算段落間關(guān)聯(lián)度計算、話題見關(guān)聯(lián)度、維度獨立性計算。段落間關(guān)聯(lián)度用于得出段落間語義關(guān)聯(lián)的強弱指標(biāo)值;話題間關(guān)聯(lián)度提供了一種潛在語義意義上的話題關(guān)聯(lián)情況的參考值,維度獨立性分析用以對語義維度的關(guān)聯(lián)性計算,這不但有利于對維度關(guān)聯(lián)情況的把握,而且為分析大文檔集合中的核心維度和話題核心變化以及趨勢預(yù)測提供參考依據(jù),有利于客戶整體把握情報的概貌,起到輿情監(jiān)控類似效果。
[0044]6、語義化文本描述模塊。
[0045]根據(jù)圖7所示,語義化文本描述模塊是在各個語義段落做完段落級語義分析之后,對整個文本文檔匯總語義信息和語義維度化描述該文檔的模塊。文檔特征描述是指,將文檔的特征計算出來,并用來描述該文檔。并且,通過特征,可以檢索、調(diào)用該文檔的特征。對于文檔層面的描述,主要參數(shù)為文檔語義向量、維度矢量以及文檔語義流動圖。維度互校正指的是對相鄰語義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語語義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開方,并處以維度和,作為矯正后的值。這樣做的結(jié)果是,相關(guān)聯(lián)的維度特征被增強,而無定義維度關(guān)聯(lián)的維度會被適當(dāng)削弱。本塊算法的邏輯基礎(chǔ)為自然語言段落間的起承轉(zhuǎn)合體現(xiàn)在語義空間和維度特征上,會存在相鄰段落間語義向量和維度的較強的關(guān)聯(lián)性。通過增強相關(guān)維度,抑制無關(guān)維度的計算,增強核心語義特征,并起到抑制噪聲的效果。
[0046]7、業(yè)務(wù)表現(xiàn)模塊。
[0047]根據(jù)圖8所示,業(yè)務(wù)表現(xiàn)模塊是情報系統(tǒng)內(nèi)核的Shell。它將用戶的情報需求邏輯表達(dá)給系統(tǒng),生成執(zhí)行腳本;另一方面,它根據(jù)執(zhí)行腳本,調(diào)用情報系統(tǒng)的核心執(zhí)行模塊,以實現(xiàn)用戶的情報收集與分析的需求。它的存在,使得本系統(tǒng)將極大減少二次開發(fā)的必要性,降低使用復(fù)雜程度,以便于推廣和維護(hù)。情報系統(tǒng)內(nèi)核允許不同維度調(diào)用和重新組合,而業(yè)務(wù)表現(xiàn)模塊則負(fù)責(zé)將用戶的搜集分析意向分解為這種調(diào)用和重新組合的腳本。通過執(zhí)行該腳本,直接調(diào)閱相關(guān)維度、文本文檔參數(shù),生成符合特定場景需求的文本語義分析邏輯。
[0048]8、UI 模塊。
[0049]根據(jù)圖9所示,描述了用戶UI模塊的大致結(jié)構(gòu)以及本模塊與其他模塊的關(guān)系。情報系統(tǒng)的主體框架輸出對象為永久化存儲系統(tǒng)。UI模塊不采用聯(lián)機事務(wù)處理邏輯,而是使用情報系統(tǒng)核心模塊的分析結(jié)果,根據(jù)用戶功能定義調(diào)閱相關(guān)數(shù)據(jù)并以合適的形式展現(xiàn)給最終情報消費者。UI模塊分為兩大類,一類為用戶根據(jù)實際情報搜集和分析的需求,將這種需求表達(dá)給系統(tǒng)的UI ;另一類是提供給情報最終消費者的UI。業(yè)務(wù)定義邏輯UI提供選擇數(shù)據(jù)源頭的參數(shù)選項、特別數(shù)據(jù)源頭以及顯而易見的無關(guān)文檔過濾過濾,以便于指導(dǎo)系統(tǒng)更加高效且精準(zhǔn)地發(fā)現(xiàn)情報數(shù)據(jù);此外還提供各維度組合關(guān)系等指導(dǎo)信息,以便于增強用戶特別關(guān)注的情報的權(quán)重提升、優(yōu)先提取與運算,提高清包褓分析精度。自定義維度Π,是用戶自己根據(jù)實際需要指定維度的UI界面,主要指定維度名稱、關(guān)聯(lián)關(guān)鍵詞,以及檢索、增刪改相關(guān)本體的Π界面(無需聯(lián)機有效)??梢暬M建指的是提供畫柱狀圖、餅狀圖、以及各類曲線圖的組建。這部分組建是支撐表格查閱或者趨勢可視化Π、熱點可視化Π的基礎(chǔ)。
【權(quán)利要求】
1.一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:包括網(wǎng)絡(luò)蜘蛛模塊、文本段落切片模塊、語義分析與標(biāo)注模塊、維度識別模塊、LSA分析模塊、語義化文本描述模塊、業(yè)務(wù)表現(xiàn)模塊和UI模塊八個模塊。
2.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述網(wǎng)絡(luò)蜘蛛模塊是根據(jù)情報搜集與分析目標(biāo),利用網(wǎng)絡(luò)蜘蛛,采集各類信息,并丟入存儲系統(tǒng)(默認(rèn)存儲系統(tǒng)為分布式存儲系統(tǒng)hadoop系統(tǒng))。
3.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述文本段落切片模塊對文本向段落切割,使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落。
4.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述語義分析與標(biāo)注模塊通過本體和語法規(guī)則,對分詞后的段落內(nèi)的詞或詞組進(jìn)行語義標(biāo)注,通過這種詞匯向語義概念的轉(zhuǎn)換(段落語義次回話描述體系),將段落從文本轉(zhuǎn)變?yōu)楦拍罱M合體,以便于進(jìn)行相應(yīng)語義計算,抽取語義維度以及維度強度。
5.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述維度識別模塊是維度標(biāo)注段落的程序,實現(xiàn)段落的維度標(biāo)注工作。
6.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述LSA分析模塊首先在做好語料庫的上進(jìn)行潛在語義分析(LSA),分解后得到三個矩陣SVD,用S、D矩陣作為計算段落間關(guān)聯(lián)度計算、話題見關(guān)聯(lián)度、維度獨立性計算。
7.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述語義化文本描述模塊是在各個語義段落做完段落級語義分析之后,對整個文本文檔匯總語義信息和語義維度化描述該文檔的模塊。
8.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述業(yè)務(wù)表現(xiàn)模塊是情報系統(tǒng)內(nèi)核的Shell,將用戶的情報需求邏輯表達(dá)給系統(tǒng),生成執(zhí)行腳本;最后調(diào)用情報系統(tǒng)的核心執(zhí)行模塊,以實現(xiàn)用戶的情報收集與分析的需求。
9.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述Π模塊為用戶根據(jù)實際情報搜集和分析的需求,將這種需求表達(dá)給系統(tǒng)。
10.根據(jù)權(quán)利要求1所述的一種互聯(lián)網(wǎng)段落級話題識別系統(tǒng),其特征在于:所述Π模塊為用戶根據(jù)實際情報搜集和分析的需求提供給情報最終消費者。
【文檔編號】G06F17/27GK103678273SQ201210358225
【公開日】2014年3月26日 申請日期:2012年9月14日 優(yōu)先權(quán)日:2012年9月14日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司