專利名稱:數(shù)據(jù)概況分析方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,更具體地,本發(fā)明涉及一種用于改善 數(shù)據(jù)概況分析結(jié)果的方法和系統(tǒng)。
背景技術(shù):
數(shù)據(jù)概況分析(profiling)涉及對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行關(guān)于 數(shù)據(jù)分布統(tǒng)計(jì)特性和數(shù)據(jù)質(zhì)量等方面的分析。它是任何數(shù)據(jù)集成處 理中的首要的不可缺少的步驟。在數(shù)據(jù)集成和數(shù)據(jù)清洗期間需要這. 種數(shù)據(jù)概況分析來幫助理解新的數(shù)據(jù)源。數(shù)據(jù)概況分析可以提供更 多詳細(xì)信息,諸如關(guān)于有效地址和具有丟失信息的字段的數(shù)目的報(bào) 告。數(shù)據(jù)概況分析報(bào)告還可以用于識(shí)別例如壞掉的文件的問題,以 及可用于識(shí)別需要進(jìn) 一 步研究并可能包含的新數(shù)據(jù)值。數(shù)據(jù)概況分析通常是一個(gè)勞動(dòng)力密集、資源消耗大、易于出錯(cuò)的 處理。近年來, 一些數(shù)據(jù)概況分析系統(tǒng)已經(jīng)可以將數(shù)據(jù)概況分析的 時(shí)間從幾個(gè)月極大地降低為幾周或甚至幾天。這些數(shù)據(jù)概況分析系 統(tǒng)為新的企業(yè)應(yīng)用、數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目等提供了較好的支持。現(xiàn)有的數(shù)據(jù)概況分析方法包括.模式分析,用于確定 一 個(gè)或多個(gè) 字段中的數(shù)據(jù)值是否與期望的格式或結(jié)構(gòu)匹配;列分析,用于識(shí)別 有關(guān)數(shù)據(jù)記錄的統(tǒng)計(jì)特性,例如數(shù)據(jù)中包含的null值的數(shù)目、數(shù)據(jù) 的最大/最小值、均值、標(biāo)準(zhǔn)差等;域分析,用于確定特定的數(shù)據(jù)值 是否是可接受的或是否在可以接受的范圍之內(nèi),例如關(guān)于性別的數(shù) 據(jù)只能為"男"或"女",而其他數(shù)據(jù)值是不可接受的。然而,上述現(xiàn)有的數(shù)據(jù)概況分析系統(tǒng)僅提供符號(hào)級(jí)的淺層的數(shù)據(jù) 分析。例如,將輸入的數(shù)據(jù)條目中的地址的某些字、詞、數(shù)字等進(jìn) 行分析,而不知道所分析的字、詞、數(shù)字等代表什么含義,即語義。在實(shí)際中,還需要在許多數(shù)據(jù)集成和數(shù)據(jù)清洗應(yīng)用中對(duì)例如組織名 稱、客戶地址等的各種自由文本的數(shù)據(jù)進(jìn)行數(shù)據(jù)概況分析。特別是, 多個(gè)自由文本的數(shù)據(jù)條目包括各種混合的數(shù)據(jù)類型,例如地址、組 織名稱、人名、電話號(hào)碼等的各種類型。發(fā)明內(nèi)容本發(fā)明提出 一 種數(shù)據(jù)概況分析方法,其適合于針對(duì)各種數(shù)據(jù)條目 集合特別是自由文本的數(shù)據(jù)條目集合進(jìn)行有效的數(shù)據(jù)概況分析而得 到語義結(jié)構(gòu)分布,例如,將地址按照國(guó)、省、市、區(qū)等具有語義的 單獨(dú)的部分進(jìn)行分析,得到相應(yīng)的具有語義特征的統(tǒng)計(jì)結(jié)果和數(shù)據(jù) 質(zhì)量分析結(jié)果等。本發(fā)明的目的是提出 一種數(shù)據(jù)概況分析方法和系統(tǒng),用于提供更 容易理解和使用的數(shù)據(jù)分析結(jié)果,同時(shí)降低了所需成本和資源。根據(jù)本發(fā)明的第一方面,提出了一種數(shù)據(jù)概況分析方法,包括 數(shù)據(jù)處理步驟,其讀取輸入的數(shù)據(jù)條目集合,根據(jù)數(shù)據(jù)條目的片段 及片段的語義特征,對(duì)片段進(jìn)行語義標(biāo)注;以及數(shù)據(jù)分析步驟,其 基于已進(jìn)行語義標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù) 據(jù)分析,從而得到分析結(jié)果。根據(jù)本發(fā)明的第二方面,提出了一種數(shù)據(jù)概況分析系統(tǒng),包括 數(shù)據(jù)處理裝置,用于讀取輸入的數(shù)據(jù)條目集合,根據(jù)數(shù)據(jù)條目的片 段及片段的語義特征,對(duì)片段進(jìn)行語義標(biāo)注;以及數(shù)據(jù)分析裝置, 與數(shù)據(jù)處理裝置連接,用于基于來自于數(shù)據(jù)處理裝置的已進(jìn)行語義 標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù)據(jù)分析,從而得 到分析結(jié)果。根據(jù)本發(fā)明的第三方面,提出了一種計(jì)算機(jī)程序產(chǎn)品,包括用于 執(zhí)行如下的代碼讀取輸入的數(shù)據(jù)條目集合,根據(jù)數(shù)據(jù)條目的片段 及片段的語義特征,對(duì)片段進(jìn)行語義標(biāo)注;以及基于已進(jìn)行語義標(biāo) 注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù)據(jù)分析,從而得到 分析結(jié)果。根據(jù)本發(fā)明,能夠更好地對(duì)自由文本進(jìn)行數(shù)據(jù)分析,并根據(jù)語義 對(duì)自由文本的數(shù)據(jù)條目集合進(jìn)行相應(yīng)的統(tǒng)計(jì)和分析。
通過以下結(jié)合附圖的說明,并且隨著對(duì)本發(fā)明的更全面了解,本發(fā)明的其他目的和效果將變得更加清楚和易于理解,其中圖1示出了根據(jù)本發(fā)明的實(shí)施方式的數(shù)據(jù)概況分析系統(tǒng)的總體 框圖;圖2示出了根據(jù)本發(fā)明的實(shí)施方式的數(shù)據(jù)概況分析系統(tǒng)的數(shù)據(jù) 處理裝置的框圖;圖3示出了根據(jù)本發(fā)明的實(shí)施方式的數(shù)據(jù)概況分析方法的流程圖;圖4示出了根據(jù)本發(fā)明的實(shí)施方式的輸入的數(shù)據(jù)條目集合的例子;圖5 (a)示出了現(xiàn)有的符號(hào)級(jí)數(shù)據(jù)概況分析方法應(yīng)用于圖4所示的輸入數(shù)據(jù)條目集合的結(jié)果;以及圖5 (b)示出了根據(jù)本發(fā)明的實(shí)施方式的數(shù)據(jù)概況分析方法應(yīng) 用于圖4所示的輸入數(shù)據(jù)條目集合的結(jié)果。在所有的上述附圖中,相同的標(biāo)號(hào)表示具有相同、相似或相應(yīng)的 特征或功能。
具體實(shí)施方式
在開始對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述之前首先介紹本發(fā)明 所涉及的幾個(gè)術(shù)語數(shù)據(jù)概況分析涉及對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行 關(guān)于數(shù)據(jù)分布統(tǒng)計(jì)特性和數(shù)據(jù)質(zhì)量等方面的分析。語義片段 (Semantic Fragment)指一個(gè)記號(hào)(token)序列,其代表獨(dú)立的語 義概念和信息單元。命名實(shí)體(Named Entity )指被命名的語義唯一 確定的信息單位,如人名、地名、才幾構(gòu)名、專有名詞、時(shí)間表達(dá)式、 數(shù)字表達(dá)式等。以下對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)描述。圖1示出了根據(jù)本發(fā)明的數(shù)據(jù)概況分析系統(tǒng)100的總體框圖。所述數(shù)據(jù)概況分析系統(tǒng)對(duì)輸入的數(shù)據(jù)條目集合特別是自由文本的數(shù)據(jù) 條目集合進(jìn)行分析,并最終得到語義數(shù)據(jù)概況分析報(bào)告。如圖l所示,該數(shù)據(jù)概況分析系統(tǒng)100包括數(shù)據(jù)輸入裝置101、數(shù)據(jù)處理裝置 102、數(shù)據(jù)分析裝置103以及分析結(jié)果輸出裝置104。數(shù)據(jù)輸入裝置101用于輸入將要進(jìn)行概況分析的數(shù)據(jù)條目集合, 該數(shù)據(jù)條目集合可以是包括各種數(shù)據(jù)類型及其混合的自由文本,例 如:l也址、組織名稱、人名、電話號(hào)碼或其他混合文本。數(shù)據(jù)處理裝置102與數(shù)據(jù)輸入裝置101連接,用于提取來自于數(shù) 據(jù)輸入裝置101的輸入數(shù)據(jù)的語義特征,并用基于聚類 (clustering-based )的標(biāo)注機(jī)制對(duì)數(shù)據(jù)條目的片段進(jìn)行語義標(biāo)注。在本實(shí)施方式中,如圖2所示,數(shù)據(jù)處理裝置102進(jìn)一步包括 語義特征提取裝置201,與數(shù)據(jù)輸入裝置101連接,用于提取來自于 數(shù)據(jù)輸入裝置101的輸入數(shù)據(jù)條目的片段及片段的語義特征;評(píng)分 裝置202,與語義特征提取裝置201連接,用于對(duì)來自于語義特征提 取裝置201所提取的每個(gè)數(shù)據(jù)條目?jī)?nèi)部的片段的信息粒度進(jìn)行評(píng)分; 以及,片段標(biāo)注裝置203,與評(píng)分裝置202連接,用于根據(jù)評(píng)分裝置 202提供的片段的信息粒度評(píng)分對(duì)每個(gè)數(shù)據(jù)條目?jī)?nèi)部的片段進(jìn)行語 義標(biāo)注。數(shù)據(jù)分析裝置103,與數(shù)據(jù)處理裝置102中的片段標(biāo)注裝置203 連接,按照用戶要求,對(duì)數(shù)據(jù)條目及來自于片段標(biāo)注裝置203的已 標(biāo)注的內(nèi)部語義片段進(jìn)行數(shù)據(jù)質(zhì)量和語義分布等統(tǒng)計(jì)分析。分析結(jié)果輸出裝置104,與數(shù)據(jù)分析裝置103連接,用于輸出數(shù)據(jù) 分析裝置103的分析結(jié)果,提供語義數(shù)據(jù)概況分析報(bào)告,例如預(yù)期出 現(xiàn)的語義模式、未預(yù)測(cè)到的語義模式、語義模式頻率、無效的語義 結(jié)構(gòu)等。圖3示出了根據(jù)本發(fā)明的數(shù)據(jù)概況分析方法的流程圖。圖3所示 的方法開始于步驟S300。然后,在步驟S301,從數(shù)據(jù)輸入裝置101輸入待進(jìn)行概況分析的數(shù)據(jù)。在本實(shí)施方式中,輸入圖4所示的舉 據(jù)條目集合,以下以該數(shù)據(jù)條目集合中的一個(gè)數(shù)據(jù)條目"北京西城區(qū)復(fù)興門外大街6號(hào)光大大廈10層1012光大銀行國(guó)際業(yè)務(wù)部,,為 例對(duì)本發(fā)明的方法進(jìn)行說明。然后,由數(shù)據(jù)處理裝置102對(duì)所述數(shù)據(jù)條目進(jìn)行處理 在步驟S302,語義特征提取裝置201將輸入的數(shù)據(jù)條目進(jìn)行分 詞,利用現(xiàn)有的成熟的漢語分詞技術(shù)得到的分詞結(jié)果是以下多個(gè)分 詞單元"北京"、"西城區(qū)"、"復(fù)興"、"門"、"外,,、"大 街"、"6"、"號(hào),,、"光"、"大"、"大廈,,、"10"、"層"、"1012"、"光"、"大,,、"銀行,,、"國(guó)際,,、"業(yè)務(wù)部,,。 在步驟S303,根據(jù)以上分詞單元,得到數(shù)據(jù)條目的片段集合,以盡 可能多地獲取該數(shù)據(jù)條目的語義信息,在本例中,得到的片段集會(huì) 包括"北京,,、"北京西城區(qū)","北京西城區(qū)復(fù)興門外大街"、"西城區(qū)"、"西城區(qū)復(fù)興門外大街"、"復(fù)興門外大街"、"大 廈"、"光大大廈"、"光大銀行"、"光大銀行國(guó)際"、"光大 銀行國(guó)際業(yè)務(wù)部,,、"銀行,,、"銀行國(guó)際,,、"銀行國(guó)際業(yè)務(wù)部"、"國(guó)際"、"國(guó)'際業(yè)務(wù)部,,等。然后,在步驟S304,提取數(shù)據(jù)條目 的片段集合中的每個(gè)片段的語義特征,得到片段特征集合,包括詞 單元集合、字符集合、短語集合、片段集合、上下文片段集合、命 名實(shí)體屬性等。評(píng)分裝置202基于從語義特征提取裝置提取的數(shù)據(jù)條目片段的 語義特征,對(duì)片段進(jìn)行評(píng)分。首先,在步驟S305,基于相應(yīng)的數(shù)據(jù) 條目中的外部鄰近片段和內(nèi)部特征,對(duì)所有片段進(jìn)行聚類。然后, 在步驟S306,評(píng)分裝置202基于以上的片段的聚類,對(duì)數(shù)據(jù)條目進(jìn) 一步聚類,其中,如果數(shù)據(jù)條目的一個(gè)或多個(gè)片段被分組到相同的 聚類中,則將所述數(shù)據(jù)條目分配到相同的社區(qū)中。舉例而言,假設(shè) 任意兩個(gè)數(shù)據(jù)條目el和e2,并且假設(shè)從數(shù)據(jù)條目el和e2中分別提 取片段f (el )和f (e2)。如果片段f (el )和f ( e2 )在相同的聚 類中,則數(shù)據(jù)條目el和e2將被分組到相同的社區(qū)。由于數(shù)據(jù)條目中的片段描述不同的語義信息,因此這些片段可能被分配到不同的聚類中。然后,評(píng)分裝置202基于這些片段聚類,根據(jù)片段類型和 片段的語義特征來多角度標(biāo)識(shí)一個(gè)數(shù)據(jù)條目所涉及的各個(gè)數(shù)據(jù)條目 社區(qū),得到多角度數(shù)據(jù)條目社區(qū)。在本實(shí)施方式中,可以將數(shù)據(jù)條目"北京西城區(qū)復(fù)興門外大街6 號(hào)光大大廈10層1012光大銀行國(guó)際業(yè)務(wù)部"分配到多角度數(shù)據(jù)條 目社區(qū),例如,"銀行,,相關(guān)的行業(yè)社區(qū),"西城區(qū),,相關(guān)的區(qū)域 社區(qū),"復(fù)興門大街"相關(guān)的位置社區(qū),"大廈"相關(guān)的地點(diǎn)社區(qū), 等等。每個(gè)社區(qū)通常共享一個(gè)主題,如果在同一社區(qū)中的大多數(shù)數(shù)據(jù)條 目都包含某些共同的詞單元,即中心詞,則這些中心詞可代表該社 區(qū)的主題。因此,計(jì)算社區(qū)包含的每個(gè)詞的分?jǐn)?shù)用以對(duì)中心詞進(jìn)行 排序。每個(gè)中心詞的分?jǐn)?shù)定義為該中心詞在該社區(qū)中每個(gè)數(shù)據(jù)條目 中的特征權(quán)重分?jǐn)?shù)之和。該分?jǐn)?shù)可以度量每個(gè)詞對(duì)將這些數(shù)據(jù)條目 分配到當(dāng)前社區(qū)的貢獻(xiàn)。在社區(qū)中可以按照中心詞分?jǐn)?shù)高低對(duì)中心 詞進(jìn)行排序,分?jǐn)?shù)高的中心詞可作為該社區(qū)的主題標(biāo)簽。在步驟S307,評(píng)分裝置202提取所述數(shù)據(jù)條目社區(qū)的中心詞排 序列表。例如,數(shù)據(jù)條目"北京西城區(qū)復(fù)興門外大街6號(hào)光大大廈10 層1012光大銀行國(guó)際業(yè)務(wù)部,,的被分配到的某些社區(qū)內(nèi)的中心詞排 序列表如下第一社區(qū)的中心詞列表("復(fù)興門大街"相關(guān)的位置社區(qū)) 大街10.35795332070613 復(fù)興7.556457078173965 門3.9872948842147444第二社區(qū)的中心詞列表("銀行,,相關(guān)的行業(yè)社區(qū)) 銀行5.957950540781106 支行3.79488912875卯25上述第 一社區(qū)中心詞列表即所述多角度數(shù)據(jù)條目社區(qū)中與"復(fù)興門大雄r相關(guān)的位置社區(qū),其中"大街"、"復(fù)興""門"均為該 第一社區(qū)中的中心詞,其中中心詞"大街"的分?jǐn)?shù)為"10.35795332070613"。接著,在步驟S308,評(píng)分裝置202基于相應(yīng)的數(shù)據(jù)條目社區(qū)的 中心詞排序列表,對(duì)該中心詞的信息粒度評(píng)分,即對(duì)該中心詞所包 含的信息量評(píng)分。例如,假設(shè)C(e)是數(shù)據(jù)條目e所在的數(shù)據(jù)條目社 區(qū)集合,社區(qū)Ci為C(e)內(nèi)的一個(gè)成員。社區(qū)Ci的公共主題詞表 Headword(Ci)定義為前k個(gè)中心詞。給定數(shù)據(jù)條目e中的詞單元Wi, 則詞單元Wi的信息粒度評(píng)分Score(Wi, e)計(jì)算如下S 脂g/z/(W , C》* ,洲C,. , e) S匿,,,e) = C'eC(f 一)_ ( j )C,eC(e)其中,式(1 )中的Weight(Wi,Cj)表示詞單元Wi在/>共主題詞 表Headword(Ci)中的權(quán)重,Weight(Cj, e)表示社區(qū)Cj在C(e)中的權(quán) 重,CommunitySize(Ci)表示社區(qū)Ci的大小(即,該社區(qū)中數(shù)據(jù)條目 的數(shù)目),CommunityNum(e)表示包含數(shù)據(jù)條目e的社區(qū)的數(shù)目。然后,在步驟S309,片段標(biāo)注裝置203根據(jù)上述評(píng)分來標(biāo)注每 個(gè)數(shù)據(jù)條目中的語義片段,提取特有的和普通的語義片段。如果數(shù) 據(jù)條目e中的詞單元Wi的評(píng)分小于預(yù)定的閾值,則詞單元Wi為數(shù) 據(jù)條目e中的"特有信息單元"。否則,詞單元Wi為數(shù)據(jù)條目e中 的"普通信息單元"。較大的數(shù)據(jù)條目社區(qū)中排名靠前的中心詞通常指示它們是更加 常見的語義概念,并更加獨(dú)立于特定數(shù)據(jù)條目。所有普通信息單元都經(jīng)常出現(xiàn)在其他數(shù)據(jù)條目中,因此他們被標(biāo)注為獨(dú)立片段。所有 連續(xù)的特有信息單元都合并到較大的特有語義片段。例如,在包含 組織的數(shù)據(jù)條目中,普通語義片段描述其一般的語義特征,例如, 辦公室位置、組織類型等,而特有語義片段描述其特定的唯一語義 特征,例如,所處產(chǎn)業(yè)、唯一名稱等。然后,在步驟S310,片段標(biāo)注裝置203根據(jù)每個(gè)片段的語義特 征,如地點(diǎn)、組織后綴等線索,對(duì)語義片段的類型進(jìn)行標(biāo)注,即對(duì); 所述片段進(jìn)行語義標(biāo)注。在本實(shí)施方式中,"北京西城區(qū)復(fù)興門外大 街6號(hào)光大大廈10層1012光大銀行國(guó)際業(yè)務(wù)部"的語義片段的標(biāo)注 如下"北京/City,,、"西城區(qū)/District"、"復(fù)興門外大街/Street"、"6號(hào)/StreetNo"、"光大大廈/Building" 、 "10層1012/RoomNo"、"光大銀行/Org,,、"國(guó)際業(yè)務(wù)部/Department"。在步驟S311,數(shù)據(jù)分析裝置103基于標(biāo)注的語義片段,進(jìn)行如下 分析分析數(shù)據(jù)條目集合中的語義特征分布,諸如數(shù)據(jù)條目集合中 的內(nèi)部語義結(jié)構(gòu)特征,預(yù)期的語義才莫式、語義才莫式頻率、未預(yù)測(cè)到 的語義模式、無效的語義結(jié)構(gòu)等;以及分析數(shù)據(jù)條目集合的質(zhì)量, 例如期望的數(shù)據(jù)覆蓋率、不期望的數(shù)據(jù)類型、無效數(shù)據(jù)值等。在步驟S312,分析結(jié)果輸出裝置104輸出數(shù)據(jù)分析裝置103的結(jié)果, 得到語義數(shù)據(jù)概況分析報(bào)告。最后,在步驟S313結(jié)束本發(fā)明的方法。 圖5 (a)示出了現(xiàn)有的符號(hào)級(jí)數(shù)據(jù)概況分析方法應(yīng)用于圖4所 示的輸入數(shù)據(jù)條目集合的結(jié)果。例如,對(duì)于給出的數(shù)據(jù)條目集合, 現(xiàn)有的符號(hào)級(jí)數(shù)據(jù)概況分析技術(shù)得到的結(jié)果有l(wèi))詞頻統(tǒng)計(jì),例如"市,,在所述數(shù)據(jù)條目集合中出現(xiàn)頻率為5; 2)數(shù)字串統(tǒng)計(jì),例如 數(shù)字串計(jì)數(shù)為13 (即出現(xiàn)過13次數(shù)字串);3)字符級(jí)模式分析, 例如純文本串為5,等等??梢?,利用符號(hào)級(jí)的分析模式,不能得到 相關(guān)的語義分析信息,例如,不能知道該數(shù)據(jù)條目集合中街道的數(shù) 目、電話號(hào)碼的數(shù)目、地點(diǎn)+聯(lián)系號(hào)碼之類的混合數(shù)據(jù)類型的數(shù)目等用于圖4所示的輸入數(shù)據(jù)條目集合的結(jié)果??梢?,根據(jù)本發(fā)明,可以得到語義單元統(tǒng)計(jì)結(jié)果,例如街道計(jì)數(shù)為9;數(shù)字的單元統(tǒng)計(jì),例 如電話號(hào)碼的計(jì)數(shù)為1,電話號(hào)碼的長(zhǎng)度為7位數(shù),移動(dòng)電話的號(hào)碼 計(jì)數(shù)為3,移動(dòng)電話的長(zhǎng)度為11位數(shù);語義級(jí)模式分析,例如地點(diǎn) 十聯(lián)系號(hào)碼出現(xiàn)次數(shù)為3,等等。由此可知,本發(fā)明的語義級(jí)數(shù)據(jù)概況分析更適用于針對(duì)自由文本 的數(shù)據(jù)條目集合,并更有利于進(jìn)一步的數(shù)據(jù)集成和數(shù)據(jù)清洗來理解 新的數(shù)據(jù)源。此外,本發(fā)明的數(shù)據(jù)概況分析方法和系統(tǒng)還可以提供 更多詳細(xì)信息,并可用于識(shí)別需要進(jìn)一步研究并可能包含的新數(shù)據(jù) 值。本發(fā)明還涉及一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括用 于執(zhí)行如下的代碼讀取輸入的數(shù)據(jù)條目集合,根據(jù)數(shù)據(jù)條目的片 段及片段的語義特征,對(duì)片段進(jìn)行語義標(biāo)注;以及基于已進(jìn)行語義 標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù)據(jù)分析,從而得 到分析結(jié)果。這樣的計(jì)算機(jī)程序產(chǎn)品可以存儲(chǔ)在一個(gè)存儲(chǔ)載體中。 以上提供的本發(fā)明的說明書的目的是為了說明和描述,而不是用來窮舉或?qū)⒈景l(fā)明限制為所公開的形式。對(duì)本領(lǐng)域的普通技術(shù)人員而言,許多修改和變更都是顯而易見的。例如,數(shù)據(jù)處理裝置10 2也可以使用命名實(shí)體識(shí)別引擎或某些統(tǒng)計(jì)的方法來標(biāo)識(shí)語義片段。因此,選擇并描述實(shí)施方式是為了更好地解釋本發(fā)明的原理及其 實(shí)際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員明白,在不脫離本發(fā)明實(shí)質(zhì)的范圍之內(nèi)。
權(quán)利要求
1. 一種數(shù)據(jù)概況分析方法,包括數(shù)據(jù)處理步驟,用于讀取輸入的數(shù)據(jù)條目集合,根據(jù)所述數(shù)據(jù)條目的片段及所述片段的語義特征,對(duì)所述片段進(jìn)行語義標(biāo)注;以及數(shù)據(jù)分析步驟,用于基于所述已進(jìn)行語義標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù)據(jù)分析,從而得到分析結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,其中所述數(shù)據(jù)處 理步驟包括語義特征提取步驟,其提取輸入的數(shù)據(jù)條目的片段及所述片段的 語義特征;評(píng)分步驟,其根據(jù)所述片段的語義特征,對(duì)所述片段進(jìn)行評(píng)分; 以及片段標(biāo)注步驟,其根據(jù)片段的評(píng)分而對(duì)所述片段進(jìn)行語義標(biāo)注。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語義特征提 取步驟進(jìn)一步包括將輸入的數(shù)據(jù)條目進(jìn)行分詞,得到多個(gè)分詞單元; 根據(jù)所述分詞單元,得到所述數(shù)據(jù)條目的片段集合;以及 提取所述片段集合的每個(gè)片段的語義特征,得到所述片段集合的 語義特4正集合。
4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述評(píng)分步 驟進(jìn)一步包括基于對(duì)片段的聚類,將數(shù)據(jù)條目聚類為多角度數(shù)據(jù)條目社區(qū);以及對(duì)多角度數(shù)據(jù)條目社區(qū)的每個(gè)數(shù)據(jù)條目社區(qū)的中心詞進(jìn)行評(píng)分。
5. 根據(jù)權(quán)利要求2至4中任何一個(gè)所述的方法,其特征在于, 所述片段標(biāo)注步驟進(jìn)一步包括根據(jù)對(duì)所述片段的評(píng)分,得到特有的和普通的片段; 將連續(xù)的特有的片段合并到較大的特有片段;以及根據(jù)每個(gè)片段的語義特征,對(duì)所述片段的類型進(jìn)行語義標(biāo)注。
6. —種數(shù)據(jù)概況分析系統(tǒng),包括數(shù)據(jù)處理裝置,用于讀取輸入的數(shù)據(jù)條目集合,根據(jù)所述數(shù)據(jù)條 目的片段及所述片段的語義特征,對(duì)所述片段進(jìn)行語義標(biāo)注;以及數(shù)據(jù)分析裝置,與所述數(shù)據(jù)處理裝置連接,用于基于來自于所迷 數(shù)據(jù)處理裝置的已進(jìn)行語義標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn) 行語義級(jí)數(shù)據(jù)分析,從而得到分析結(jié)果。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述數(shù)據(jù)處理裝 置包括語義特征提取裝置,用于提取輸入的數(shù)據(jù)條目的片段A所述片段 的語義特征;評(píng)分裝置,與所述語義特征提取裝置連接,用于根據(jù)來自于所述 語義特征提取裝置的所述片段的語義特征,對(duì)所述片段進(jìn)行評(píng)分; 以及片段標(biāo)注裝置,與所述評(píng)分裝置連接,用于根據(jù)來自于所述評(píng)分 裝置的片段的評(píng)分而對(duì)所述片段進(jìn)行語義標(biāo)注。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述語義特征提 取裝置進(jìn)一步包括用于將輸入的數(shù)據(jù)條目進(jìn)行分詞以得到多個(gè)分詞單元的裝置; 用于根據(jù)所述分詞單元而得到所述數(shù)據(jù)條目的片段集合的裝置; 以及用于提取所述片段集合的每個(gè)片段的語義特征,得到所述片段集 合的語義特征集合的裝置。
9. 根據(jù)權(quán)利要求7或8所述的系統(tǒng),其特征在于,所述評(píng)分裝 置進(jìn)一步包括用于基于對(duì)片段的聚類,將數(shù)據(jù)條目聚類為多角度數(shù)據(jù)條目社區(qū) 的裝置;以及用于對(duì)多角度數(shù)據(jù)條目社區(qū)的每個(gè)數(shù)據(jù)條目社區(qū)的中心詞進(jìn)軒 評(píng)分的裝置。
10. 根據(jù)權(quán)利要求7至9中任何一個(gè)所述的系統(tǒng),其特征在于, 所述片段標(biāo)注裝置進(jìn)一步包括用于根據(jù)對(duì)所述片段的評(píng)分,得到特有的和普通的片段的裝置;用于將連續(xù)的特有的片段合并到較大的特有片段的裝置;以及 用于根據(jù)每個(gè)片段的語義特征而對(duì)所述片段的類型進(jìn)行語義標(biāo)注的裝置。
11、 一種計(jì)算機(jī)程序產(chǎn)品,包括用于執(zhí)行前述權(quán)利要求1-5中任 一項(xiàng)方法的步驟的程序代碼。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)概況分析方法和系統(tǒng)。其中所述系統(tǒng)包括數(shù)據(jù)處理裝置,用于讀取輸入的數(shù)據(jù)條目,并根據(jù)所述數(shù)據(jù)條目的片段及片段的語義特征,對(duì)所述片段進(jìn)行語義標(biāo)注;以及數(shù)據(jù)分析裝置,與數(shù)據(jù)處理裝置連接,用于基于已進(jìn)行語義標(biāo)注的片段,對(duì)輸入的數(shù)據(jù)條目集合進(jìn)行語義級(jí)數(shù)據(jù)分析,從而得到分析結(jié)果。根據(jù)本發(fā)明的方法和系統(tǒng),能夠更好地對(duì)自由文本進(jìn)行數(shù)據(jù)分析,并根據(jù)語義對(duì)自由文本的數(shù)據(jù)條目集合進(jìn)行相應(yīng)的統(tǒng)計(jì)和分析。
文檔編號(hào)G06F17/27GK101226523SQ20071000195
公開日2008年7月23日 申請(qǐng)日期2007年1月17日 優(yōu)先權(quán)日2007年1月17日
發(fā)明者中 蘇, 郭宏蕾, 郭志立 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司