專利名稱:數(shù)據(jù)語義化器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及一種為數(shù)據(jù)提供語義信息的方法和計(jì)算機(jī)系統(tǒng)。更具體地,本發(fā)明涉及一種用語義注解大量半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)的方法和計(jì)算機(jī)系統(tǒng)。
背景技術(shù):
包括計(jì)算、網(wǎng)絡(luò)和檢測設(shè)備等在內(nèi)的技術(shù)進(jìn)步已導(dǎo)致大量的數(shù)據(jù)被產(chǎn)生。通常需要對收集的數(shù)據(jù)進(jìn)行分析,而且傳統(tǒng)上這在單個(gè)應(yīng)用內(nèi)完成。然而,在諸如生物情報(bào)學(xué)、氣象學(xué)等許多領(lǐng)域中,由一個(gè)應(yīng)用產(chǎn)生/收集的數(shù)據(jù)可能需要進(jìn)一步用于其他應(yīng)用中。此外,往往希望各學(xué)科間的合作,尤其是在科學(xué)界。因此,一個(gè)關(guān)鍵問題是交換信息的能力方面的協(xié)同性(句法協(xié)同性)和使用被交換的信息的能力方面的協(xié)同性(語義協(xié)同性)。IEEE標(biāo)準(zhǔn)計(jì)算機(jī)詞典IEEE標(biāo)準(zhǔn)計(jì)算機(jī)術(shù)語表匯編(ACompilation of IEEE Standard Computer Glossaries),IEEE,1990。
涉及信息的基于本體的表達(dá)的常規(guī)語義環(huán)球網(wǎng)(即“網(wǎng)絡(luò)”)技術(shù)使得計(jì)算機(jī)和人類之間能夠合作,并且可以用來幫助數(shù)據(jù)共享和管理。通過本體表達(dá)(ontological representation),領(lǐng)域中的實(shí)體和關(guān)系的建模使得軟件和計(jì)算機(jī)可以前所未有地處理信息[www.sys-con.com/xml/article.cfm?id=577,2004年10月22日檢索]。常規(guī)語義網(wǎng)絡(luò)技術(shù)是環(huán)球網(wǎng)的擴(kuò)展,該技術(shù)依賴于對網(wǎng)頁的檢索并且將該網(wǎng)頁帶到語義網(wǎng)頁級。因此,常規(guī)語義網(wǎng)頁技術(shù)處理被認(rèn)為是完全結(jié)構(gòu)化文件的網(wǎng)頁,網(wǎng)頁為標(biāo)簽文件(tagged document),諸如超文本鏈接標(biāo)記語言(HTML)文件。此外,常規(guī)語義網(wǎng)絡(luò)技術(shù)僅用于表達(dá),而不用于任務(wù)計(jì)算(即,計(jì)算設(shè)備任務(wù)處理的計(jì)算設(shè)備)。WEB SCRAPER軟件是將作為結(jié)構(gòu)化文件的網(wǎng)頁帶到語義級的常規(guī)語義網(wǎng)絡(luò)技術(shù)的一個(gè)示例。然而,將語義加入半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)(諸如平面文件(flat file))中并非微不足道的任務(wù),而且傳統(tǒng)上這個(gè)功能以逐案(case-by-case)的方式(每個(gè)輸入數(shù)據(jù)地)完成,這種方式可能枯燥并且易于出錯(cuò)。即使當(dāng)自動(dòng)進(jìn)行注解時(shí),這種自動(dòng)也僅限于要被注解的特定領(lǐng)域。
因此,現(xiàn)有的針對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)注解的方法完全依賴用戶的知識和手工處理,這不適合于注解任意格式和任意領(lǐng)域的大量數(shù)據(jù),因?yàn)檫@種現(xiàn)有的數(shù)據(jù)注解方法太枯燥并易于出錯(cuò)以致于無法用于任意格式和任意領(lǐng)域的大量數(shù)據(jù)。例如,現(xiàn)有的方法,諸如GENE ONTOLOGY(GO)注解[www.geneontology.org,2004年10月22日檢索]和南加州大學(xué)信息科學(xué)研究所(ISI)的TRELLIS[www.isi.edu/ikcap/trellis,2004年10月22日檢索],完全依賴用戶的知識、是數(shù)據(jù)專用的,并且基于每個(gè)輸入數(shù)據(jù),這會(huì)枯燥且易于出錯(cuò)。具體地,GENE ONTOLOGY(GO)提供用基因本體注解的語義數(shù)據(jù),但是GO僅能用于基因產(chǎn)品并且嚴(yán)重依賴基因產(chǎn)品方面的專業(yè)知識(即,基本為手工注解,并且即使提供了某種類型的自動(dòng)化,該自動(dòng)化也僅限于或?qū)S糜诨虍a(chǎn)品領(lǐng)域)。此外,在TRELLIS中,用戶通過觀察、觀點(diǎn)和結(jié)論將語義注解加入文件中,但是TRELLIS同樣嚴(yán)重依賴于用戶基于他們的專業(yè)知識來加入新的知識,并且在TRELLIS中,語義注解導(dǎo)致每個(gè)被考察的文件一個(gè)語義實(shí)例。
為了充分利用半結(jié)構(gòu)化或者非結(jié)構(gòu)化格式的任何收集數(shù)據(jù)用于成功的數(shù)據(jù)共享和管理,非常需要更容易地用語義注解數(shù)據(jù)的方法。
發(fā)明內(nèi)容
一種計(jì)算機(jī)系統(tǒng),幫助用戶用語義注解包括半結(jié)構(gòu)化到非結(jié)構(gòu)化的電子數(shù)據(jù)在內(nèi)的任何格式、任何領(lǐng)域的大量電子數(shù)據(jù)。因此,本發(fā)明提供了任何格式和任何領(lǐng)域的電子數(shù)據(jù)的本體表達(dá)。
這里說明的實(shí)施例是計(jì)算機(jī)實(shí)現(xiàn)的方法和系統(tǒng)定義一組注解元素,以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù);按照所定義的注解元素集和輸入數(shù)據(jù)的樣本,生成映射規(guī)則;通過對輸入數(shù)據(jù)應(yīng)用該映射規(guī)則將概念映射到輸入數(shù)據(jù);并且基于概念對輸入數(shù)據(jù)的映射生成輸入數(shù)據(jù)的語義實(shí)例。
根據(jù)所述實(shí)施例的一方面,將概念映射到輸入數(shù)據(jù)的該組注解元素是相應(yīng)于輸入數(shù)據(jù)選出的本體、從選出的本體中選出的本體概念、樣本輸入數(shù)據(jù)中的詞或詞組(作為數(shù)據(jù)點(diǎn))對從選出的本體中選出的本體概念的映射、以及與樣本輸入數(shù)據(jù)的結(jié)構(gòu)相關(guān)的被映射詞或詞組的范式。
以上和附加的方面和優(yōu)點(diǎn)部分將在下面的說明中闡明,部分將從該說明中明了或通過實(shí)踐所描述的實(shí)施例來領(lǐng)會(huì)。
通過下文描述和主張的結(jié)構(gòu)和操作的細(xì)節(jié),這些以及其他方面和優(yōu)點(diǎn)隨后將清楚明了,對附圖的參照也構(gòu)成其一部分,其中相同的附圖標(biāo)記通篇代表相同的部分。
圖1是根據(jù)本發(fā)明的實(shí)施例的語義化數(shù)據(jù)的流程圖。
圖2是根據(jù)本發(fā)明的實(shí)施例的語義化作為輸入電子數(shù)據(jù)的電郵文本的流程圖。
圖3是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)語義化器的功能框圖。
圖4是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)語義化器的計(jì)算機(jī)顯示的圖形用戶界面的示例圖。
圖5是根據(jù)本發(fā)明的實(shí)施例對作為要被注解的輸入電子數(shù)據(jù)的示例的生物信息數(shù)據(jù)進(jìn)行語義化的流程圖。
圖6-7是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)語義化器對作為輸入電子數(shù)據(jù)的生物信息進(jìn)行語義化的圖形用戶界面的示例圖。
圖8A-8H是根據(jù)本發(fā)明實(shí)施例的語義實(shí)例的輸出的示例。
圖9是被任務(wù)計(jì)算環(huán)境使用以在計(jì)算設(shè)備網(wǎng)絡(luò)中實(shí)現(xiàn)任務(wù)計(jì)算的計(jì)算設(shè)備網(wǎng)絡(luò)和本發(fā)明的數(shù)據(jù)語義化器的圖。
具體實(shí)施例方式
現(xiàn)在將具體說明本發(fā)明的實(shí)施例,這些實(shí)施例的示例在附圖中示出。下面通過參照附圖描述實(shí)施例以解釋本發(fā)明。
圖1是根據(jù)本發(fā)明的實(shí)施例的、對數(shù)據(jù)進(jìn)行語義化的流程圖。本發(fā)明提供了一種計(jì)算機(jī)系統(tǒng)作為數(shù)據(jù)語義化器100,幫助用戶用語義注解包括半結(jié)構(gòu)化到非結(jié)構(gòu)化電子數(shù)據(jù)在內(nèi)的任何格式、任何領(lǐng)域的大量電子數(shù)據(jù)108。數(shù)據(jù)語義化器100使用直觀和有效的方法用語義注解任何格式、任何領(lǐng)域的數(shù)據(jù)108,從而該數(shù)據(jù)集可以被輸入它們的知識庫(知識庫是解決問題所需的事實(shí)和規(guī)則的集合)。
例如,數(shù)據(jù)語義化器100可以用于結(jié)構(gòu)化的數(shù)據(jù)。作為另一個(gè)示例,當(dāng)數(shù)據(jù)為很好理解的格式時(shí),可以使用數(shù)據(jù)語義化器100,但是來自不同軟件應(yīng)用程序的各個(gè)數(shù)據(jù)輸出可能是獨(dú)特的??梢钥吹?,各應(yīng)用(諸如生物信息學(xué)分析應(yīng)用)以很好理解的格式生成數(shù)據(jù),但是該應(yīng)用程序的每次運(yùn)行可能是獨(dú)特的。例如,在生物信息學(xué)的情況下,BASIC LOCALALIGNMENT SEARCH TOOL(基本本地排列搜索工具(BLAST),該程序?qū)⑿滦蛄信c以前描繪的序列進(jìn)行比較)的輸出隨輸入?yún)?shù)而改變,并且該輸出在匹配序列的數(shù)量和匹配序列的位置等方面不同。美國國家健康研究所的國家生物技術(shù)信息中心(NCBI)提供了關(guān)于BLAST的信息[www.ncbi.nih.gov/Education/BLASTinfo/information3.html,2004年10月22日檢索]以及同樣由Altschul等說明的Basic Local AlignmentSearch Tool,Journal of Molecular Biology,251403-410。與網(wǎng)頁不同,在BLAST的輸出中沒有使用特殊的標(biāo)簽或類似的機(jī)制以標(biāo)識數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)語義化器100基于選出的本體創(chuàng)建這種半結(jié)構(gòu)化數(shù)據(jù)的語義實(shí)例。一旦提供了語義標(biāo)簽,就可以標(biāo)識數(shù)據(jù)屬性(這些數(shù)據(jù)屬性原本因輸入和輸出數(shù)據(jù)中很多變化而分辨不清)。例如,在BLAST的情況中,可以與該多個(gè)輸出表達(dá)無關(guān)地識別實(shí)際的基因序列。因此,當(dāng)沒有特殊標(biāo)簽或者類似機(jī)制用來標(biāo)識數(shù)據(jù)的結(jié)構(gòu)時(shí),可以通過允許本體挑選對任意領(lǐng)域中被視為半結(jié)構(gòu)化到非結(jié)構(gòu)化格式的數(shù)據(jù)使用數(shù)據(jù)語義化器100。
圖1是在控制計(jì)算機(jī)的計(jì)算機(jī)軟件中實(shí)現(xiàn)的數(shù)據(jù)語義化器100用語義注解任何格式、任何領(lǐng)域的電子數(shù)據(jù)108的流程圖。在圖1中,數(shù)據(jù)語義化器100執(zhí)行的語義化流程包括規(guī)則集生成102(在虛線框中示出)和語義實(shí)例生成104(在雙實(shí)線多邊形中示出)兩個(gè)語義化操作。規(guī)則集生成102可以是一次(單次)處理(但不限于單次處理)并且可以,例如由領(lǐng)域?qū)<一蛘呦到y(tǒng)管理員完成。領(lǐng)域?qū)<一蛘呦到y(tǒng)管理員可以是人、計(jì)算機(jī)實(shí)現(xiàn)或者其任意組合。操作102生成語義化規(guī)則集110。一旦在操作102獲得規(guī)則集110,則在操作104可以基于該規(guī)則集110生成語義實(shí)例118?!罢Z義實(shí)例”118是基于概念對個(gè)體項(xiàng)目(individual item)的描述集。項(xiàng)目可以是輸入數(shù)據(jù)108的任何部分。
更具體地,如圖1中所示,本發(fā)明提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括在操作106,定義了一組注解元素(實(shí)現(xiàn)為語義化規(guī)則編輯器106)以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù)108。操作106基本上使得可以捕獲電子數(shù)據(jù)108的結(jié)構(gòu)。根據(jù)所定義的該注解元素集和輸入數(shù)據(jù)108的樣本114生成映射規(guī)則110,以捕獲輸入數(shù)據(jù)108的結(jié)構(gòu)并將概念映射到輸入數(shù)據(jù)108(即,確定/生成語義化或映射規(guī)則集110)。操作112包括通過將映射規(guī)則110用于輸入數(shù)據(jù)108來將概念映射到輸入數(shù)據(jù)108,以基于對輸入數(shù)據(jù)108使用的映射規(guī)則110生成輸入數(shù)據(jù)108的語義實(shí)例118。用于將概念映射到輸入數(shù)據(jù)108或者用于捕獲輸入數(shù)據(jù)108結(jié)構(gòu)的該組注解元素在語義化規(guī)則編輯器106中實(shí)現(xiàn),該組注解元素包括輸入數(shù)據(jù)108的選出樣本114、與輸入數(shù)據(jù)108對應(yīng)的選出本體116、從選出的本體116中選出的本體概念、樣本輸入數(shù)據(jù)114中的詞或詞組(即成為數(shù)據(jù)點(diǎn)示例的詞或詞組)到從選出的本體116中選出的本體概念的映射、以及與樣本輸入數(shù)據(jù)114的結(jié)構(gòu)相關(guān)的被映射的詞或詞組(即,被映射到從選出的本體116中選出的本體概念的被選出的樣本輸入數(shù)據(jù)114中的詞組和/或詞組區(qū))的范式(pattern)。
本體116可以是按照電子信息格式(諸如網(wǎng)絡(luò)本體語言(OWL)文件格式)在計(jì)算機(jī)可讀介質(zhì)中存儲(chǔ)的一個(gè)或者更多個(gè)相同和/或不同的領(lǐng)域本體。因此,數(shù)據(jù)語義化器100不限于生成對應(yīng)單個(gè)本體116的語義實(shí)例118,數(shù)據(jù)語義化器100可以生成不同的數(shù)據(jù)部分映射到多個(gè)不同的本體116的語義實(shí)例118。例如,考慮輸入數(shù)據(jù)108字符串“富士通美國實(shí)驗(yàn)室(FLA)的研究人員領(lǐng)導(dǎo)一個(gè)任務(wù)計(jì)算項(xiàng)目。他在FLA的在職期間還涉足LSM、Agent和其他項(xiàng)目。他還是馬里蘭大學(xué)(UM)指導(dǎo)幾名學(xué)生的副教授”。為了注解這樣的數(shù)據(jù)108,很可能涉及FLA本體116(例如項(xiàng)目管理、項(xiàng)目涉及屬性等)和UM本體116(例如指導(dǎo)的學(xué)生、課題屬性等)中定義的本體概念。
用以將概念映射到輸入數(shù)據(jù)108或者捕獲輸入數(shù)據(jù)108的結(jié)構(gòu)的映射規(guī)則110的生成包括在操作106,建議將概念(即從選出的本體116中選出的本體概念)映射到樣本輸入數(shù)據(jù)114中的詞或詞組的樣本映射,作為輸入數(shù)據(jù)108的映射規(guī)則,并選擇一所建議的映射作為輸入數(shù)據(jù)108的映射規(guī)則或者輸入數(shù)據(jù)108的數(shù)據(jù)結(jié)構(gòu)規(guī)則。在操作112,將映射規(guī)則110應(yīng)用于輸入數(shù)據(jù)108以將概念映射到輸入數(shù)據(jù)108以輸出語義實(shí)例118。因此,“映射規(guī)則”(圖1中的語義化規(guī)則集)110基于與輸入數(shù)據(jù)108的結(jié)構(gòu)相關(guān)的詞或詞組的映射。樣本輸入數(shù)據(jù)114可以是例如樣本數(shù)目個(gè)打開的輸入數(shù)據(jù)文件114(例如,上百個(gè)文件中的10個(gè)各自包含一封電郵的文件),或者可以是一個(gè)包含多個(gè)記錄的輸入數(shù)據(jù)文件114(例如多個(gè)文件中的一個(gè)包含上百封電郵的文件,雖然用戶用到該一個(gè)文件中的一封電郵,但是系統(tǒng)建議在文件其余部分中出現(xiàn)的所有電郵地址或者電郵地址的任意子集)。
數(shù)據(jù)語義化器100解決的一個(gè)主要挑戰(zhàn)是捕獲半結(jié)構(gòu)化到非結(jié)構(gòu)化電子數(shù)據(jù)108的結(jié)構(gòu)以進(jìn)行語義化。當(dāng)不完全知道數(shù)據(jù)格式時(shí),數(shù)據(jù)語義化器100在操作106使用數(shù)據(jù)108的少量代表性樣本114,作為數(shù)據(jù)結(jié)構(gòu)捕獲元素,或者注解元素。作為另一個(gè)數(shù)據(jù)結(jié)構(gòu)捕獲元素,在操作106,進(jìn)行選出的樣本輸入數(shù)據(jù)114中的詞組/詞組區(qū)到從選出的本體116中選出的本體概念的映射。此外,在操作106,作為捕獲輸入數(shù)據(jù)結(jié)構(gòu)的另外兩個(gè)元素,位置信息、規(guī)則表達(dá)(regular expression),或者其任意組合用在規(guī)則的生成中以在選出的樣本輸入數(shù)據(jù)114中定位詞組和/或確定該詞組區(qū),該詞組被映射到從選出的本體116中選出的本體概念。
基于位置和基于規(guī)則表達(dá)的兩個(gè)示例數(shù)據(jù)結(jié)構(gòu)捕獲元素不使用數(shù)據(jù)格式的在先知識,也不用來自用戶的幫助。然而,數(shù)據(jù)語義化器100可以有效地(例如,簡單、迅速和高效地)并入來自用戶的幫助,這將使得捕獲數(shù)據(jù)108結(jié)構(gòu)的處理更為容易。有了具有領(lǐng)域?qū)I(yè)知識的用戶和選出的本體116的幫助,數(shù)據(jù)語義化器100生成語義化規(guī)則集110,然后使用該語義化規(guī)則集為大量半結(jié)構(gòu)化到非結(jié)構(gòu)化的數(shù)據(jù)108生成語義實(shí)例。在注解數(shù)據(jù)的過程中,可能不會(huì)完全消除與人類領(lǐng)域?qū)<业娜祟惤换?,但是在對任意格式、任意領(lǐng)域的大量數(shù)據(jù)108進(jìn)行語義化中,數(shù)據(jù)語義化器100充分減少了人類專家的幫助并降低了依賴性。因此,數(shù)據(jù)語義化器100支持為應(yīng)用數(shù)據(jù)108提供語義信息的半自動(dòng)方法。
數(shù)據(jù)語義化器100的作用是用語義注解數(shù)據(jù)以將數(shù)據(jù)帶到較高級的抽象。低級數(shù)據(jù)可以容易地從較高級抽象中提取,但在另一個(gè)方向則不行。一個(gè)例子是對比結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)容易以純文本格式(plain text format)表現(xiàn)。例如,LATEX文件可以容易地轉(zhuǎn)換成用于顯示器或者打印機(jī)的格式(LATEX到設(shè)備獨(dú)立文件(DVI)文件格式到位圖)。然而將位圖轉(zhuǎn)換成LATEX文件會(huì)非常困難;這正是數(shù)據(jù)語義化器100起作用之處,因?yàn)橛行Фx的元素集(實(shí)現(xiàn)為語義規(guī)則編輯器)用以捕獲作為輸入數(shù)據(jù)的電子數(shù)據(jù)的結(jié)構(gòu),根據(jù)定義的元素集生成規(guī)則以捕獲輸入數(shù)據(jù)的結(jié)構(gòu),將該規(guī)則應(yīng)用于輸入數(shù)據(jù),并且基于對輸入數(shù)據(jù)使用的規(guī)則生成輸入數(shù)據(jù)的語義實(shí)例。通過數(shù)據(jù)語義化器100,可以完成用語義注解數(shù)據(jù)的過程,減少人類交互。因此,根據(jù)本發(fā)明,引入一個(gè)新的術(shù)語“語義化”來表示向數(shù)據(jù)加入語義注解。
在圖1中,作為操作106的示例,通過捕獲輸入數(shù)據(jù)的結(jié)構(gòu)生成將概念映射到輸入數(shù)據(jù)的映射規(guī)則110的操作包括定義原子規(guī)則,該原子規(guī)則包括例如作為注解或者數(shù)據(jù)結(jié)構(gòu)捕獲元素的6元(tuple)組<C,W,R,K,P,O>,其中“C”是來自選出本體116的概念,對應(yīng)于用戶想要為其生成實(shí)例的類及其屬性。
“W”是樣本數(shù)據(jù)114中正在被概念化的詞或詞組。用戶可以通過例如對顯示的樣本數(shù)據(jù)114(例如,作為輸入數(shù)據(jù)108的多個(gè)文件中的被顯示的樣本文件)中的該詞進(jìn)行突出來表示“W”。“C”和“W”是可以加入用戶幫助的數(shù)據(jù)結(jié)構(gòu)捕獲元素。
“R”是與輸入數(shù)據(jù)108-(或者輸入數(shù)據(jù)108的一部分)的結(jié)構(gòu)相關(guān)的詞或詞組“W”的區(qū)域,例如文件。在本發(fā)明中,典型地,與數(shù)據(jù)108的樣本114(或者樣本114的一部分)的結(jié)構(gòu)相關(guān)地確定該“R”元素。說明了確定“R”元素以捕獲輸入數(shù)據(jù)結(jié)構(gòu)的兩種方法—位置信息和規(guī)則表達(dá)。下面將進(jìn)一步說明作為數(shù)據(jù)結(jié)構(gòu)捕獲元素的這兩種方法的細(xì)節(jié)。由作為“C”和“W”的代表的系統(tǒng)(語義化規(guī)則編輯器106)執(zhí)行“R”元素。在本發(fā)明中,數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”是基于本體和被映射到本體中的概念的數(shù)據(jù)點(diǎn)(例如,詞或詞組,和/或其他類型的數(shù)據(jù)點(diǎn))的,從而提供了用以捕獲輸入數(shù)據(jù)的結(jié)構(gòu)的基于領(lǐng)域或者本體規(guī)則的知識體系。本發(fā)明提供了定義用以將概念映射到電子數(shù)據(jù)的注解元素集的方法。
“K”是將顯示的樣本數(shù)據(jù)114中一個(gè)完整的概念“C”唯一地與另一個(gè)概念“C”區(qū)分的顏色。例如,假設(shè)生成名為Person(人)的類的實(shí)例,其中hasFirstName(名)和hasLastName(姓)是屬性。當(dāng)生成類Person的語義實(shí)例時(shí),在顯示的樣本數(shù)據(jù)114中,規(guī)則編輯器106自動(dòng)地列出這兩個(gè)屬性,并且通過分配相同的顏色將它們分組為同一類的屬性。本發(fā)明不限于為用顏色區(qū)分顯示的概念,而是還可以使用其他可感知的區(qū)分特性/屬性/技術(shù)(例如可視的和/或可聽的),諸如(不限于)通過字體、字體大小、下劃線、粗體、斜體、編號、顯示圖標(biāo)等視覺地區(qū)分計(jì)算機(jī)顯示屏上的特征。
“P”是規(guī)則的優(yōu)先級。當(dāng)在操作112應(yīng)用了所生成的輸入數(shù)據(jù)108的多個(gè)映射規(guī)則110時(shí),可使用優(yōu)先級在提高效率的同時(shí)減少錯(cuò)誤。優(yōu)先級可以用來確定規(guī)則集110的錯(cuò)誤應(yīng)用。當(dāng)不能應(yīng)用高優(yōu)先級規(guī)則時(shí),語義實(shí)例的生成過程停止,而可以安全地忽略低優(yōu)先級的規(guī)則。例如,當(dāng)試圖將來自樣本文件114的詞與來自本體116的本體概念匹配時(shí),某些詞可能比其他詞重要。例如,如果基因序列包括版本號,則可以給予實(shí)際基因序列比版本號更高的優(yōu)先級,從而如果某些文件忽略了版本號,系統(tǒng)不會(huì)不能生成語義實(shí)例(即,如果需要,則抹去版本號)。
“O”是應(yīng)用所生成的多個(gè)映射規(guī)則110的順序,例如,O1是要被應(yīng)用的第一個(gè)規(guī)則,O2是要被應(yīng)用的第二個(gè)規(guī)則等。
因此,一組原子規(guī)則一起定義了一個(gè)規(guī)則集110,被稱為映射、語義化或數(shù)據(jù)結(jié)構(gòu)捕獲,規(guī)則集110將概念映射到任意格式和任意領(lǐng)域的輸入數(shù)據(jù)108(諸如文件、電郵消息等)。最小的原子規(guī)則包括一組3個(gè)注解或者數(shù)據(jù)結(jié)構(gòu)捕獲元素,元<C,W,R>,其中“C”和“W”可以加入用戶的幫助。在上例中,數(shù)據(jù)結(jié)構(gòu)捕獲元素<K,P,O>可以增強(qiáng)性能,但是并不要求。此外,3元組<C,W,R>可以與其他數(shù)據(jù)結(jié)構(gòu)捕獲元素(例如<K,P,O>數(shù)據(jù)結(jié)構(gòu)捕獲元素)進(jìn)行任意的組合。
下面更具體地說明用于確定詞的區(qū)域(“R”元素)的方法的兩個(gè)示例(包括其任意組合)。因此,位置信息可以與規(guī)則表達(dá)結(jié)合作為確定“R”元素的另一個(gè)方法以捕獲輸入數(shù)據(jù)的結(jié)構(gòu)。
位置信息——在樣本數(shù)據(jù)114中使用被突出的位置信息,“R”由4元<L,S,N,E>(定位數(shù)據(jù)結(jié)構(gòu)捕獲元素)表示,其中L是行號,S是開始字符的位置,N是行數(shù),以及E是結(jié)束字符的位置基本上捕獲了對應(yīng)要被概念化的詞的“列”。
位置元素基本上捕獲了樣品輸入數(shù)據(jù)114中的對應(yīng)于作為元素“W”的詞或詞組的位置,該元素“W”將被映射到從本體116中選出的本體概念而被概念化。
規(guī)則表達(dá)(范式)——另選地,規(guī)則表達(dá)可以用來通過樣品數(shù)據(jù)114推導(dǎo)出用于詞的區(qū)間(“R”元素)的輸入數(shù)據(jù)108中的范式。在該方法中,“R”是規(guī)則表達(dá),下面按照假設(shè)、輸入、輸出和處理的順序進(jìn)行描述假設(shè)示例下面是用于示例輸入數(shù)據(jù)108格式的示例指導(dǎo)方針該數(shù)據(jù)由多個(gè)記錄構(gòu)成,每個(gè)記錄具有多個(gè)字段。
記錄之間的分隔符容易辨認(rèn)。
記錄中的各字段具有某些定義特性,將該字段與其他字段區(qū)分。
輸入數(shù)據(jù)108示例
包含用戶希望分析的數(shù)據(jù)的記錄的列表。
來自數(shù)據(jù)內(nèi)的子字符串的開始和結(jié)束標(biāo)記,這是用戶希望提取的數(shù)據(jù)——“W”數(shù)據(jù)結(jié)構(gòu)捕獲元素——的示例。
定義了可接受的匹配的容許量值。
處理操作示例1.通過傳遞作為參數(shù)的示例子字符串和要被分析的數(shù)據(jù)(樣本114)調(diào)用輸入數(shù)據(jù)108的分析。例如可以通過任何已知的選擇技術(shù)(諸如突出、敲擊、敲擊并拖拉等)在輸入數(shù)據(jù)108的顯示中選取該示例子字符串。
2.范式產(chǎn)生器/分析器(語義化規(guī)則編輯器106)檢查被傳遞的參數(shù)示例子字符串并且基于一組模板構(gòu)造規(guī)則表達(dá)(范式),該規(guī)則表達(dá)與示例子字符串匹配。
3.然后分析器將規(guī)則表達(dá)用于樣本數(shù)據(jù)114中的各個(gè)記錄,記錄分析器發(fā)現(xiàn)的任何匹配的開始和結(jié)束位置。
4.在處理了各個(gè)記錄之后,檢查特定規(guī)則表達(dá)的匹配總數(shù)。如果匹配總計(jì)數(shù)沒有落入容許量水平之內(nèi)(記錄的數(shù)目±容許量值)則自動(dòng)拒絕該規(guī)則表達(dá)。在這種情況下,分析器返回操作2。
5.否則,作為建議向用戶呈現(xiàn)由該分析做出的匹配列表以供檢查。如果用戶接受這些建議,則該分析完成。否則,該規(guī)則表達(dá)(范式)被拒絕并且分析器返回操作2。處理繼續(xù)直到用戶接受分析器的匹配或者分析器用盡了規(guī)則表達(dá)。因此,范式產(chǎn)生器/分析器106的輸出是被建議的匹配的列表。
圖2是按照本發(fā)明的實(shí)施例的、對作為輸入電子數(shù)據(jù)的電郵文本進(jìn)行語義化的流程圖。更具體地,參照圖2,示出了語義化器100按照以上處理操作1至5進(jìn)行語義化的示例,其使用電郵(電郵消息/文本)作為輸入數(shù)據(jù)108,并且使用上述數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”的規(guī)則表達(dá)來確定數(shù)據(jù)結(jié)構(gòu)捕獲元素“W”(該數(shù)據(jù)結(jié)構(gòu)捕獲元素“W”將被映射到輸入數(shù)據(jù)108的樣本114中的數(shù)據(jù)結(jié)構(gòu)捕獲元素“C”)的區(qū)間。
圖2中,在操作150,輸入文件108包含一組電郵首部,并且“dean@cs.umd.edu”是示例子字符串(數(shù)據(jù)結(jié)構(gòu)捕獲元素“W”),它被映射到(如通過突出顯示示出)從本體116中選出的本體概念(圖2中未示出,但參見圖4)并且用作來自輸入文件108的樣本數(shù)據(jù)114。在操作152,范式產(chǎn)生器(也稱為語義化規(guī)則編輯器106)嘗試基于規(guī)則表達(dá)模板160對給出的輸入文件108的結(jié)構(gòu)進(jìn)行近似。在操作154中,范式產(chǎn)生器106向用戶建議規(guī)則表達(dá)160以捕獲輸入文件108的結(jié)構(gòu)。在操作156,用戶檢查該建議。在操作156,用戶可以接受或者拒絕作為輸入數(shù)據(jù)108的結(jié)構(gòu)規(guī)則的規(guī)則表達(dá)的建議。
更具體地,在圖2中,操作154最左邊的情況示出了使用示例字符串“dean@cs.umd.edu”作為規(guī)則表達(dá)(數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”)時(shí)作為匹配的字符串“dean@cs.umd.edu”。然而,輸入文件108僅包含一個(gè)與規(guī)則表達(dá)“dean@cs.umd.edu”確切匹配的字符串(通過顯示畫面黃色突出表示)并且由于該規(guī)則表達(dá)產(chǎn)生的匹配太少因此可以忽略該規(guī)則表達(dá)。操作154的中間的情況示出使用規(guī)則表達(dá)“\w+@\w+.\w+.”而匹配了所有電郵地址的情況。該規(guī)則表達(dá)匹配了在輸入文件108中出現(xiàn)的所有電郵地址;然而,由于它產(chǎn)生了太多的匹配,因而該表達(dá)同樣被跳過。操作154中的第三種情況示出了使用規(guī)則表達(dá)“From\S+@\S+”的匹配,其中向用戶建議該匹配以供檢查。在圖2的示例中,按照可配置的應(yīng)用設(shè)計(jì)標(biāo)準(zhǔn),系統(tǒng)100內(nèi)部消除了情況1(左邊)和情況2(中間),但是所主張的本發(fā)明不限于這種配置,而是可以控制(編程)系統(tǒng)100例如向用戶建議包括推薦建議在內(nèi)的范式產(chǎn)生器106的所有輸出。
規(guī)則表達(dá)模板可以基于關(guān)于輸入數(shù)據(jù)108或領(lǐng)域?qū)S玫募僭O(shè)開發(fā)規(guī)則表達(dá)模板。例如,一個(gè)假設(shè)可以是記錄中的各個(gè)字段具有某些定義特性。模板被設(shè)計(jì)為充分多樣化對任何情景進(jìn)行近似。系統(tǒng)100可以升級,即可以開發(fā)附加的模板以適應(yīng)不同類型的輸入數(shù)據(jù)108。
圖3是按照本發(fā)明實(shí)施例的數(shù)據(jù)語義化器的功能框圖。圖4是按照本發(fā)明實(shí)施例的數(shù)據(jù)語義化器的計(jì)算機(jī)顯示圖形用戶界面的示例圖。圖3中示出的數(shù)據(jù)語義化器100向用戶提供語義化數(shù)據(jù)108所需的功能并包括以下組件本體閱讀器工具200本體閱讀器200在本發(fā)明中典型地是軟件工具的組合,允許本領(lǐng)域?qū)<议喿x和修改本體。如果需要可以生成新的本體??梢允褂矛F(xiàn)有的本體編輯器,諸如SWOOP[www.mindswap.org/2004/SWOOP/,2004年10月22日檢索],它是可升級的OWL(網(wǎng)絡(luò)本體語言)本體瀏覽器和編輯器。SWOOP支持對多種不同視圖(包括傳統(tǒng)的樹結(jié)構(gòu)以及用于輕松導(dǎo)航的超鏈接界面)的多個(gè)本體的閱讀。圖4示出了本體閱讀器工具200的計(jì)算機(jī)顯示圖形用戶界面窗口。
數(shù)據(jù)閱讀器202數(shù)據(jù)閱讀器202允許顯示作為輸入電子數(shù)據(jù)的從結(jié)構(gòu)化到半結(jié)構(gòu)化到非結(jié)構(gòu)化的任何格式和任何領(lǐng)域的多數(shù)據(jù)文檔108,并將其一批語義化。數(shù)據(jù)閱讀器202支持的格式可以是,例如txt、rtf和html文檔。僅需要一個(gè)文檔(或者其一部分)作為樣本114產(chǎn)生初始的規(guī)則集110。圖4示出了數(shù)據(jù)閱讀器202的計(jì)算機(jī)顯示圖形用戶界面窗口。
語義化規(guī)則編輯器106語義化規(guī)則編輯器106以來自數(shù)據(jù)集108的樣本114及其對應(yīng)的本體116作為輸入,并且?guī)椭脩舳x每個(gè)數(shù)據(jù)集108的語義化規(guī)則集110。在本發(fā)明中,典型地,在熟悉該數(shù)據(jù)集的領(lǐng)域?qū)<业膸椭律梢?guī)則集110。在圖4中,計(jì)算機(jī)顯示的圖形用戶界面窗口204是可選的用戶界面窗口,它可以顯示由語義化規(guī)則編輯器106(即語義化規(guī)則閱讀器204)進(jìn)行的操作的各種表達(dá),諸如顯示所生成的規(guī)則表達(dá)一數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”。在圖4中,用戶界面窗口204顯示被映射到數(shù)據(jù)閱讀器用戶界面窗口202中顯示的數(shù)據(jù)的本體概念,包括其數(shù)量。例如,圖4示出了biopax-level 1的protein(蛋白質(zhì))概念(子類)的COMMENT屬性PhysicalEntity類208被映射一次(1)并且該本體概念映射也通過相同的顏色(在本例中為紅色且由線段連接)——數(shù)據(jù)捕獲結(jié)構(gòu)元素“K”——可視地在語義化規(guī)則編輯器用戶界面窗口204和數(shù)據(jù)閱讀器用戶界面窗口202中指出。
語義化器引擎112語義化器引擎112是被編程的計(jì)算機(jī)處理器,其在本發(fā)明中典型地在后臺運(yùn)行,它取得一個(gè)大的數(shù)據(jù)集108和要被應(yīng)用于該數(shù)據(jù)集108的語義化規(guī)則集110,并且產(chǎn)生對應(yīng)于數(shù)據(jù)集108的語義實(shí)例118。
可以向本體閱讀器工具200和數(shù)據(jù)閱讀器202環(huán)境加入一些由日本川崎富士通有限公司(本申請的受讓人)開發(fā)的附加的組件或其他組件。這些組件包括本體映射工具、推理引擎和數(shù)據(jù)可視化工具。本體映射工具,諸如ONTOLINK[www.mindswap.org/2004/Ontolink,2004年10月22日檢索],可以用來指定不同本體中定義的概念之間的句法以及語義映射和變換。推理引擎,諸如PELLET[www.mindswap.org/2003/pellet/index.shtml,2004年10月22日檢索]和RACER[www.cs.concordia.ca/~haarslev/racer/,2004年10月22日檢索],可以幫助檢查在本體和對類進(jìn)行進(jìn)一步分類中的矛盾。數(shù)據(jù)可視化工具,諸如JAMBALAYA[www.thechiselgroup.org/jambalaya,2004年10月22日檢索]和RACER INTERACTIVE CLIENT ENVIRONMENT(RICE)[www.cs.concordia.ca/~haarslev/racer/,2004年10月22日檢索],可以用來表達(dá)針對其本體116的語義實(shí)例118(即由數(shù)據(jù)語義化器100注解了的數(shù)據(jù)內(nèi)容108),提供可視化的被注解了的數(shù)據(jù)118,其可在數(shù)據(jù)閱讀器用戶界面窗口202中顯示。換言之,可以使用任何其他第三方的本體閱讀器和數(shù)據(jù)閱讀器,諸如可視化工具JAMBALAYA和RICE,以表達(dá)針對其本體的被注解數(shù)據(jù)內(nèi)容或知識庫,但是這種可視化工具不具有注解能力。
因此,在圖4中,數(shù)據(jù)語義化器100的計(jì)算機(jī)顯示圖形用戶界面(GUI)包括三個(gè)窗格(pane)左上方的本體閱讀器200,左下方的規(guī)則閱讀器204,和右方的數(shù)據(jù)閱讀器202。圖4示出了基本狀態(tài)的數(shù)據(jù)語義化器100,其中本體116已經(jīng)載入本體閱讀器200中,數(shù)據(jù)窗格202中已經(jīng)打開一些數(shù)據(jù)108,并且如規(guī)則閱讀器204中所示,已經(jīng)加入了一小組規(guī)則(即被映射到數(shù)據(jù)閱讀器用戶界面窗口202中顯示的數(shù)據(jù)108的本體概念,包括其數(shù)量)。換言之,規(guī)則閱讀器204顯示用戶希望實(shí)例化的類的對象和數(shù)據(jù)屬性。而且,關(guān)于與各個(gè)屬性關(guān)聯(lián)的數(shù)據(jù)點(diǎn)的數(shù)量也可以在規(guī)則窗格204中找到。
因此,在圖4中,規(guī)則窗格204用作本體概念116和原始數(shù)據(jù)108之間的聯(lián)系的定義的容器,這些聯(lián)系稱為“映射規(guī)則110”(即規(guī)則窗格204實(shí)現(xiàn)為存儲(chǔ)映射規(guī)則和基于該映射規(guī)則的GUI的計(jì)算機(jī)可讀介質(zhì))?!坝成湟?guī)則”110是本體閱讀器200中顯示的本體代表116(諸如網(wǎng)絡(luò)本體語言(OWL)屬性)和數(shù)據(jù)窗格202中顯示的某種形式的原始數(shù)據(jù)108(諸如文本的字符串)之間的映射。在圖4中,例如,語義化規(guī)則編輯器106將作為樣本114的數(shù)據(jù)點(diǎn)205映射到選出的本體類屬性NAME,如本體閱讀器200和規(guī)則閱讀器204中所示(即,由相同的“K”值表示,在本例中針對NAME用藍(lán)色突出),并且通過“將文本與規(guī)則關(guān)聯(lián)”302通過將數(shù)據(jù)點(diǎn)205(例如文本)與規(guī)則相關(guān)聯(lián),基于數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”對其確定“映射規(guī)則”110?!坝成湟?guī)則”110的目的是收集數(shù)據(jù)114的樣本,智能分析器(語義化規(guī)則編輯器106)可以使用該樣本通過建議來試圖發(fā)現(xiàn)余下的數(shù)據(jù)庫108中相似的數(shù)據(jù),以下參照圖6更具體地說明。因此,“映射規(guī)則”110基于選出的領(lǐng)域本體基本捕獲了數(shù)據(jù)108的結(jié)構(gòu),或者“映射規(guī)則”捕獲數(shù)據(jù)108的本體結(jié)構(gòu)。根據(jù)本發(fā)明的一方面,當(dāng)智能分析器106正確地辨認(rèn)數(shù)據(jù)時(shí),該智能分析器106將其發(fā)現(xiàn)加回到原始的映射規(guī)則定義中。因此,理論上,智能分析器106每個(gè)正確的猜測提高了它辨認(rèn)隨后類似數(shù)據(jù)108的能力。因?yàn)檩斎胛募?08可能沒有設(shè)置用于分析的范式,所以分析器106是“智能”的。在大多數(shù)分析器中,輸入文件的結(jié)構(gòu)是已知的并且分析器利用該已知的結(jié)構(gòu)使分析處理自動(dòng)化。沒有這種在先的結(jié)構(gòu)知識,將非常難以使分析處理自動(dòng)化。分析器106通過嘗試多個(gè)模板、多次試探和多個(gè)閾值使分析自動(dòng)化以建議本體概念映射,同時(shí)在本發(fā)明中典型地將接受建議的最終決定處理留給人進(jìn)行,并且其中該建議可以反映或者用來推出輸入文件108的結(jié)構(gòu)。一旦終端用戶確認(rèn)數(shù)據(jù)語義化器100建議的“映射規(guī)則”110是正確的,那么該“映射規(guī)則”110被存儲(chǔ)并可通過規(guī)則窗格204表現(xiàn)。當(dāng)數(shù)據(jù)語義化器100收集了較多的已經(jīng)被人確定為正確的規(guī)則110時(shí),如果又出現(xiàn)類似的范式,則數(shù)據(jù)語義化器可以在余下的數(shù)據(jù)語義化處理(操作104)中使用這些之前被確認(rèn)的規(guī)則。換言之,工具106利用了它學(xué)習(xí)的關(guān)于輸入文件108的知識。
數(shù)據(jù)窗格202顯示用戶希望從中提取數(shù)據(jù)的數(shù)據(jù)108。被注解的數(shù)據(jù)將依賴于與其相關(guān)的屬性以不同顏色(作為數(shù)據(jù)結(jié)構(gòu)捕獲元素“K”)突出。作為向數(shù)據(jù)語義化器100輸入控制命令的一個(gè)示例,使用鍵區(qū)206作為便利的菜單型控制面板,這允許用戶迅速地執(zhí)行某些常用任務(wù),諸如(沒有限制,并以其任意組合)加入規(guī)則(即將數(shù)據(jù)點(diǎn)映射到選出的本體概念)、從規(guī)則中刪除選擇、將文本與規(guī)則關(guān)聯(lián)以產(chǎn)生數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”、和/或產(chǎn)生實(shí)例。本發(fā)明不限于鍵區(qū)206的實(shí)現(xiàn),并且例如,為了將樣本數(shù)據(jù)點(diǎn)映射到本體概念,在本發(fā)明中典型地可以使用任何可用的顯示數(shù)據(jù)選擇技術(shù),諸如在數(shù)據(jù)閱讀器202中選出被顯示的樣本輸入數(shù)據(jù)114的區(qū),并且將該抓取的選擇放進(jìn)本體閱讀器200中被顯示的本體概念116。
圖5是根據(jù)本發(fā)明的實(shí)施例的、對作為要被注解的輸入電子數(shù)據(jù)的示例的生物信息數(shù)據(jù)進(jìn)行語義化的流程圖。在圖5中,對數(shù)據(jù)進(jìn)行語義化的計(jì)算機(jī)實(shí)現(xiàn)的方法包括在操作250,選擇電子數(shù)據(jù)作為要語義化的輸入數(shù)據(jù)108;在操作252,選出至少一個(gè)本體116,在本發(fā)明中典型地由用戶選擇該本體;在操作254,從輸入數(shù)據(jù)108中選出一個(gè)(或視情況為更多個(gè))輸入數(shù)據(jù);在操作256,從選出的本體116選出一個(gè)本體概念,在本發(fā)明中典型地由用戶選擇該本體概念;在操作258,將選出的本體概念映射到選出的一個(gè)(或更多個(gè))輸入數(shù)據(jù),在本發(fā)明中這典型地并入用戶的幫助/交互;在操作260,基于該選出的本體概念到一個(gè)(或更多個(gè))輸入數(shù)據(jù)的映射生成映射規(guī)則或生成數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則,這由語義化規(guī)則編輯器106完成;在操作262,基于該映射規(guī)則建議從選出的本體概念到輸入數(shù)據(jù)108的樣本114的映射,作為樣本映射;在操作264,通過修改或調(diào)整選出的本體、該個(gè)輸入數(shù)據(jù)、選出的本體概念、選出的本體概念到該個(gè)輸入數(shù)據(jù)的映射或者其任何組合來修改/優(yōu)化映射規(guī)則,在本發(fā)明中,典型地映射規(guī)則修改或優(yōu)化并入了用戶的幫助/交互;以及,在操作266,如果映射規(guī)則建議被接受,則在操作268,基于可接受的映射建議,通過對全部輸入數(shù)據(jù)108應(yīng)用或施加生成的優(yōu)化映射規(guī)則,對輸入數(shù)據(jù)108進(jìn)行語義化,在本發(fā)明中典型地,如果用戶接受了語義化規(guī)則編輯器106的選出的概念本體映射到樣本輸入數(shù)據(jù)114的映射建議,則映射規(guī)則被接受。例如,在操作264,為了優(yōu)化映射規(guī)則110,可以修改本體116,也可以修改或者改變本體116的選擇,或者它們的任何組合。
因此,在圖5中,操作252至258提供了一種可動(dòng)態(tài)配置的語義化或者注解指導(dǎo)270,在本發(fā)明中典型地利用本體閱讀器工具200、數(shù)據(jù)閱讀器202和語義化規(guī)則編輯器106通過領(lǐng)域?qū)<业妮斎氆@得。注解指導(dǎo)270提供了輸入數(shù)據(jù)108的樣本114中何種和何處的數(shù)據(jù)點(diǎn)應(yīng)當(dāng)被映射到本體116的指導(dǎo),并且基于此指導(dǎo)270生成可用于全體輸入數(shù)據(jù)108的數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則或者注解/語義化規(guī)則。在現(xiàn)有的方法中,用戶將不得不處理一個(gè)文件,作為一個(gè)輸入數(shù)據(jù),將該文件映射到本體,并且移到下一個(gè)文件,這實(shí)質(zhì)上是人工注解處理。
在圖5中,在操作260,在本發(fā)明中典型地,語義化規(guī)則編輯器106被設(shè)置為通過內(nèi)部生成規(guī)則并且將該規(guī)則應(yīng)用于輸入數(shù)據(jù)108的樣本114,依賴于預(yù)定的閾值(例如,匹配太多,匹配太少等等)自動(dòng)地拒絕或者消除數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則,而且在操作262,通過樣本數(shù)據(jù)點(diǎn)114和本體116的可感知的(例如可視的和/或可聽見的)映射僅建議滿足或者超過閾值的規(guī)則。
在圖5中,在操作268,輸出了語義實(shí)例118。在給出規(guī)則集110和數(shù)據(jù)集108的情況下,數(shù)據(jù)語義化器100生成相應(yīng)的語義實(shí)例118。圖6-7是按照本發(fā)明的實(shí)施例的、語義化作為輸入電子數(shù)據(jù)的生物信息的數(shù)據(jù)語義化器的圖形用戶界面的示例圖。更具體地,圖6-7示出了使用規(guī)則表達(dá)方法作為數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”來注解生物信息數(shù)據(jù)的數(shù)據(jù)語義化器100的示例。當(dāng)用戶通過與圖2中示出的過程類似的過程接受了數(shù)據(jù)語義化器100建議的匹配時(shí),用戶可以選擇用輸入文件108中的數(shù)據(jù)擴(kuò)充規(guī)則110。常規(guī)的顯示可選菜單鍵區(qū)206提供了訪問常用菜單項(xiàng)的方便途徑。
雖然這里參照圖6-7的說明旨在為數(shù)據(jù)窗格202中的打開的數(shù)據(jù)文件108的所有數(shù)據(jù)點(diǎn)生成實(shí)例(在圖6的數(shù)據(jù)窗格202中顯示了三個(gè)數(shù)據(jù)點(diǎn)(>gi...)),但是用戶可以選擇為打開的數(shù)據(jù)文件108的幾個(gè)被選數(shù)據(jù)點(diǎn)生成語義實(shí)例。由于數(shù)據(jù)語義化器100可以根據(jù)需要隨選地生成更新的語義實(shí)例118,因此這是一個(gè)重要的能力。例如,可以注解并使用來自數(shù)據(jù)庫108的單個(gè)記錄,而不是從數(shù)據(jù)庫108中的所有記錄生成一大組語義實(shí)例。因此,雖然上述參照圖5描述了的實(shí)施例使用了輸入本體116、來自多個(gè)輸入數(shù)據(jù)108中的至少一個(gè)輸入數(shù)據(jù)108、和輸入數(shù)據(jù)108的樣本114,但是數(shù)據(jù)語義化器100不限于這種配置,而是可以使用一個(gè)或者更多個(gè)本體116、多個(gè)輸入數(shù)據(jù)108和多個(gè)樣本114、或者其任意組合以生成一個(gè)或者更多個(gè)語義實(shí)例118。
在圖6中,針對每一個(gè)選出的本體類及其映射到數(shù)據(jù)點(diǎn)108的所有屬性,如本體閱讀器200和規(guī)則閱讀器204中所示(即,通過選擇“加入規(guī)則”300進(jìn)行映射,由相同的“K”值表示,在本例中是針對COMMENT(描述…)的橙色突出、針對NAME的黃色突出、針對SEQUENCE的紅色突出、針對SHORT-NAME的深綠色突出、和針對SYNONYMS的淺綠色突出),通過“將文本與規(guī)則關(guān)聯(lián)”302(圖5中的操作260)將數(shù)據(jù)點(diǎn)(例如文本)與規(guī)則關(guān)聯(lián),基于數(shù)據(jù)結(jié)構(gòu)捕獲元素“R”確定“映射規(guī)則”,并提供用于接受、拒絕和/或優(yōu)化(圖5中的操作262、264和/或266)的建議匹配306。具體地,圖6示出了分析器106針對數(shù)據(jù)點(diǎn)205剛完成在數(shù)據(jù)庫108的剩余樣本114中發(fā)現(xiàn)類似NAME本體類屬性的數(shù)據(jù)308的情況,該NAME本體類屬性在選擇了“將文本與規(guī)則關(guān)聯(lián)”302時(shí)以黃色突出,并且分析器106提供用紅色字體顯示的類似數(shù)據(jù)建議308。
一旦接受了建議并成功完成檢錯(cuò)的機(jī)制,可以通過“生成實(shí)例”選項(xiàng)304,使用以下步驟生成語義實(shí)例1.針對顏色“K”相同的各行,使用存儲(chǔ)的“列信息”生成具有屬性值的類的實(shí)例。
2.運(yùn)行錯(cuò)誤檢查機(jī)制該數(shù)據(jù)確認(rèn)處理包括一組測試來從數(shù)據(jù)文件中檢錯(cuò);例如,正確的數(shù)據(jù)文件被正確地語義化;即,找到所有高優(yōu)先級的規(guī)則。例如,如果初始數(shù)據(jù)文件所有字符被解釋,那么數(shù)據(jù)文件的剩余部分也該如此。
3.如果所有檢測都通過,那么生成新的實(shí)例(圖5中的操作268)。
圖7示出了在選擇生成實(shí)例304之后所有屬性都已被完全擴(kuò)展的情況,如用相同的“K”值表示,在本例中是針對COMMENT(描述…)的橙色突出,針對NAME的黃色突出,針對SEQUENCE的紅色突出,針對SHORT-NAME的深綠色突出,和針對SYNONYMS的淺綠色突出。在圖4、6和7中,畫出的線段也示出了本體概念到數(shù)據(jù)點(diǎn)的映射。
數(shù)據(jù)語義化器100在可被生成的實(shí)例和文件的數(shù)量方面是靈活的。包含多個(gè)數(shù)據(jù)點(diǎn)的單個(gè)輸入文件可以導(dǎo)致具有多個(gè)語義實(shí)例的單個(gè)輸出文件或者各包含數(shù)據(jù)點(diǎn)的一個(gè)語義實(shí)例的多個(gè)輸出文件。同樣,多個(gè)輸入文件可以導(dǎo)致多個(gè)輸出文件或者具有來自多個(gè)輸入文件的所有數(shù)據(jù)點(diǎn)的語義實(shí)例的單個(gè)輸出文件。此外,各自具有多個(gè)數(shù)據(jù)點(diǎn)的多個(gè)輸入文件可以導(dǎo)致各自具有不是必須來自對應(yīng)的輸入文件的多個(gè)數(shù)據(jù)點(diǎn)的多個(gè)輸出文件。例如,用戶可能希望基于某種類別對輸入數(shù)據(jù)點(diǎn)進(jìn)行分類。
圖8A-8H是按照本發(fā)明的實(shí)施例的語義實(shí)例的示例輸出。在圖8中,語義實(shí)例輸出118按照資源描述框架(RDF)/網(wǎng)絡(luò)本體語言(OWL)格式。RDF/OWL的概念是公知的。換言之,數(shù)據(jù)語義化器可以直接將語義對象118插入RDF/WOL存儲(chǔ)中。更具體地,圖8A是由數(shù)據(jù)語義化器100輸出的、作為使用BIOPAX LEVEL1本體116生物信息應(yīng)用數(shù)據(jù)108的語義實(shí)例118的OWL文檔。在[www.biopax.org,2004年12月16日檢索]中說明了BIOPAX LEVEL 1的本體。作為非限制性的示例,圖8A至8H的描述如下圖8A一個(gè)數(shù)據(jù)點(diǎn)(在本情況下,使用非生物數(shù)據(jù))被映射到BIOPAX本體116的protein類的三個(gè)屬性(name(名稱),short name(短名)和synonym(同義詞))。輸出正好包含一個(gè)數(shù)據(jù)點(diǎn),示出了每個(gè)輸出文件(test1.OWL)生成一個(gè)語義實(shí)例118的能力。
圖8B一個(gè)數(shù)據(jù)點(diǎn)被映射到terrorism(恐怖主義)本體116的“city(城市)”類的名稱屬性。同樣,輸出文件test2.OWL正好包含一個(gè)數(shù)據(jù)點(diǎn)作為語義實(shí)例118。這里示出工具100還可以用于其他領(lǐng)域(除生物信息領(lǐng)域以外的其他領(lǐng)域)。Terrorism本體的參考見[www.mindswap.org/2003/owl/swint/terrorism,2004年12月16日檢索]。
圖8C-8E7個(gè)數(shù)據(jù)點(diǎn)被映射到BIOPAX本體116的protein類的2個(gè)屬性(comment和synonyms)。輸入數(shù)據(jù)點(diǎn)是生物數(shù)據(jù)。這個(gè)語義實(shí)例輸出118示例表明在一個(gè)輸出文件(test3.OWL)中生成多個(gè)語義實(shí)例118的能力。
圖8F-8H12個(gè)數(shù)據(jù)點(diǎn)被映射到BIOPAX本體116的“dataSource”類的comment屬性。除了示出了在一個(gè)輸出文件(test4.OWL)中生成多個(gè)語義實(shí)例118的能力之外,它還示出了當(dāng)輸入文件108中沒有明顯的范式時(shí)分析器106正確捕獲了輸入文件108。具體地,在圖8F-8H中示出的test4.OWL中,在輸入文件108中有12個(gè)數(shù)據(jù)點(diǎn)。按照出現(xiàn)的順序,它們是MINDSWAP、FLACP、FLACP、FLACP、UMIACS、UMIACS、MINDSWAP、MINDSWAP、MINDSWAP、UMIACS、UMIACS和UMIACS。當(dāng)輸入文件108中沒有范式時(shí),數(shù)據(jù)語義化器100生成規(guī)則表達(dá)110以捕獲該12個(gè)數(shù)據(jù)點(diǎn)。
圖9是被任務(wù)計(jì)算(TC)環(huán)境使用以實(shí)現(xiàn)計(jì)算設(shè)備網(wǎng)絡(luò)中的任務(wù)計(jì)算的計(jì)算設(shè)備網(wǎng)絡(luò)和本發(fā)明的數(shù)據(jù)語義化器100的圖。任務(wù)計(jì)算使得人能夠輕松地用很多設(shè)備、應(yīng)用程序和服務(wù)來工作。向現(xiàn)有任務(wù)計(jì)算環(huán)境500加入的一個(gè)方面是集成現(xiàn)有數(shù)據(jù)(包括數(shù)據(jù)庫、平面數(shù)據(jù)文件等等)(輸入電子數(shù)據(jù)108)的能力。集成這種輸入電子數(shù)據(jù)要求用語義注解數(shù)據(jù)。數(shù)據(jù)語義化器100是一種軟件工具,它通過以下步驟幫助用戶將輸入電子數(shù)據(jù)108(即,將作為輸入的非語義數(shù)據(jù))帶到語義層生成語義服務(wù)502、通過輸出語義數(shù)據(jù)118,提供到非語義數(shù)據(jù)的訪問途徑,或者輸出可用來提供作為服務(wù)504a-n的輸出語義數(shù)據(jù)的語義數(shù)據(jù)118,跨接現(xiàn)有的抽象級和想要的語義抽象之間的差距。因此,使用數(shù)據(jù)語義化器100,任務(wù)計(jì)算環(huán)境500可以定址語義層中的數(shù)據(jù)并且使得設(shè)備、應(yīng)用程序、服務(wù)和數(shù)據(jù)能最終集成。數(shù)據(jù)語義化器100可以向數(shù)據(jù)108提供語義抽象至少有兩種不同的方法(雖然不限于兩種)。第一,數(shù)據(jù)語義化器100可以提供語義服務(wù)502,該語義服務(wù)502提供訪問非語義數(shù)據(jù)108的途徑。第二,數(shù)據(jù)語義化器100可以輸出經(jīng)注解的語義輸出118,然后該經(jīng)注解的語義輸出118可被數(shù)據(jù)提供服務(wù)504a-n(例如目錄印刷服務(wù)504a)所用,以提供作為服務(wù)的語義數(shù)據(jù),或者被管理工具504b(諸如WHITE HOLE)所用,以提供作為服務(wù)的語義數(shù)據(jù)。
在圖9中,任務(wù)計(jì)算環(huán)境500體系結(jié)構(gòu)例如包括表達(dá)層506、網(wǎng)絡(luò)服務(wù)應(yīng)用編程接口(API)508、中間設(shè)備層510、服務(wù)層512和實(shí)現(xiàn)層514。數(shù)據(jù)語義化器100基于任意格式和任意領(lǐng)域的輸入數(shù)據(jù)108,使用生成的語義實(shí)例118,提供資源和服務(wù)抽象(實(shí)現(xiàn)層514),并且基于輸入數(shù)據(jù)108的資源和服務(wù)抽象514生成任務(wù)計(jì)算環(huán)境500。換言之,本發(fā)明作為服務(wù)提供語義實(shí)例118,作為輸入數(shù)據(jù)108的抽象,可用在任務(wù)計(jì)算環(huán)境500內(nèi)。然后可用的數(shù)據(jù)語義118將使得它更容易與新的應(yīng)用程序和平臺接口和轉(zhuǎn)移到新的應(yīng)用程序和平臺。一旦被注解,自明的語義數(shù)據(jù)更有可能在上下文中正確使用,并且人們還可以容易地索引和檢索語義注解的數(shù)據(jù),使得更容易管理大量數(shù)據(jù)。
更具體地,本發(fā)明提供了一種計(jì)算機(jī)系統(tǒng),作為數(shù)據(jù)語義化器100,以幫助用戶用語義注解包括半結(jié)構(gòu)化至非結(jié)構(gòu)化電子數(shù)據(jù)的任意格式、任意領(lǐng)域的大量電子數(shù)據(jù)。因此,本發(fā)明提供了任意格式和任意領(lǐng)域的電子數(shù)據(jù)的本體表現(xiàn)。通過資源和服務(wù)抽象使用語義網(wǎng)絡(luò)技術(shù)提供互操作性,從而提供了任務(wù)計(jì)算環(huán)境,這被日本川崎富士通有限公司(本申請的受讓人)在以下出版物和/或?qū)@暾?所有這些在此通過引用并入)中成功地展示和說明R.Masuoka,Y.Labrou,B.Parsis and E.Sirin,Ontology-Enabled Pervasive Computing Application,IEEE IntelligentSystem,vol.18,no.5,Sep./Oct.2003,pp.68-72;R.Masuoka,B.Parsis andY.Labrou,Task Computing-the Semantic Web meets Pervasive Computing,Proceedings of the 2nd International Semantic Web Conference 2003,October 20-23,2003,Sundial Resort,Sanibel Island,F(xiàn)lorida,USA;Z.Song,Y.Labrou and R.Masuoka,Dynamic Service Discovery and Management inTask Computing,MobiQuitous 2004,August 22-25,2004,Boston,USA;Ryusuke Masuoka,Yannis Labrou and Zhexuan Song,Semantic Web andUbiquitous Computing-Task Computing as an Example,AIS SIGSEMISBulletin,Vol.1 No.3,October 2004,pp.21-24;Ryusuke Masuoka andYannis Labrou,Task Computing-Semantic-web enabled,user-driven,interactive environments,WWW Based Communities For KnowledgePresentation,Sharing,Mining and Protection(The PSMP workshop)withinCIC 2003,June 23-26,2003,las Vegas,USA;2003年12月12日提交的未決美國非臨時(shí)實(shí)用新型專利申請第10/733,328號和美國臨時(shí)申請第60/434,432、60/501,012和60/511,741號。任務(wù)計(jì)算基于語義輸入和輸出描述向用戶呈現(xiàn)可用服務(wù)的可能組合并生成環(huán)境,其中非計(jì)算專家可以像計(jì)算專家一樣受益于可用資源和服務(wù)。數(shù)據(jù)語義化器100具有將類似的互操作性帶給任意格式和任意領(lǐng)域中的應(yīng)用程序數(shù)據(jù)集的優(yōu)點(diǎn)。
現(xiàn)有的數(shù)據(jù)注解方法完全依賴于用戶知識和人工處理,不適合注解大量數(shù)據(jù)。它們往往太過枯燥和易于出錯(cuò)以致于不能應(yīng)用。數(shù)據(jù)語義化器100幫助用戶生成規(guī)則集110以用于由相似范式文件構(gòu)成的大數(shù)據(jù)集108,并使得用規(guī)則集110注解數(shù)據(jù)108的處理自動(dòng)化。本方法使得在用語義注解數(shù)據(jù)時(shí)涉及的人類努力和人類依賴性最小化。
此外,數(shù)據(jù)語義化器100的被自動(dòng)化的數(shù)據(jù)注解過程允許對語義數(shù)據(jù)118的快速開發(fā)。測試結(jié)果表明一旦用戶接受了建議,則各包括550Fast-A格式蛋白質(zhì)序列的兩個(gè)文件可以使用BIOPAX LEVEL 1本體116在約20秒內(nèi)無錯(cuò)地注解。
使用數(shù)據(jù)語義化器的一個(gè)重大優(yōu)點(diǎn)是人們可以利用關(guān)于輸出的被注解數(shù)據(jù)集118的語義網(wǎng)絡(luò)技術(shù)。數(shù)據(jù)與應(yīng)用程序兼容性的確定被簡化并且在某些情況下可以自動(dòng)化。數(shù)據(jù)可能更容易和更正確地在不同應(yīng)用程序和組織之間共享,使能進(jìn)行互操作。例如,目前由數(shù)據(jù)語義化器100生成的語義數(shù)據(jù)118已經(jīng)用于BIO-STEER和BIO-CENTRAL兩個(gè)應(yīng)用程序中。BIO-STEER是生物信息領(lǐng)域中任務(wù)計(jì)算的應(yīng)用程序,它給用戶提供了組合語義定義的進(jìn)行生物信息分析的服務(wù)的靈活性(例如種族基因分析)。這些作為一個(gè)服務(wù)的輸出的語義服務(wù)交換語義數(shù)據(jù)用作下一步的輸入。使用數(shù)據(jù)語義化器100,現(xiàn)在可以用適當(dāng)?shù)姆g將語義數(shù)據(jù)118傳遞給其他語義服務(wù)。
BIO-CENTRAL是允許訪問基于知識的語義注解生物數(shù)據(jù)的網(wǎng)站。它例示了語義描述的數(shù)據(jù)的優(yōu)點(diǎn)。數(shù)據(jù)語義化器100可以用BIOPAX-LEVEL1(生物學(xué)路徑交換語言)[Bader et al.“BioPAX Biological Pathways Exchange Language,Level 1,Version 1.0 Documentation”,BioPAXRecommendation,[www.biopax.org/Download/Level1v1.0/biopax-level.zip,2004年10月22日檢索]]本體注解來自生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫(BIND)[Bader,Betel,and Hogue,“BINDThe Bimolecular Interaction Network Database,”Nucleic Acids,Res,PMID,Vol.31,No.1,2003]的分子相互作用數(shù)據(jù)。然后經(jīng)注解的數(shù)據(jù)118被存放到BIO-CENTRAL數(shù)據(jù)庫中。
當(dāng)用豐富語義注解數(shù)據(jù)時(shí),數(shù)據(jù)可以被容易地操作、變換和以多種不同方式使用。然而,將數(shù)據(jù)“推上”較高級的工作并非微不足道。數(shù)據(jù)語義化器100的結(jié)構(gòu)象“泵”一樣工作,并且通過以下步驟來幫助用戶以容易得多的方式完成該過程定義(在軟件中實(shí)現(xiàn))一組注解元素以捕獲作為輸入數(shù)據(jù)的電子數(shù)據(jù)的結(jié)構(gòu);按照所定義的該組注解元素和輸入數(shù)據(jù)的樣本生成規(guī)則以捕獲輸入數(shù)據(jù)的結(jié)構(gòu);將該規(guī)則應(yīng)用于輸入數(shù)據(jù);并且基于用于輸入數(shù)據(jù)的規(guī)則生成輸入數(shù)據(jù)的語義實(shí)例。
近年,兩個(gè)領(lǐng)域中越來越多的研究者正認(rèn)識到將語義網(wǎng)絡(luò)和Grid合在一起的好處和優(yōu)點(diǎn)[E-Science,IEEE Intelligent Systems,Vol.19,No.1,Jan/Feb 2004]。為了充分利用Grid中的語義網(wǎng)絡(luò),必須將語義注解加入現(xiàn)有數(shù)據(jù)。少數(shù)研究者已經(jīng)歷了用語義注解數(shù)據(jù)之路。然而,現(xiàn)有的方法,諸如GENE ONTOLOGY ANNOTATION[www.geneontology.org,2004年10月22日檢索]和TRELLIS[www.isi.edu/ikcap/trellis,2004年10月22日檢索],完全依賴用戶的知識,往往枯燥且易于出錯(cuò)。數(shù)據(jù)語義化器100提供了一種減少對人的依賴性地向數(shù)據(jù)加入語義的方法。
此外,數(shù)據(jù)語義化器100在輸入數(shù)據(jù)類型和應(yīng)用領(lǐng)域方面很靈活。它不僅可以用于純文本數(shù)據(jù),還可以用于其他數(shù)據(jù)類型,諸如關(guān)系數(shù)據(jù)庫、可擴(kuò)展的標(biāo)記語言(XML)數(shù)據(jù)庫、媒體(例如圖像、視頻、聲音等等)文件,并且甚至可用于Grid計(jì)算中的數(shù)據(jù)訪問模型。數(shù)據(jù)語義化器中使用的方法不是領(lǐng)域?qū)S玫?,因?yàn)樗捎糜诙鄠€(gè)應(yīng)用領(lǐng)域,諸如生命科學(xué)、政府、商業(yè)等等。數(shù)據(jù)語義化器100還將在語義網(wǎng)絡(luò)技術(shù)的開發(fā)中扮演重要的角色。此外,數(shù)據(jù)語義化器100提供以下優(yōu)點(diǎn)(a)單個(gè)輸入文件的任意組合或者多個(gè)輸入文件可以導(dǎo)致生成包含多個(gè)語義實(shí)例的單個(gè)輸出文件或者各自包含一個(gè)或更多個(gè)來自輸入數(shù)據(jù)的語義實(shí)例的多個(gè)輸出文件;(b)可以提供生成用戶選擇的一個(gè)語義實(shí)例的服務(wù);(c)可以提供生成用戶選擇的語義實(shí)例的列表的服務(wù);(d)可以提供生成輸入文件的所有語義實(shí)例的列表的服務(wù);以及(e)可以直接將語義對象插入RDF/OWL存儲(chǔ)器和/或關(guān)系數(shù)據(jù)庫(RDB)中。
包括上述處理的數(shù)據(jù)語義化器100以軟件實(shí)現(xiàn)(存儲(chǔ)在任何已知的計(jì)算機(jī)可讀介質(zhì)中)和/或控制計(jì)算設(shè)備(任何類型的計(jì)算裝置,諸如(不限于)個(gè)人計(jì)算機(jī)、在客戶-服務(wù)器網(wǎng)絡(luò)結(jié)構(gòu)中的服務(wù)器和/或客戶端計(jì)算機(jī),在分布式網(wǎng)絡(luò)結(jié)構(gòu)中的聯(lián)網(wǎng)的計(jì)算機(jī))的計(jì)算硬件。
從詳細(xì)的說明書中本發(fā)明的許多特征和優(yōu)點(diǎn)清楚明了,并且所附權(quán)利要求旨在覆蓋落入本發(fā)明的真實(shí)精神和范圍之內(nèi)的本發(fā)明的所有這些特征和優(yōu)點(diǎn)。此外,由于本領(lǐng)域技術(shù)人員將容易得到許多修改和變型,因此并不想將本發(fā)明限制到圖示出和說明的精確的構(gòu)造和操作,所以所有適當(dāng)?shù)男薷暮偷韧锒悸淙氡景l(fā)明的范圍之內(nèi)。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括定義一組注解元素以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù);根據(jù)所定義的該組注解元素和輸入數(shù)據(jù)的樣本生成映射規(guī)則;通過將該映射規(guī)則應(yīng)用于輸入數(shù)據(jù)將所述概念映射到輸入數(shù)據(jù);以及基于從概念到輸入數(shù)據(jù)的映射生成輸入數(shù)據(jù)的語義實(shí)例。
2.根據(jù)權(quán)利要求1所述的方法,其中將概念映射到輸入數(shù)據(jù)的該組注解元素包括對應(yīng)輸入數(shù)據(jù)選出的本體、作為要映射的概念的從選出本體中選出的本體概念、樣本輸入數(shù)據(jù)中的詞或詞組到從選出的本體中選出的本體概念的映射、以及與樣本輸入數(shù)據(jù)的結(jié)構(gòu)相關(guān)的被映射的詞或詞組的范式。
3.根據(jù)權(quán)利要求1所述的方法,其中生成映射規(guī)則的步驟包括建議概念到樣本輸入數(shù)據(jù)中的詞或詞組的樣本映射,作為輸入數(shù)據(jù)的映射規(guī)則;以及將該映射規(guī)則用在將概念映射到輸入數(shù)據(jù)的映射中。
4.根據(jù)權(quán)利要求1所述的方法,還包括提供一種服務(wù),該服務(wù)提供作為輸入數(shù)據(jù)的抽象的語義實(shí)例,可在任務(wù)計(jì)算環(huán)境中使用。
5.根據(jù)權(quán)利要求2所述的方法,還包括顯示輸入數(shù)據(jù),其中被定義為將概念映射到輸入數(shù)據(jù)的該組元素還包括對映射到顯示的輸入數(shù)據(jù)的樣本的選出本體的被選出的本體概念的可感知區(qū)分,并且所述可感知區(qū)分包括通過涂色、字體、字體大小、下劃線、粗體、斜體、編號、顯示圖標(biāo)或者其任意組合可視地區(qū)分出相同的本體概念。
6.根據(jù)權(quán)利要求2所述的方法,還包括在第一圖形用戶界面窗口中顯示輸入數(shù)據(jù)的樣本,并且在第二圖形用戶界面窗口中顯示選出的本體,其中將樣本輸入數(shù)據(jù)中的詞或詞組映射到選出的本體概念的步驟按照在第一和第二圖形用戶界面之間敲擊拖拉進(jìn)行。
7.根據(jù)權(quán)利要求3所述的方法,其中從選出本體中選出的本體概念到樣本輸入數(shù)據(jù)中的詞或詞組的樣本映射的建議包括與選出的本體概念一樣的樣本輸入數(shù)據(jù)中的詞或詞組的可感知區(qū)分。
8.根據(jù)權(quán)利要求1所述的方法,其中輸入數(shù)據(jù)是結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的或者其任意組合。
9.根據(jù)權(quán)利要求2所述的方法,其中位置信息、規(guī)則表達(dá)或者其任意組合確定了與樣本輸入數(shù)據(jù)的結(jié)構(gòu)有關(guān)的被映射的詞或詞組的范式。
10.根據(jù)權(quán)利要求9所述的方法,其中依賴于輸入數(shù)據(jù)的位置信息和規(guī)則表達(dá)的模板用來確定與樣本輸入數(shù)據(jù)有關(guān)的被映射的詞或詞組的范式。
11.根據(jù)權(quán)利要求1所述的方法,其中生成多個(gè)映射規(guī)則并且該方法還包括給各個(gè)映射規(guī)則分配優(yōu)先級;以及按照分配的映射規(guī)則優(yōu)先級將映射規(guī)則應(yīng)用于輸入數(shù)據(jù)。
12.根據(jù)權(quán)利要求1所述的方法,其中生成多個(gè)映射規(guī)則并且該方法還包括給各個(gè)映射規(guī)則分配順序;以及按照映射規(guī)則的順序?qū)⒂成湟?guī)則應(yīng)用于輸入數(shù)據(jù)。
13.根據(jù)權(quán)利要求2所述的方法,其中模板用來確定與樣本輸入數(shù)據(jù)的結(jié)構(gòu)有關(guān)的被映射的詞或詞組的范式。
14.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括選出作為要語義化的輸入數(shù)據(jù)的電子數(shù)據(jù);由用戶選出本體;從輸入數(shù)據(jù)中選出輸入數(shù)據(jù);由用戶從選出的本體中選出本體概念;由用戶將選出的本體概念映射到輸入數(shù)據(jù);基于選出的本體概念到輸入數(shù)據(jù)的映射生成數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則;存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則;基于該數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則向用戶建議所述選出的本體概念到所述輸入數(shù)據(jù)的樣本的映射;通過修改選出本體、輸入數(shù)據(jù)、選出的本體概念、所述選出的本體概念到輸入數(shù)據(jù)的映射,或者其任意組合來按照用戶的輸入優(yōu)化生成的數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則;以及如果用戶接受將選出的本體概念映射到樣本輸入數(shù)據(jù)的映射建議,則通過將生成的優(yōu)化數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則應(yīng)用于全體輸入數(shù)據(jù)來語義化輸入數(shù)據(jù)。
15.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括選出應(yīng)用于輸入的電子數(shù)據(jù)的本體;選出數(shù)據(jù)的樣本;基于數(shù)據(jù)的選出本體,使用數(shù)據(jù)的樣本捕獲輸入電子數(shù)據(jù)的結(jié)構(gòu);以及基于捕獲的數(shù)據(jù)結(jié)構(gòu)和選出的本體為輸入電子數(shù)據(jù)生成語義實(shí)例。
16.根據(jù)權(quán)利要求15所述的方法,其中捕獲樣本輸入數(shù)據(jù)的結(jié)構(gòu)的步驟包括將來自選出本體的本體概念映射到樣本輸入數(shù)據(jù);基于本體概念的映射對樣本輸入數(shù)據(jù)的結(jié)構(gòu)進(jìn)行近似;以及按照對樣本輸入數(shù)據(jù)的結(jié)構(gòu)的近似捕獲輸入電子數(shù)據(jù)的結(jié)構(gòu)。
17.根據(jù)權(quán)利要求16所述的方法,其中捕獲樣本輸入數(shù)據(jù)的結(jié)構(gòu)的步驟還包括由用戶選出本體概念;向用戶建議選出的本體概念到樣本輸入數(shù)據(jù)的映射;以及如果用戶接受選出的本體概念到樣本輸入數(shù)據(jù)的映射,則對樣本輸入數(shù)據(jù)的結(jié)構(gòu)進(jìn)行近似。
18.根據(jù)權(quán)利要求15所述的方法,其中按照輸入電子數(shù)據(jù)的領(lǐng)域選出本體。
19.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括定義一組注解元素以捕獲作為輸入數(shù)據(jù)的電子數(shù)據(jù)的結(jié)構(gòu);按照該組被定義的注解元素和輸入數(shù)據(jù)的樣本生成規(guī)則以捕獲輸入數(shù)據(jù)的結(jié)構(gòu);將該規(guī)則應(yīng)用于輸入數(shù)據(jù);以及基于用于輸入數(shù)據(jù)的規(guī)則生成輸入數(shù)據(jù)的語義實(shí)例。
20.根據(jù)權(quán)利要求19所述的方法,其中捕獲輸入數(shù)據(jù)結(jié)構(gòu)的該組注解元素包括對應(yīng)輸入數(shù)據(jù)的選出本體、從選出本體選出的本體概念以及樣本輸入數(shù)據(jù)中的詞組和/或詞組區(qū)到從選出本體選出的本體概念的映射。
21.根據(jù)權(quán)利要求20所述的方法,其中生成捕獲輸入數(shù)據(jù)的結(jié)構(gòu)的規(guī)則的步驟包括建議從選出本體選出的本體概念到樣本輸入數(shù)據(jù)的映射,作為輸入數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)規(guī)則;以及按照選擇輸入數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)規(guī)則的建議選擇映射,以在將規(guī)則應(yīng)用到輸入數(shù)據(jù)中應(yīng)用該數(shù)據(jù)結(jié)構(gòu)規(guī)則。
22.根據(jù)權(quán)利要求1所述的方法,其中輸入數(shù)據(jù)是單個(gè)輸入文件的任意組合或多個(gè)輸入文件,并且生成語義實(shí)例的步驟包括生成包含多個(gè)語義實(shí)例的單個(gè)輸出文件,或者生成各自包含一個(gè)或更多個(gè)來自輸入數(shù)據(jù)的語義實(shí)例的多個(gè)輸出文件。
23.根據(jù)權(quán)利要求22所述的方法,其中輸入文件按照資源描述框架(RDF)/網(wǎng)絡(luò)本體語言(OWL)和/或關(guān)系數(shù)據(jù)庫(RDB)格式。
24.根據(jù)權(quán)利要求1所述的方法,還包括由用戶選出輸入數(shù)據(jù)的樣本;由用戶將概念映射到由用戶選擇的輸入數(shù)據(jù),基于用戶進(jìn)行的概念到輸入數(shù)據(jù)樣本的映射生成映射規(guī)則;基于對輸入數(shù)據(jù)的樣本生成的映射規(guī)則將概念映射到輸入數(shù)據(jù);以及按照概念到輸入數(shù)據(jù)的映射生成用于輸入數(shù)據(jù)的語義實(shí)例,從而向用戶提供用于全體輸入數(shù)據(jù)的受控?cái)?shù)據(jù)語義化服務(wù)。
25.根據(jù)權(quán)利要求24所述的方法,其中多個(gè)概念被映射到輸入數(shù)據(jù)并且生成多個(gè)用戶控制的語義實(shí)例,并且該方法還包括生成基于輸入數(shù)據(jù)生成的用戶控制語義實(shí)例的列表。
26.根據(jù)權(quán)利要求24所述的方法,其中用戶進(jìn)行的映射包括將來自多個(gè)本體的多個(gè)概念映射到多個(gè)輸入數(shù)據(jù)的多個(gè)樣本,以及其中生成語義實(shí)例的步驟包括生成將來自多個(gè)本體的多個(gè)概念映射到多個(gè)輸入數(shù)據(jù)的多個(gè)語義實(shí)例。
27.一種計(jì)算裝置,包括編程的計(jì)算機(jī)處理器,按照以下處理控制該裝置,所述處理包括定義一組注解元素以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù);根據(jù)所定義的該組注解元素和輸入數(shù)據(jù)的樣本生成映射規(guī)則;通過將該映射規(guī)則應(yīng)用于輸入數(shù)據(jù)將概念映射到輸入數(shù)據(jù);以及基于概念到輸入數(shù)據(jù)的映射生成輸入數(shù)據(jù)的語義實(shí)例。
28.根據(jù)權(quán)利要求27的裝置,其中將概念映射到輸入數(shù)據(jù)的該組注解元素包括對應(yīng)輸入數(shù)據(jù)選出的本體、從選出的本體中選出的本體概念、樣本輸入數(shù)據(jù)中的詞或詞組到從選出的本體中選出的本體概念的映射,以及與樣本輸入數(shù)據(jù)的結(jié)構(gòu)相關(guān)的被映射的詞或詞組的范式。
29.根據(jù)權(quán)利要求28的裝置,其中生成映射規(guī)則的步驟包括建議從選出的本體中選出的本體概念到樣本輸入數(shù)據(jù)中的詞或詞組的樣本映射,作為輸入數(shù)據(jù)的映射規(guī)則;以及將該映射規(guī)則用在將概念映射到輸入數(shù)據(jù)的映射中。
30.根據(jù)權(quán)利要求27的裝置,所述被編程的計(jì)算機(jī)處理器進(jìn)行的裝置控制處理還包括提供一種服務(wù),該服務(wù)提供作為輸入數(shù)據(jù)的抽象的語義實(shí)例,可在任務(wù)計(jì)算環(huán)境中使用。
31.根據(jù)權(quán)利要求27的裝置,其中編程的計(jì)算機(jī)處理器進(jìn)行的裝置控制處理還包括由用戶選出輸入數(shù)據(jù)的樣本;由用戶將概念映射到由用戶選擇的輸入數(shù)據(jù),基于用戶進(jìn)行的概念到輸入數(shù)據(jù)樣本的映射生成映射規(guī)則;基于為輸入數(shù)據(jù)的樣本生成的映射規(guī)則將概念映射到輸入數(shù)據(jù);以及按照概念到輸入數(shù)據(jù)的映射為輸入數(shù)據(jù)生成語義實(shí)例,從而向用戶提供針對全體輸入數(shù)據(jù)的受控?cái)?shù)據(jù)語義化服務(wù)。
32.一種計(jì)算裝置,包括定義一組注解元素以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù)的裝置;根據(jù)所定義的該組注解元素和輸入數(shù)據(jù)的樣本生成映射規(guī)則的裝置;通過將該映射規(guī)則應(yīng)用于輸入數(shù)據(jù)將概念映射到輸入數(shù)據(jù)的裝置;以及基于從概念到輸入數(shù)據(jù)的映射生成輸入數(shù)據(jù)的語義實(shí)例的裝置。
33.一種計(jì)算裝置,包括編程的計(jì)算機(jī)處理器,按照以下處理控制該裝置,所述處理包括選出作為要語義化的輸入數(shù)據(jù)的電子數(shù)據(jù);由用戶選擇本體數(shù)據(jù)庫;從輸入數(shù)據(jù)中選出輸入數(shù)據(jù);由用戶從選出的本體中選出本體概念;由用戶將選出的本體概念映射到輸入數(shù)據(jù);基于選出的本體概念到輸入數(shù)據(jù)的映射生成數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則;基于該數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則向用戶建議選出的本體概念到輸入數(shù)據(jù)的樣本的映射;通過修改所選的本體、輸入數(shù)據(jù)、選出的本體概念、選出的本體概念到輸入數(shù)據(jù)的映射,或者其任意組合來按照用戶的輸入優(yōu)化生成的數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則;以及如果用戶接受了選出的本體概念到樣本輸入數(shù)據(jù)的映射的映射建議,則通過將生成的優(yōu)化數(shù)據(jù)結(jié)構(gòu)捕獲規(guī)則應(yīng)用于全體輸入數(shù)據(jù)來語義化輸入數(shù)據(jù)。
全文摘要
一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括定義一組注解元素以將概念映射到作為輸入數(shù)據(jù)的電子數(shù)據(jù);根據(jù)該組定義的注解元素和輸入數(shù)據(jù)的樣本生成映射規(guī)則;通過將該映射規(guī)則應(yīng)用于輸入數(shù)據(jù)而將概念映射到輸入數(shù)據(jù);以及基于從概念到輸入數(shù)據(jù)的映射生成輸入數(shù)據(jù)的語義實(shí)例。該組將概念映射到輸入數(shù)據(jù)的注解元素是對應(yīng)輸入數(shù)據(jù)選出的本體、從選出的本體中選出的本體概念、樣本輸入數(shù)據(jù)中的詞或詞組到從選出本體中選出的本體概念的映射、以及與樣本輸入數(shù)據(jù)的結(jié)構(gòu)相關(guān)的被映射的詞或詞組的范式。
文檔編號G06F17/30GK1794234SQ20051013268
公開日2006年6月28日 申請日期2005年12月20日 優(yōu)先權(quán)日2004年12月20日
發(fā)明者帕特里克·約瑟夫·阿姆斯特朗, 納達(dá)·哈什米, 李承妍, 益岡竜介, 宋哲炫 申請人:富士通株式會(huì)社