用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方法和系統(tǒng)的制作方法
【專利摘要】本
【發(fā)明內(nèi)容】
涉及用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。接收一組文檔,所述一組文檔中的文檔包含表格數(shù)據(jù)。選擇要確定其依賴性的表格數(shù)據(jù)中的單元格。選擇與單元格結(jié)合使用的假設(shè)。通過確定是否能夠通過在所選部分上使用在假設(shè)中規(guī)定的函數(shù)來計(jì)算假設(shè)中的結(jié)論,測(cè)試假設(shè)是否適用于文檔的所選部分。所選部分可以是文檔的表格數(shù)據(jù)中的所選單元格范圍或非表格部分中的內(nèi)容。利用假設(shè)以相對(duì)于所選部分描述單元格。
【專利說明】用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一般涉及用于文檔的自然語言處理的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。更特 別地,本發(fā)明涉及用于發(fā)現(xiàn)表格數(shù)據(jù)(tabular data)中的關(guān)系的方法、系統(tǒng)和計(jì)算機(jī)程序 產(chǎn)品。
【背景技術(shù)】
[0002] 文檔包含任何形式的信息。例如,被配置為語句和段落的文本信息以敘述的形式 傳遞信息。
[0003] -些類型的信息是在表格組織中被呈現(xiàn)的。例如,文檔可包含用于呈現(xiàn)財(cái)務(wù)信息、 組織信息并且一般呈現(xiàn)通過一些關(guān)系相互相關(guān)的任何數(shù)據(jù)條目的表格。
[0004] 自然語言處理(NLP)是便利于人與數(shù)據(jù)處理系統(tǒng)之間的信息交換的技術(shù)。例如, NLP的一個(gè)分支屬于將給定的內(nèi)容轉(zhuǎn)換成人可用的語言或形式。例如,NLP可接受內(nèi)容是計(jì) 算機(jī)特定語言或形式的文檔,并產(chǎn)生相應(yīng)內(nèi)容采取人可讀形式的文檔。
【發(fā)明內(nèi)容】
[0005] 解釋性實(shí)施例提供用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。 實(shí)施例接收一組文檔,所述一組文檔中的文檔包含表格數(shù)據(jù)。實(shí)施例選擇要確定其依賴性 的表格數(shù)據(jù)中的單元格。實(shí)施例選擇與單元格(cell)結(jié)合使用的假設(shè)(hypothesis)。實(shí) 施例通過確定是否能夠通過在所選部分上使用在假設(shè)中規(guī)定的函數(shù)來計(jì)算假設(shè)中的結(jié)論, 使用處理器和存儲(chǔ)器測(cè)試假設(shè)是否適用于文檔的所選部分,其中,文檔的所選部分包含文 檔的表格數(shù)據(jù)中的所選單元格范圍和非表格部分中的內(nèi)容中的一個(gè)。實(shí)施例利用假設(shè)以相 對(duì)于所選部分描述單元格。
【專利附圖】
【附圖說明】
[0006] 在所附的權(quán)利要求中闡述被認(rèn)為是本發(fā)明的特征的新穎特征。但是,通過在結(jié)合 附圖閱讀時(shí)參照解釋性實(shí)施例的以下的詳細(xì)描述,可以最好地理解本發(fā)明自身以及優(yōu)選的 使用方式及其進(jìn)一步目的和優(yōu)點(diǎn),其中,
[0007] 圖1示出可實(shí)現(xiàn)解釋性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖示;
[0008] 圖2示出可實(shí)現(xiàn)解釋性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖;
[0009] 圖3示出根據(jù)解釋性實(shí)施例的其中可識(shí)別函數(shù)依賴性的表格數(shù)據(jù)的例子;
[0010] 圖4示出根據(jù)解釋性實(shí)施例的發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方式的框圖;
[0011] 圖5示出根據(jù)解釋性實(shí)施例的用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的應(yīng)用的框圖;
[0012] 圖6示出根據(jù)解釋性實(shí)施例的用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的示例處理的流程圖; 以及
[0013] 圖7示出根據(jù)解釋性實(shí)施例的用于評(píng)價(jià)置信水平的示例處理的流程圖。
【具體實(shí)施方式】
[0014] 解釋性實(shí)施例認(rèn)識(shí)到,經(jīng)受NLP的文檔一般包含表格數(shù)據(jù),S卩,一個(gè)或多個(gè)表格數(shù) 據(jù)結(jié)構(gòu)(表格)的形式的內(nèi)容。表格的單元格是表格內(nèi)的包含單元,使得單元格的內(nèi)容可 唯一地由表格的行和列或其它的適當(dāng)?shù)淖鴺?biāo)識(shí)別。
[0015] 解釋性實(shí)施例認(rèn)識(shí)到,在表格的單元格內(nèi)呈現(xiàn)的信息常常涉及同一表格的其它單 元格中的信息、同一文檔中的不同表格的單元格或不同文檔中的單元格或不同表格。對(duì)于 理解表格數(shù)據(jù)的意思,并且,一般對(duì)于總體理解文檔的意思,包含于不同單元格中的信息之 間的關(guān)系是十分重要的。
[0016] 解釋性實(shí)施例認(rèn)識(shí)到,為了正確和完整地解釋表格數(shù)據(jù),在NLP中需要專門的處 理或操作。用于理解單元格值之間的關(guān)系的當(dāng)前可用技術(shù)限于通過使用行或列標(biāo)題啟發(fā)式 地猜測(cè)單元格的標(biāo)簽。
[0017] 用于描述本發(fā)明的解釋性實(shí)施例一般針對(duì)并解決與當(dāng)前可用NLP技術(shù)的限制有 關(guān)的上述問題和其它問題。解釋性實(shí)施例提供用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方法、系統(tǒng)和 計(jì)算機(jī)程序產(chǎn)品。
[0018] 解釋性實(shí)施例認(rèn)識(shí)到,表格中的單元格可依賴于表格中的一個(gè)或多個(gè)其它的單元 格、跨給定文檔中的不同表格的單元格或跨不同文檔中的不同表格中的單元格。一個(gè)單元 格對(duì)另一單元格的依賴性在本質(zhì)上是函數(shù)關(guān)系,即,基于函數(shù)的依賴性。例如,形成這種函 數(shù)依賴性的基礎(chǔ)的函數(shù)可以是在某些單元格值上運(yùn)算以在某些其它的單元格中賦予單元 格值的數(shù)學(xué)、統(tǒng)計(jì)、邏輯或條件函數(shù)的任意組合。
[0019] 作為例子,包含總量的單元格在函數(shù)上依賴于值參與總量的單元格。作為另一例 子,統(tǒng)計(jì)分析結(jié)果單元格,諸如包含實(shí)驗(yàn)中的方差值的單元格,可在函數(shù)上依賴于可能處于 另一表格中的一組其它的單元格,在該另一表格中記錄實(shí)驗(yàn)的各種迭代的結(jié)果。
[0020] 這些例子意圖不在于限制解釋性實(shí)施例。函數(shù)依賴性指示一個(gè)或多個(gè)表格的單元 格之間的關(guān)系,并且高度可根據(jù)表格或文檔中的數(shù)據(jù)、其目的和各種單元格的意思被配置。
[0021] 并且,單元格可作為從屬單元格和/或作為被從屬單元格參與任意數(shù)量的函數(shù)依 賴性。由于單元格中的信息可涉及在給定文檔中的任何位置可用的信息,因此單元格的函 數(shù)依賴性也可包含依賴于給定文檔中的非表格數(shù)據(jù)。
[0022] 解釋性實(shí)施例通過使得NLP工具能夠理解表格數(shù)據(jù)的單元格的關(guān)系而改善在文 檔中以表格形式呈現(xiàn)的信息的理解。解釋性實(shí)施例提供確定表格中的單元格對(duì)其它單元 格、表格的周圍文本、文檔中的內(nèi)容或它們的組合的函數(shù)依賴性的方式。
[0023] 精度是相對(duì)于從表格理解了多少,從表格理解的多少是正確的度量。喚回 (recall)是相對(duì)于在表格中實(shí)際上要理解多少信息,從表格理解了多少的度量。
[0024] -般地,嘗試提高精度導(dǎo)致喚回性能劣化,反之亦然。實(shí)施例改善具有表格數(shù)據(jù)的 文檔的自然語言處理的精度和喚回。
[0025] 關(guān)于某些文檔和表格數(shù)據(jù),僅作為例子描述解釋性實(shí)施例。這些文檔、表格數(shù)據(jù)或 它們的示例性屬性不意在限制本發(fā)明。
[0026] 并且,可關(guān)于任何類型的數(shù)據(jù)、數(shù)據(jù)源或在數(shù)據(jù)網(wǎng)絡(luò)上對(duì)數(shù)據(jù)源的訪問實(shí)現(xiàn)解釋 性實(shí)施例。在本發(fā)明的范圍內(nèi),在數(shù)據(jù)處理系統(tǒng)本地或者在數(shù)據(jù)網(wǎng)絡(luò)上,任何類型的數(shù)據(jù)存 儲(chǔ)裝置可向本發(fā)明的實(shí)施例提供數(shù)據(jù)。
[0027] 解釋性實(shí)施例僅通過使用特定的代碼、設(shè)計(jì)、架構(gòu)、協(xié)議、布局、示圖和工具作為例 子被描述,并且,不限于解釋性實(shí)施例。并且,在一些情況下,為了闡明描述,僅通過使用特 定的軟件、工具和數(shù)據(jù)處理環(huán)境作為例子描述解釋性實(shí)施例。解釋性實(shí)施例可與其它的相 當(dāng)或目的相近的結(jié)構(gòu)、系統(tǒng)、應(yīng)用或架構(gòu)結(jié)合使用??稍谟布④浖蛩鼈兊慕M合中實(shí)現(xiàn)解 釋性實(shí)施例。
[0028] 本公開中的例子僅用于闡明描述,并且不限于解釋性實(shí)施例??蓮谋竟_構(gòu)想附 加的數(shù)據(jù)、操作、動(dòng)作、任務(wù)、活動(dòng)和操控,并且,它們?cè)诮忉屝詫?shí)施例的范圍內(nèi)被設(shè)想。
[0029] 這里列出的任何優(yōu)點(diǎn)僅是例子,并且不意在限于解釋性實(shí)施例??赏ㄟ^特定的解 釋性實(shí)施例實(shí)現(xiàn)附加或不同的優(yōu)點(diǎn)。并且,解釋性實(shí)施例可具有以上列出的優(yōu)點(diǎn)中的一些 或全部,或者不具有它們中的任一個(gè)。
[0030] 參照附圖,特別是參照?qǐng)D1和圖2,這些附圖是可實(shí)現(xiàn)解釋性實(shí)施例的數(shù)據(jù)處理環(huán) 境的示例示圖。圖1和圖2僅是例子,并且不意在關(guān)于可實(shí)現(xiàn)不同的實(shí)施例的環(huán)境斷言或 暗示任何限制。特定的實(shí)現(xiàn)可基于以下的描述對(duì)示出的環(huán)境提出許多修改。
[0031] 圖1示出可實(shí)現(xiàn)解釋性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖示。數(shù)據(jù)處理環(huán)境100 是可實(shí)現(xiàn)解釋性實(shí)施例的計(jì)算機(jī)網(wǎng)絡(luò)。數(shù)據(jù)處理環(huán)境100包括網(wǎng)絡(luò)102。網(wǎng)絡(luò)102是用于 在各種裝置與在數(shù)據(jù)處理環(huán)境100內(nèi)連接在一起的計(jì)算機(jī)之間提供通信鏈接的介質(zhì)。網(wǎng)絡(luò) 102可包含諸如導(dǎo)線、無線通信鏈接或光纖電纜的連接。服務(wù)器104和服務(wù)器106與存儲(chǔ)單 元108 -起與網(wǎng)絡(luò)102耦合??稍跀?shù)據(jù)處理環(huán)境100中的任何計(jì)算機(jī)上執(zhí)行軟件應(yīng)用。
[0032] 另外,客戶機(jī)110U12和114與網(wǎng)絡(luò)102耦合。諸如服務(wù)器104或106或客戶機(jī) 110U12或114的數(shù)據(jù)處理系統(tǒng)可包含數(shù)據(jù),并且可具有在其上面執(zhí)行的軟件應(yīng)用或軟件 工具。
[0033] 僅作為例子而不意味著對(duì)這些架構(gòu)的任何限制,圖1示出可在實(shí)施例的示例性實(shí) 現(xiàn)中使用的某些部件。例如,服務(wù)器104中的應(yīng)用105是這里描述的實(shí)施例的實(shí)現(xiàn)。應(yīng)用 105以與NLP引擎103結(jié)合的方式操作。NLP引擎103可以為例如能夠在文檔上執(zhí)行自然 語言處理的現(xiàn)有應(yīng)用,并且可被修改或被配置為以與應(yīng)用105結(jié)合的方式動(dòng)作,以根據(jù)這 里描述的實(shí)施例執(zhí)行動(dòng)作。根據(jù)實(shí)施例,存儲(chǔ)裝置108包括假設(shè)的庫109??蛻魴C(jī)112包含 具有根據(jù)實(shí)施例被處理的表格數(shù)據(jù)113的文檔。
[0034] 服務(wù)器104和106、存儲(chǔ)單元108和客戶機(jī)110、112和114可通過使用有線連接、 無線通信協(xié)議或其它適當(dāng)?shù)臄?shù)據(jù)連接與網(wǎng)絡(luò)102耦合??蛻魴C(jī)110、112和114可以為例如 個(gè)人計(jì)算機(jī)或網(wǎng)絡(luò)計(jì)算機(jī)。
[0035] 在示出的例子中,服務(wù)器104可向客戶機(jī)110、112和114提供諸如引導(dǎo)文件、操作 系統(tǒng)圖像和應(yīng)用的數(shù)據(jù)。在本例子中,客戶機(jī)110U12和114可以是服務(wù)器104的客戶機(jī)。 客戶機(jī)110、112和114或它們的一些組合可包含它們自身的數(shù)據(jù)、引導(dǎo)文件、操作系統(tǒng)圖像 和應(yīng)用。數(shù)據(jù)處理環(huán)境100可包含附加的服務(wù)器、客戶機(jī)和未示出的其它裝置。
[0036] 在示出的例子中,數(shù)據(jù)處理環(huán)境100可以是因特網(wǎng)。網(wǎng)絡(luò)102可代表使用傳送控 制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)和其它協(xié)議以相互通信的網(wǎng)絡(luò)和網(wǎng)關(guān)的集合。因特網(wǎng)的核 心是包含數(shù)以千計(jì)的路由數(shù)據(jù)和消息的商業(yè)、政府、教育和其它計(jì)算機(jī)系統(tǒng)的主節(jié)點(diǎn)或主 機(jī)計(jì)算機(jī)之間的數(shù)據(jù)通信鏈接的骨干。當(dāng)然,數(shù)據(jù)處理環(huán)境100也可實(shí)現(xiàn)為大量的不同類 型的網(wǎng)絡(luò),諸如例如內(nèi)聯(lián)網(wǎng)、局域網(wǎng)絡(luò)(LAN)或廣域網(wǎng)絡(luò)(WAN)。圖1意在作為例子,不作為 對(duì)不同解釋性實(shí)施例的架構(gòu)限制。
[0037] 在其它的用途中,數(shù)據(jù)處理環(huán)境100可被用于實(shí)現(xiàn)可實(shí)現(xiàn)解釋性實(shí)施例的客戶 機(jī)-服務(wù)器環(huán)境??蛻魴C(jī)-服務(wù)器環(huán)境使得軟件應(yīng)用和數(shù)據(jù)能夠跨網(wǎng)絡(luò)分布,使得應(yīng)用通 過利用客戶機(jī)數(shù)據(jù)處理系統(tǒng)與服務(wù)器數(shù)據(jù)處理系統(tǒng)之間的交互作用起作用。數(shù)據(jù)處理環(huán)境 100也可使用面向服務(wù)的架構(gòu),在該架構(gòu)中,可將跨網(wǎng)絡(luò)分布的交互操作的軟件部件作為相 干商業(yè)應(yīng)用封裝在一起。
[0038] 參照?qǐng)D2,該圖示出可實(shí)現(xiàn)解釋性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù)處理系統(tǒng) 200是計(jì)算機(jī)的例子,諸如圖1中的服務(wù)器104或客戶機(jī)112或解釋性實(shí)施例的可定位實(shí)現(xiàn) 處理的計(jì)算機(jī)可用程序代碼或指令的另一類型的設(shè)備。
[0039] 在示出的例子中,數(shù)據(jù)處理系統(tǒng)200使用包含北橋和存儲(chǔ)器控制器集線器(NB/ MCH) 202和南橋和輸入/輸出(I/O)控制器集線器(SB/ICH) 204的集線器架構(gòu)。處理單 元206、主存儲(chǔ)器208和圖形處理器210與北橋和存儲(chǔ)器控制器集線器(NB/MCH) 202耦合。 處理單兀206可包含一個(gè)或多個(gè)處理器,并且可通過使用一個(gè)或多個(gè)異質(zhì)處理器系統(tǒng)被實(shí) 現(xiàn)。處理單元206可以是多芯處理器。在某些實(shí)現(xiàn)中,圖形處理器210可通過加速圖形端 口(AGP)與 NB/MCH202 耦合。
[0040] 在示出的例子中,局域網(wǎng)絡(luò)(LAN)適配器212與南橋和I/O控制器集線器(SB/ ICH) 204耦合。音頻適配器216、鍵盤和鼠標(biāo)適配器220、調(diào)制解調(diào)器222、只讀存儲(chǔ)器 (ROM) 224、通用串行總線(USB)和其它端口 232和PCI/PCIe器件234通過總線238與南橋 和I/O控制器集線器204耦合。硬盤驅(qū)動(dòng)(HDD) 226和⑶-R0M230通過總線240與南橋和 I/O控制器集線器204耦合。PCI/PCIe器件234可包含例如以太網(wǎng)適配器、添加卡和用于 筆記本計(jì)算機(jī)的PC卡。PCI使用卡總線控制器,而PCIe不使用。例如,R0M224可以為快擦 寫二進(jìn)制輸入/輸出系統(tǒng)(BIOS)。硬盤驅(qū)動(dòng)226和⑶-R0M230可使用例如集成驅(qū)動(dòng)電子 (IDE)或串行高級(jí)技術(shù)附件(SATA)接口。超級(jí)I/O(SI0)器件236可通過總線238與南橋 和I/O控制器集線器(SB/ICH) 204耦合。
[0041] 諸如主存儲(chǔ)器208、R0M224或快擦寫存儲(chǔ)器(未示出)的存儲(chǔ)器是計(jì)算機(jī)可用存 儲(chǔ)裝置的一些例子。硬盤驅(qū)動(dòng)226、CD-R0M230和其它類似可用裝置是包括計(jì)算機(jī)可用存儲(chǔ) 介質(zhì)的計(jì)算機(jī)可用存儲(chǔ)裝置的一些例子。
[0042] 操作系統(tǒng)在處理單元206上運(yùn)行。操作系統(tǒng)協(xié)調(diào)并提供圖2中的數(shù)據(jù)處理系統(tǒng) 200內(nèi)的各種部件的控制。操作系統(tǒng)可以是諸如A1X? (AIX是International Business Machines Corporation 在美國和其它國家的商標(biāo))、Microsoft? Windows? (Microsoft 和 Windows 是Microsoft Corporation 在美國和其它國家的商標(biāo))或Linux? (Linux是Linux Torvalds在美國和其它國家的商標(biāo))的商業(yè)可用操作系統(tǒng)。諸如Java? 編程系統(tǒng)的面向?qū)ο蟮木幊滔到y(tǒng)可在與操作系統(tǒng)結(jié)合的情況下運(yùn)行,并從在數(shù)據(jù)處理系統(tǒng) 200上運(yùn)行的Java?程序或應(yīng)用提供對(duì)操作系統(tǒng)的調(diào)用(Java和所有基于Java的商標(biāo)和 標(biāo)志是Oracle Corporation和/或其附屬企業(yè)的商標(biāo)或注冊(cè)商標(biāo))。
[0043] 操作系統(tǒng)、面向?qū)ο蟮木幊滔到y(tǒng)和諸如圖1中的應(yīng)用105的應(yīng)用或程序的指令位 于諸如硬盤驅(qū)動(dòng)226的一個(gè)或多個(gè)存儲(chǔ)裝置中的至少一個(gè)上,并且可被加載到諸如主存儲(chǔ) 器208的一個(gè)或多個(gè)存儲(chǔ)器中的至少一個(gè)中,以供處理單元206執(zhí)行。可通過使用可位于 諸如例如主存儲(chǔ)器208、只讀存儲(chǔ)器224或一個(gè)或多個(gè)外設(shè)裝置中的計(jì)算機(jī)實(shí)現(xiàn)的指令由 處理單元206執(zhí)行解釋性實(shí)施例的處理。
[0044] 圖1?2中的硬件可根據(jù)實(shí)現(xiàn)改變。除了圖1?2所示的硬件之外或者作為其替 代,可以使用其它的內(nèi)部硬件或諸如快擦寫存儲(chǔ)器、相當(dāng)?shù)姆且资源鎯?chǔ)器或光盤驅(qū)動(dòng)等 的外設(shè)裝置。另外,解釋性實(shí)施例的處理可被應(yīng)用于多處理器數(shù)據(jù)處理系統(tǒng)。
[0045] 在一些解釋性的例子中,數(shù)據(jù)處理系統(tǒng)200可以是一般配置有快擦寫存儲(chǔ)器以提 供用于存儲(chǔ)操作系統(tǒng)文件和/或用戶產(chǎn)生數(shù)據(jù)的非易失性存儲(chǔ)器的個(gè)人數(shù)字助理(PDA)。 總線系統(tǒng)可包含一個(gè)或多個(gè)總線,諸如系統(tǒng)總線、I/O總線和PCI總線。當(dāng)然,可通過使用 在附接于構(gòu)造或架構(gòu)上的不同的部件或裝置之間提供數(shù)據(jù)傳送的任意類型的通信構(gòu)造或 架構(gòu),實(shí)現(xiàn)總線系統(tǒng)。
[0046] 通信單元可包含用于傳送和接收數(shù)據(jù)的一個(gè)或多個(gè)裝置,諸如調(diào)制解調(diào)器或網(wǎng)絡(luò) 適配器。存儲(chǔ)器可以為例如主存儲(chǔ)器208或高速緩存,諸如在北橋和存儲(chǔ)器控制器集線器 202中發(fā)現(xiàn)的高速緩存。處理單元可包含一個(gè)或多個(gè)處理器或CPU。
[0047] 圖1?2所示的例子和上述例子不意味著隱含架構(gòu)限制。例如,除了采取PDA的 形式以外,數(shù)據(jù)處理系統(tǒng)200也可以是平板計(jì)算機(jī)、膝上型計(jì)算機(jī)或電話裝置。
[0048] 參照?qǐng)D3,該圖示出根據(jù)解釋性實(shí)施例的可在其中識(shí)別函數(shù)依賴性的表格數(shù)據(jù)的 例子。表格300是在圖1中的文檔113中出現(xiàn)的表格數(shù)據(jù)的例子,在該表格數(shù)據(jù)中,可通過 使用圖1中的應(yīng)用105確定函數(shù)依賴性。
[0049] 僅作為例子而不意味著限制,為了為表格和單元格劃界,示出水平或垂直規(guī)則 線(rule-line)。在解釋性實(shí)施例的范圍內(nèi),可通過任何適當(dāng)?shù)姆绞奖磉_(dá)表格或表格 數(shù)據(jù),并且,可通過任何方式為單元格劃界。例如,在解釋性實(shí)施例的范圍內(nèi),設(shè)想縮排 (identation)、單元格數(shù)據(jù)之間的間隔、表格和非表格內(nèi)容中的不同的間隔、符號(hào)、圖形、用 于示出表格數(shù)據(jù)的特定的示圖或透視圖或在其中表達(dá)表格數(shù)據(jù)和單元格的這些和其它示 例方式的組合。
[0050] 表格302是表格300的一部分,并包括用于將各種單元格中的數(shù)據(jù)組織到標(biāo)題、類 別或種類(類別)中的幾個(gè)標(biāo)題。標(biāo)題可以是行標(biāo)題或列標(biāo)題。在解釋性實(shí)施例的范圍內(nèi), 標(biāo)題不限于表格邊界或末端。例如,標(biāo)題可諸如以副標(biāo)題的形式嵌入表格中、單元格之間, 以識(shí)別表格數(shù)據(jù)的子類。在解釋性實(shí)施例的范圍內(nèi)設(shè)想這種子行或子列標(biāo)題。在一個(gè)實(shí)施 例中,可與相應(yīng)的表格數(shù)據(jù)單獨(dú)地規(guī)定某些標(biāo)題信息,諸如在腳注、附錄、另一表格或給定 文檔中的另一位置中。
[0051] 例如,標(biāo)題304識(shí)別包含"財(cái)年1月31日結(jié)束"的大類的數(shù)據(jù)的一組列。標(biāo)題306、 308和310對(duì)三個(gè)示例性的年份識(shí)別"財(cái)年1月31日結(jié)束"數(shù)據(jù)的子類,S卩,按年。
[0052] 行標(biāo)題312包含一些線索。例如,行標(biāo)題314是"總計(jì)",并且在標(biāo)題316和318下 縮排。類似地,行標(biāo)題320是另一"總計(jì)",并在行標(biāo)題322下縮排。行標(biāo)題314和320上的 縮排是可用于理解與行標(biāo)題314和320在同一行中的單元格與表格302中的其它單元格之 間的函數(shù)關(guān)系的示例線索。行標(biāo)題314和320中的詞語"總計(jì)"是可用于以類似的方式確 定它們的相應(yīng)的行中的單元格的函數(shù)依賴性的線索的另一例子。
[0053] 這些示例性線索不意在限制解釋性實(shí)施例。本領(lǐng)域技術(shù)人員可從本公開設(shè)想許多 其它的線索,并且它們?cè)诮忉屝詫?shí)施例的范圍內(nèi)被設(shè)想。
[0054] 相同的線索有助于以不同的方式理解不同單元格中的信息。例如,考慮作為表格 300的另一部分的表格352。標(biāo)題354識(shí)別一組列,包含用于"改變"的大類的數(shù)據(jù)。標(biāo)題 356和358從類別306、308和310的三個(gè)示例年份識(shí)別"改變"數(shù)據(jù)的子類,S卩,通過比較兩 個(gè)連續(xù)的年份。
[0055] 行標(biāo)題312對(duì)它們?cè)诒砀?02和352中的相應(yīng)的行中的單元格賦予不同的意思。 例如,雖然在表格302中的相應(yīng)的單元格中根據(jù)行標(biāo)題314的"總計(jì)"意味著美元收入量, 但在表格352中的相應(yīng)的單元格中同一行標(biāo)題意味著美元量變化和百分比變化。與本示例 性表格300同樣,在實(shí)施例中,諸如行標(biāo)題312中的一個(gè)位置中的線索也可以與其它位置中 的其它的線索、數(shù)據(jù)或內(nèi)容結(jié)合的方式操作,以使得能夠確定給定表格數(shù)據(jù)中的某些單元 格的意思。
[0056] 參照?qǐng)D4,該圖示出根據(jù)解釋性實(shí)施例的發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的方式的框圖。表 格400與圖3中的表格300相同。表格402、452分別與圖3中的表格302和352類似。列 標(biāo)題404、406、408和410分別與圖3中的標(biāo)題304、306、308和310類似。行標(biāo)題412? 422分別與圖3中的行標(biāo)題312?322類似。
[0057] 如針對(duì)圖3注明的那樣,給定表格數(shù)據(jù)周圍的線索可幫助確定單元格的函數(shù)依賴 性。類似地,給定表格中的標(biāo)記也可形成附加的線索并幫助該確定、增強(qiáng)先前的確定,或者 兩者。例如,線424和426是在確定一些單元格的函數(shù)依賴性時(shí)用作附加的線索的示例表 格標(biāo)記。如上所述,用于表達(dá)表格或單元格劃界的線或其它表示法僅是例子,并且不意在限 制解釋性實(shí)施例。在解釋性實(shí)施例的范圍內(nèi),可在不使用諸如線424和426的表達(dá)輔助的 情況下表達(dá)表格和單元格。
[0058] 作為例子,行標(biāo)題414指示單元格428包含在別處、可能在表格402中呈現(xiàn)的一些 值的總計(jì)或合計(jì)。換句話說,標(biāo)題414中的線索幫助確定單元格428的類型"和"對(duì)一些其 它的單元格的函數(shù)依賴性。
[0059] 線424增強(qiáng)該確定,并且?guī)椭s小可能參與該函數(shù)依賴性的單元格的范圍。例如, 實(shí)施例斷定,單元格428的內(nèi)容是在線424之上出現(xiàn)的單元格值的總計(jì)或和,直到諸如另一 線和表格邊界等的另一定界符。
[0060] 作為另一例子,行標(biāo)題420指示單元格430包含在別處、可能在表格402中呈現(xiàn) 的一些值的總計(jì)或合計(jì)。換句話說,標(biāo)題420中的線索幫助確定或確認(rèn)單元格430的類型 "和"對(duì)一些其它的單元格的函數(shù)依賴性的假設(shè)。
[0061] 線426增強(qiáng)該確定,并且?guī)椭s小可能參與該函數(shù)依賴性的單元格的范圍。例如, 實(shí)施例斷定,單元格430的內(nèi)容是在線426之上出現(xiàn)的單元格值的總計(jì)或和,直到諸如例如 線424的另一線的另一定界符。
[0062] 線424僅為了闡明描述且不作為對(duì)解釋性實(shí)施例的限制被描述為示例結(jié)構(gòu)標(biāo)記 或線索??深愃频貛椭_定單元格之間的函數(shù)關(guān)系的另一示例標(biāo)記是諸如兼容行和列類型 的語義線索。例如,當(dāng)單元格的行標(biāo)題指示收益值且單元格的列標(biāo)題指示年份時(shí),該行和列 中的單元格可能至少包含該年份的收益值,并且可能通過子總計(jì)類型函數(shù)關(guān)系與同一列中 的某些其它值相關(guān)。在本例子中,線索涉及特定的單元格。這種特定于單元格的線索在確 認(rèn)該單元格的函數(shù)依賴性時(shí)是有用的,并且可能或者可能不可用于在整個(gè)列上確認(rèn)類似的 函數(shù)依賴性。
[0063] 作為另一例子,列標(biāo)題404的存在暗示列406、408和410中的共通性。單獨(dú)地,實(shí) 施例可斷定標(biāo)題406、408和410的內(nèi)容均具有語義類型"年份"。實(shí)施例確定這三個(gè)列類似 的暗示。當(dāng)實(shí)施例發(fā)現(xiàn)相同的函數(shù)依賴性在這三個(gè)列中成立時(shí),實(shí)施例通過利用該暗示或 線索支持置信水平的事實(shí)評(píng)價(jià)該發(fā)現(xiàn)的置信水平。上述的暗示是列寬暗示。依賴性在大量 的列上成立的假設(shè)是列寬(column-wide)假設(shè)。列寬暗示在支持列寬假設(shè)時(shí)是有用的。 [0064] 實(shí)施例使用表格中和周圍的可用標(biāo)記或線索中的一些以假設(shè)函數(shù)依賴性。實(shí)施例 進(jìn)一步使用其它可用的線索或標(biāo)記以確認(rèn)假設(shè),由此提高假設(shè)的置信水平。本質(zhì)上,假設(shè)是 函數(shù)依賴性的構(gòu)架一假設(shè)單元格之間的假設(shè)關(guān)系,該假設(shè)關(guān)系當(dāng)被應(yīng)用于實(shí)際表格和構(gòu)成 單元格時(shí)可能對(duì)于所應(yīng)用的所有情況為正確或錯(cuò)誤,或者有時(shí)正確有時(shí)錯(cuò)誤。
[0065] 如果線索或標(biāo)記支持其中根據(jù)假設(shè)的函數(shù)依賴性產(chǎn)生正確結(jié)果的實(shí)例,那么假設(shè) 被確認(rèn)或支持,或者,換句話說,假設(shè)的置信度高于閾值。如果根據(jù)線索的函數(shù)依賴性可在 給定表格數(shù)據(jù)中的其它單元格或單元格范圍內(nèi)被重復(fù)(即,線索成立,或者支持假設(shè)),那 么假設(shè)的置信度也從一個(gè)值增加到另一值,諸如從低于閾值置信水平提升到高于閾值置信 水平。
[0066] 在機(jī)器學(xué)習(xí)術(shù)語中,一組的所有可能支持線索中的各線索被稱為"特征"?,F(xiàn)有假 設(shè)的特征的有無增加或降低該假設(shè)的置信水平。根據(jù)實(shí)施例的"模型"是用于基于給出(或 支持)假設(shè)的特征的子集計(jì)算假設(shè)的置信度分?jǐn)?shù)的機(jī)制。在一個(gè)實(shí)施例中,模型作為基于 規(guī)則的引擎操作。在另一實(shí)施例中,可通過使用置信度分?jǐn)?shù)先驗(yàn)已知的表格的訓(xùn)練組(例 如,"標(biāo)簽組")"訓(xùn)練"模型。
[0067] 假設(shè)庫432與圖1中的假設(shè)庫109類似。假設(shè)庫432是實(shí)施例,諸如圖1中的應(yīng) 用105中的實(shí)施例,接收的用于確定表格400中的函數(shù)依賴性的假設(shè)的集合。在一個(gè)實(shí)施 例中,用戶供給假設(shè)庫432。在另一實(shí)施例中,應(yīng)用提供假設(shè)庫432。在一個(gè)實(shí)施例中,假設(shè) 庫432是更大的假設(shè)庫(未示出)的一部分,并且根據(jù)一些準(zhǔn)則被選擇。假設(shè)庫432的成 員假設(shè)的示例選擇準(zhǔn)則可以是域特定的。例如,假設(shè)庫432可僅包含適用于被分析的表格 數(shù)據(jù)的域的那些假設(shè)。假設(shè)庫432中的構(gòu)成假設(shè)可在表格數(shù)據(jù)改變時(shí)改變。
[0068] 在示出的示例假設(shè)庫432中,假設(shè)434假定一些單元格是同一列中的一些其它單 元格的和,即,是"列行"或"col_ Sum"。類似地,假設(shè)436假定一些單元格是同一行中的某 些其它的單元格之間的差值,即,是"行差值"或"row_difT"。假設(shè)438假定一些單元格是 同一行中的某個(gè)其它單元格與同一行中的另一單元格或常數(shù)相除,即,是"行除法"或"row_ div"。
[0069] 假設(shè)400假定一些假設(shè)在不同的列中重復(fù),S卩,是"列重復(fù)"或"c〇l_i^peat"。例 如,"列和"假設(shè)434可在列406中以及在列408和410中重復(fù)。類似地,假設(shè)442假定一 些假設(shè)在不同的行中重復(fù),即,是"行重復(fù)"或"r 〇W_repeat"。例如,"行差值"假設(shè)436可 在行416中并在行418和414中重復(fù)。一個(gè)假設(shè)的適用性可通過這種方式引導(dǎo)另一假設(shè)的 適用性的置信度。換句話說,如果假設(shè)434看起來指示某些單元格之間的函數(shù)依賴性且假 設(shè)434看起來跨多于一個(gè)的列確證假設(shè)434的適用性,那么實(shí)施例在由假設(shè)434指示的函 數(shù)依賴性上表現(xiàn)為高于閾值置信水平。
[0070] 示圖460表示對(duì)表格400操作的假設(shè)庫432中的各種示例假設(shè)。例如,在示圖460 中的要素462上,假設(shè)c 〇l_Sum看起來適用于在線424之間劃界的一組值和表格402中的數(shù) 據(jù)的開始,即示圖460中的要素464和46,并導(dǎo)致單元格428中的值。類似地,在要素468 上,假設(shè)col_sum也看起來適用于線424與426之間的單元格,其中的一個(gè)是要素462上的 同一假設(shè)的先前應(yīng)用的結(jié)果,另一個(gè)是要素470,并導(dǎo)致單元格430中的值。示圖460中的 要素472指示要素462、464、466、468和470的布置在表格402中的列408和410中根據(jù)假 設(shè)440重復(fù)。示圖460的剩余部分類似地確定表格452中的函數(shù)依賴性。
[0071] 因此,在圖4所示的例子中,所確定的依賴性的例子指示可重復(fù)模式,并且通過包 含的單元格上的支持計(jì)算被確證。給定適當(dāng)?shù)拈撝邓剑瑢?shí)施例可表達(dá)超過閾值水平的置 信水平。因此,實(shí)施例輸出表格400的單元格的自然語言處理形式,由此,單元格值不僅參 照它們的名目或標(biāo)題而且由它們的相互關(guān)系來表達(dá)。
[0072] 例如,單元格428中的值不僅會(huì)表達(dá)為"2009年總收益和非營業(yè)性收入2151341 美元",而且會(huì)表達(dá)為"2009年收益和非營業(yè)性收入的電氣和氣體類別的總收入"。與當(dāng)前 可用的NLP技術(shù)所產(chǎn)生的結(jié)果相比,受益于實(shí)施例的這種自然語言處理是更有用、更有信 息性。
[0073] 參照?qǐng)D5,該圖示出根據(jù)解釋性實(shí)施例的用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的應(yīng)用的框 圖。作為圖1中的應(yīng)用105的替代,可以使用應(yīng)用502。
[0074] 應(yīng)用502分別接收具有表格數(shù)據(jù)的一個(gè)或多個(gè)文檔和假設(shè)庫作為輸入504和506。 應(yīng)用502包含用于在輸入504中定位表格數(shù)據(jù)的實(shí)例的功能508。使用假設(shè)庫506,功能510 分析通過輸入504中的功能508定位的表格數(shù)據(jù)的實(shí)例中的單元格數(shù)據(jù)的函數(shù)依賴性。
[0075] 在執(zhí)行分析時(shí),功能510使用功能512以確定參與給定函數(shù)依賴性的單元格范圍。 在本公開中描述通過使用線索和標(biāo)記確定單元格范圍的一些示例方式。
[0076] 功能514評(píng)價(jià)通過功能510分析的函數(shù)依賴性中的置信水平。功能510、512和 514沒有限制地在與在給定實(shí)現(xiàn)中需要的表格實(shí)例一樣多的單元格上動(dòng)作。應(yīng)用502輸出 一個(gè)或多個(gè)NLP文檔516,其中講述在其中識(shí)別的表格結(jié)構(gòu)和函數(shù)依賴性,任選地包含指示 一個(gè)或多個(gè)這種函數(shù)依賴性的置信水平的任何適當(dāng)?shù)姆绞健?br>
[0077] 參照?qǐng)D6,該圖示出根據(jù)示例性實(shí)施例的用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的示例處理 的流程圖。可在圖5中的應(yīng)用502中實(shí)現(xiàn)處理600。
[0078] 處理600通過接收包含表格數(shù)據(jù)的一組的一個(gè)或多個(gè)文檔開始(步驟602)。處理 600接收假設(shè)庫(步驟60)。例如,假設(shè)庫可限于僅包含適用于在步驟602中接收的文檔的 主題域的那些假設(shè)。
[0079] 找到函數(shù)依賴性的復(fù)雜性隨著被分析的表格的尺寸和給定假設(shè)庫中的假設(shè)的數(shù) 量以指數(shù)的方式增加。因此,實(shí)施例通過限制給定假設(shè)庫中的假設(shè)的數(shù)量或類型、限制搜索 函數(shù)依賴性的單元格范圍或者兩者的組合,優(yōu)化函數(shù)依賴性的檢測(cè)。
[0080] 處理600從假設(shè)庫選擇假設(shè)(步驟606)。處理600諸如通過跨一個(gè)或多個(gè)文檔中 的一個(gè)或多個(gè)表格或周圍的內(nèi)容以一個(gè)或多個(gè)線索、標(biāo)記或它們的變化的一些組合,使用 這些線索、標(biāo)記或變化選擇單元格范圍(步驟608)。
[0081] 處理600確定選擇的假設(shè)是否適配所選單元格范圍(步驟610)。例如,如參照?qǐng)D 4描述的那樣,處理600可從由高于該單元格的某些標(biāo)記劃界的單元格范圍,確定討論中的 單元格是否計(jì)算為列和。這種確定選擇的假設(shè)是否適配的示例方式不意在限制解釋性實(shí)施 例。由于使用的假設(shè)可根據(jù)分析的文檔為任何適當(dāng)?shù)募僭O(shè),因此,可在處理600的范圍內(nèi)使 用確定是否滿足假設(shè)的任何適當(dāng)?shù)姆绞健?br>
[0082] 如果選擇的假設(shè)適配所選單元格范圍(步驟601的"是"路徑),那么處理600前 進(jìn)到步驟614。在一個(gè)實(shí)施例中,在確定線索的集合支持假設(shè)之后,處理600根據(jù)假設(shè)評(píng)價(jià) 函數(shù)依賴性的置信水平(塊612)。實(shí)施例與處理600分開地實(shí)現(xiàn)塊612,并與處理600分 開地執(zhí)行置信水平評(píng)價(jià),諸如在不同的迭代、遍(pass)或處理中。塊612的實(shí)施例在圖7 中被描述為處理700。
[0083] 處理600確定是否要分析更多的表格數(shù)據(jù)以確定單元格的函數(shù)依賴性(步驟 614)。如果要分析更多的表格數(shù)據(jù)(步驟614的"是"路徑),那么處理600返回步驟606。 如果不分析更多的表格數(shù)據(jù)(步驟614的"否"路徑),那么處理600輸出一個(gè)或多個(gè)NLP 文檔,根據(jù)假設(shè)適配和置信度記述表格結(jié)構(gòu)和函數(shù)依賴性(步驟616)。處理600然后結(jié)束。 在一個(gè)實(shí)施例中,處理600根據(jù)用于諸如圖1中的NLP引擎103的現(xiàn)有NLP引擎中的假設(shè) 適配和置信度,輸出表格結(jié)構(gòu)和函數(shù)依賴性數(shù)據(jù),該現(xiàn)有NLP引擎產(chǎn)生NLP文檔。
[0084] 在步驟610中,如果處理600確定選擇的假設(shè)不適當(dāng)?shù)剡m配所選單元格范圍(步 驟610的"否"路徑),那么處理600確定是否對(duì)于選擇的假設(shè)耗盡單元格范圍(步驟618)。 例如,如果選擇的假設(shè)是"列和"且高于被評(píng)價(jià)的單元格的單元格范圍減小到零單元格,那 么會(huì)對(duì)于假設(shè)耗盡單元格范圍。單元格范圍耗盡是假設(shè)依賴概念,并可根據(jù)考慮的假設(shè)以 任何適當(dāng)?shù)姆绞奖淮_定。
[0085] 如果單元格范圍被耗盡(步驟618的"是"路徑),那么處理600確定是否還要對(duì) 于正在分析其函數(shù)依賴性的單元格嘗試更多的假設(shè)(步驟620)。如果一個(gè)或多個(gè)假設(shè)可被 嘗試(步驟620的"是"路徑),那么處理600返回到步驟606。如果沒有更多的假設(shè)要被 嘗試(步驟620的"否"路徑),那么處理600前進(jìn)到步驟614。
[0086] 如果單元格范圍還沒有耗盡(步驟618的"否"路徑),那么處理600諸如通過增 加范圍中的單元格的數(shù)量、減少范圍中的單元格的數(shù)量、變?yōu)閱卧竦牟煌姆秶蛘哌@ 些和其它可能的變化的組合調(diào)整單元格范圍(步驟622)。處理600然后返回到步驟610。 [0087] 參照?qǐng)D7,該圖示出根據(jù)解釋性實(shí)施例的用于評(píng)價(jià)置信水平的示例處理的流程圖。 處理700可實(shí)現(xiàn)為圖6中的塊612。
[0088] 處理700的一個(gè)分支從根據(jù)類似的標(biāo)記或線索選擇不同的單元格范圍開始(步驟 702)。例如,在一個(gè)實(shí)施例中,處理700在具有類似目的數(shù)據(jù)的不同列或行中選擇相當(dāng)?shù)膯?元格范圍。在另一實(shí)施例中,處理700考慮(未示出)其它的語義線索、結(jié)構(gòu)線索、單元格 之中的名目和類型相容性、諸如"總計(jì)"或"子總計(jì)"的建議性詞語或短語或用于選擇不同 的單元格范圍的這些和其它幫助的組合以驗(yàn)證所選假設(shè)的適配性。
[0089] 換句話說,對(duì)于單元格范圍和對(duì)該范圍成立的假設(shè),實(shí)施例搜索一組支持線索 (特征)。該組支持線索可不僅包含標(biāo)記或語義線索,而且還包含在該單元格范圍上發(fā)現(xiàn)成 立的其它假設(shè)。實(shí)施例由此找到該假設(shè)在該單元格范圍上的支持證據(jù)的集合。實(shí)施例然后 基于支持證據(jù)的集合計(jì)算總置信度分?jǐn)?shù)。
[0090] 處理700確定假設(shè)(主要假設(shè))是否適配在步驟702中選擇的新的單元格范圍 (步驟704)。如果假設(shè)適配新的單元格范圍(步驟704的"是"路徑),那么處理700根據(jù) 假設(shè)增加函數(shù)依賴性的置信水平(步驟706)。處理700然后結(jié)束。如果假設(shè)不適配新的單 元格范圍(步驟704的"否"路徑),那么處理700可然后結(jié)束或重復(fù),從而使置信水平保持 不變,或者可減小置信水平(步驟708)。例如,特征值可能為正、零或負(fù)。例如,如果跨三個(gè) 示例列不存在共同的標(biāo)題,那么相應(yīng)特征的值會(huì)為零,即,中性的。但是,如果三個(gè)列具有不 同的語義類型,那么該特征將可能為負(fù),由此實(shí)際上減小置信度。
[0091] 處理700的另一分支從選擇不同的假設(shè)(次級(jí)假設(shè))適配另一假設(shè)(主要假設(shè)) 已適配的單元格范圍(步驟703)開始。處理700確定另一假設(shè)一次級(jí)假設(shè)一是否適配單 元格范圍(步驟705)。如果次級(jí)假設(shè)適配單元格范圍(步驟705的"是"路徑),那么處理 700在步驟706中根據(jù)假設(shè)增加函數(shù)依賴性的置信水平。處理700可然后結(jié)束。如果次級(jí) 假設(shè)不適配單元格范圍(步驟705的"否"路徑),那么處理700可然后結(jié)束或重復(fù),從而使 置信水平保持不變,或者,可在步驟708中減小置信水平。
[0092] 當(dāng)處理700重復(fù)時(shí),處理700以類似的方式對(duì)不同的單元格范圍和不同的次級(jí)假 設(shè)重復(fù)。重復(fù)迭代跨不同的范圍評(píng)價(jià)不同的假設(shè)并找到結(jié)果。次級(jí)假設(shè)可能開始不適用于 單元格范圍,但隨著更多的依賴性被發(fā)現(xiàn),次級(jí)假設(shè)(和其它的更高階假設(shè))(未示出)可 開始匹配其它的單元格范圍并支持其它的發(fā)現(xiàn)的結(jié)果。這種匹配或支持又可觸發(fā)其它假設(shè) 的測(cè)試等(未示出)
[0093] 在置信度評(píng)價(jià)階段中,實(shí)施例嘗試產(chǎn)生會(huì)增加函數(shù)依賴性的置信水平的各種"特 征"的集合。實(shí)施例將由次級(jí)假設(shè)適配(失配)指示的二次依賴性的存在視為又一置信度 增加(減?。┨卣鳌H作為例而不隱含對(duì)其的限制,在幾個(gè)實(shí)施例中描述跨單元格范圍的 適用性。對(duì)置信水平變化考慮的特征組不僅僅限于范圍類似性,而可從可用作線索的表格 數(shù)據(jù)的許多其它特性導(dǎo)出,這些特性諸如包含但不限于各種標(biāo)記線索、布局線索(即,共用 類別標(biāo)題)、語義線索(即,所有標(biāo)題具有相同的語義類型(即,"年份")和導(dǎo)出的發(fā)現(xiàn)的依 賴性,比如多個(gè)行中的類似的依賴性。
[0094] 圖中的流程圖和框圖示出根據(jù)本發(fā)明的各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn) 品的可能的實(shí)現(xiàn)的結(jié)構(gòu)、功能和操作。關(guān)于這一點(diǎn),流程圖或框圖中的各塊可代表包含用于 實(shí)現(xiàn)規(guī)定的邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令的代碼的模塊、段或部分。還應(yīng)注意,在一些 替代性的實(shí)現(xiàn)中,在塊中注明的功能可以按圖示的次序以外的次序出現(xiàn)。例如,根據(jù)包括 的功能,連續(xù)表示的兩個(gè)塊事實(shí)上可基本上被同時(shí)執(zhí)行,或者,有時(shí)可以按相反的次序執(zhí)行 塊。還應(yīng)注意,可通過執(zhí)行特定功能或作用的基于特殊用途硬件的系統(tǒng)或者特殊用途硬件 和計(jì)算機(jī)指令的組合,實(shí)現(xiàn)框圖和/或流程圖的各塊和框圖和/或流程圖的塊的組合。 [0095] 因此,在解釋性實(shí)施例中提供用于發(fā)現(xiàn)表格數(shù)據(jù)中的關(guān)系的計(jì)算機(jī)實(shí)現(xiàn)的方法、 系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。實(shí)施例使用假設(shè)庫以測(cè)試給定表格數(shù)據(jù)的多個(gè)部分是否具有特定 的結(jié)構(gòu)和函數(shù)依賴性。對(duì)于一個(gè)或多個(gè)單元格范圍測(cè)試假設(shè),以通過使用所選單元格范圍 通過計(jì)算確定假設(shè)的結(jié)果是否被支持。置信水平與根據(jù)假設(shè)的單元格范圍內(nèi)的函數(shù)依賴性 有關(guān)?;诎砀駭?shù)據(jù)中的各種線索和標(biāo)記、給定的一組文檔中的表格數(shù)據(jù)周圍或別處 的內(nèi)容的多個(gè)準(zhǔn)則來選擇單元格范圍。
[0096] 在一些實(shí)施例中僅作為例子而不是隱含對(duì)其的限制,通過使用單元格范圍描述了 線索和假設(shè)確認(rèn)。在解釋性實(shí)施例的范圍內(nèi),用于支持選擇特定假設(shè)的信息、線索或特征可 來自給定文檔的任何部分,包含文檔中的表格數(shù)據(jù)以外的內(nèi)容。
[0097] 僅作為例子而不是隱含對(duì)解釋性實(shí)施例的限制,關(guān)于預(yù)定的假設(shè)或已知的函數(shù)描 述了一些實(shí)施例。實(shí)施例還以掌握的函數(shù)的形式假定以前未知或未編程的函數(shù)依賴性。例 如,實(shí)施例可在給定表格中的數(shù)據(jù)上應(yīng)用一些分析技術(shù)并在表格數(shù)據(jù)中找到統(tǒng)計(jì)數(shù)據(jù)模 式。在解釋性實(shí)施例的范圍內(nèi),實(shí)施例可被配置為以掌握的函數(shù)或掌握的假設(shè)的形式解釋 這些發(fā)現(xiàn)。實(shí)施例可然后將掌握的假設(shè)包含于其它確認(rèn)或置信水平評(píng)價(jià)的集合中。
[0098] 這里描述的例子和實(shí)施例的描述是關(guān)于英語的線索、假設(shè)、文檔、表格數(shù)據(jù)和NLP 描述的,不意在限制解釋性實(shí)施例。在解釋性實(shí)施例的范圍內(nèi),可通過使用任何語言的線 索、假設(shè)、文檔、表格數(shù)據(jù)和NLP以類似的方式實(shí)現(xiàn)實(shí)施例。
[0099] 本領(lǐng)域技術(shù)人員可以理解,本發(fā)明的各方面可體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn) 品。因此,本發(fā)明的方面可采取在這里可一般稱為"電路"、"模塊"或"系統(tǒng)"的完全硬件實(shí) 施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)或者組合軟件和硬件方面的實(shí)施 例。并且,本發(fā)明的各方面可采取以具有在其上面體現(xiàn)的計(jì)算機(jī)可讀程序代碼的一個(gè)或多 個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)體現(xiàn)的計(jì)算機(jī)程序產(chǎn)品的形式。
[0100] 可以利用一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī) 可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)裝置可例如 是但不限于電子、磁、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置或器件或者以上的任意適當(dāng)?shù)慕M 合。計(jì)算機(jī)可讀存儲(chǔ)裝置的更特定的例子(非窮舉的列表)包括以下:具有一個(gè)或多個(gè)導(dǎo) 線的電氣連接、便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦除 可編程只讀存儲(chǔ)器(EPROM或快擦寫存儲(chǔ)器)、光纖、便攜式緊致盤只讀存儲(chǔ)器(CD-ROM)、光 學(xué)存儲(chǔ)裝置、磁存儲(chǔ)裝置或以上的任意適當(dāng)?shù)慕M合。在本文的背景中,計(jì)算機(jī)可讀存儲(chǔ)裝置 可以是可包含或者存儲(chǔ)供指令執(zhí)行系統(tǒng)、裝置或器件使用或者與其關(guān)聯(lián)使用的程序的任何 可觸知器件或介質(zhì)。
[0101] 可通過使用包括但不限于無線、有線、光纖電纜、RF等或以上的任意適當(dāng)?shù)慕M合的 任意適當(dāng)?shù)慕橘|(zhì)傳送在計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)上體現(xiàn)的程序代碼。
[0102] 可通過包括諸如Java、Smalltalk或C++等的面向?qū)ο蟮木幊陶Z目和諸如"C"編 程語言或類似的編程語言的常規(guī)的過程編程語言的一個(gè)或多個(gè)編程語言的任意組合,書寫 用于實(shí)施本發(fā)明的各方面的操作的計(jì)算機(jī)程序代碼??赏耆谟脩舻挠?jì)算機(jī)上、部分地用 戶的計(jì)算機(jī)上、作為獨(dú)立軟件包、部分地用戶計(jì)算機(jī)上并且部分在遠(yuǎn)程計(jì)算機(jī)或者完全在 遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行程序代碼。在后一種方案中,遠(yuǎn)程計(jì)算機(jī)可通過包括局域網(wǎng)絡(luò) (LAN)或廣域網(wǎng)絡(luò)(WAN)的任意類型的網(wǎng)絡(luò)與用戶的計(jì)算機(jī)連接,或者,可與外部計(jì)算機(jī)連 接(例如,通過使用因特網(wǎng)服務(wù)提供器的因特網(wǎng))。
[0103] 這里,參照根據(jù)本發(fā)明的實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖 和/或框圖描述本發(fā)明的各方面。應(yīng)當(dāng)理解,可通過計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或框 圖的各塊以及流程圖和/或框圖的塊的組合。這些計(jì)算機(jī)程序指令可被提供給一個(gè)或多個(gè) 通用計(jì)算機(jī)、特殊用途計(jì)算機(jī)或者其它的可編程數(shù)據(jù)處理裝置的一個(gè)或多個(gè)處理器,以制 造機(jī)器,使得通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的一個(gè)或多個(gè)處理器執(zhí)行的指令創(chuàng)建 用于實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的裝置。
[0104] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)中,這些 計(jì)算機(jī)程序指令可指導(dǎo)一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或 多個(gè)其它設(shè)備以特定的方式起作用,使得存儲(chǔ)于一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī) 可讀介質(zhì)中的指令產(chǎn)生包括實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的指令的制造 物品。
[0105] 計(jì)算機(jī)程序指令也可被加載到一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處 理裝置或一個(gè)或多個(gè)其它設(shè)備上,以導(dǎo)致在一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù) 據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備上執(zhí)行的一系列的操作步驟產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,使 得在一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備上執(zhí) 行的指令提供用于實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的處理。
[0106] 在這里使用的術(shù)語僅出于描述特定的實(shí)施例目的,并且不意在限制本發(fā)明。如這 里使用的那樣,除非在上下文中另外明顯指出,否則單數(shù)形式"一種"、"一個(gè)"和"該"意在 也包括復(fù)數(shù)形式。還應(yīng)理解,在本說明書中使用的術(shù)語"包括"和/或"包含"規(guī)定闡述的 特征、整數(shù)、步驟、操作、要素和/或部件的存在,但不排除存在或添加一個(gè)或多個(gè)其它的特 征、整數(shù)、步驟、操作、要素、部件和/或它們的組。
[0107] 所有裝置的相應(yīng)的結(jié)構(gòu)、材料、動(dòng)作和等同或以下的權(quán)利要求中的步驟加功能要 素意在包括用于與特別要求權(quán)利的其它要求要素組合執(zhí)行功能的任何結(jié)構(gòu)、材料或動(dòng)作。 給出本發(fā)明的描述是出于解釋和描述的目的給出的,但它不是詳盡的或者將本發(fā)明限于公 開的形式。在不背離本發(fā)明的范圍和精神的情況下,許多修改和變更對(duì)本領(lǐng)域技術(shù)人員來 說是十分明顯的。為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用并使得其它的本領(lǐng)域技術(shù)人員 能夠理解本發(fā)明的具有適于設(shè)想的特定用途的各種實(shí)施例,選擇和描述了實(shí)施例。
【權(quán)利要求】
1. 一種用于確定表格數(shù)據(jù)中的關(guān)系的方法,所述方法包括: 接收一組文檔,所述一組文檔中的文檔包含表格數(shù)據(jù); 選擇要確定其依賴性的表格數(shù)據(jù)中的單元格; 選擇與單元格結(jié)合使用的假設(shè); 通過確定是否能夠通過在所選部分上使用在假設(shè)中規(guī)定的函數(shù)來計(jì)算假設(shè)中的結(jié)論, 使用處理器和存儲(chǔ)器測(cè)試假設(shè)是否適用于文檔的所選部分,其中,文檔的所選部分包含文 檔的表格數(shù)據(jù)中的所選單元格范圍和非表格部分中的內(nèi)容中的一個(gè);和 利用假設(shè)以相對(duì)于所選部分描述單元格。
2. 根據(jù)權(quán)利要求1的方法,還包括: 基于與單元格相關(guān)的線索選擇單元格范圍。
3. 根據(jù)權(quán)利要求1的方法,還包括: 評(píng)價(jià)來自測(cè)試的肯定結(jié)果的置信水平,其中,所述產(chǎn)生進(jìn)一步響應(yīng)于置信水平超過閾 值置信水平。
4. 根據(jù)權(quán)利要求3的方法,還包括: 響應(yīng)于第二測(cè)試是肯定的而調(diào)整置信水平,第二測(cè)試確定假設(shè)是否適用于第二所選單 元格范圍。
5. 根據(jù)權(quán)利要求4的方法,其中,第二所選單元格范圍是包含于所述一組文檔中的第 二表格數(shù)據(jù)。
6. 根據(jù)權(quán)利要求1的方法,還包括: 改變所選單元格范圍以形成改變的單元格范圍;和 測(cè)試假設(shè)是否適用于改變的單元格范圍。
7. 根據(jù)權(quán)利要求1的方法,其中,假設(shè)是基于與單元格相關(guān)的線索選擇的,并且,所述 利用包括: 響應(yīng)于假設(shè)適用于所選部分,以單元格在所選部分上的函數(shù)依賴性的形式產(chǎn)生函數(shù)和 所選部分的描述。
8. 根據(jù)權(quán)利要求7的方法,其中,線索是表格數(shù)據(jù)中的標(biāo)記。
9. 根據(jù)權(quán)利要求7的方法,其中,線索是與單元格相關(guān)的標(biāo)題中的建議性詞語和語義 線索中的一個(gè)。
10. 根據(jù)權(quán)利要求7的方法,其中,線索是表格數(shù)據(jù)的結(jié)構(gòu)成分。
11. 根據(jù)權(quán)利要求1的方法,還包括: 接收一組假設(shè),其中,由于假設(shè)適用于所述一組文檔中的文檔的主題域,所以假設(shè)是所 述一組假設(shè)中的成員。
12. 根據(jù)權(quán)利要求1的方法,其中,對(duì)于表格數(shù)據(jù)中的單元格的自然語言處理來說,信 息是足夠的。
13. -種用于確定表格數(shù)據(jù)中的關(guān)系的數(shù)據(jù)處理系統(tǒng),所述數(shù)據(jù)處理系統(tǒng)包含: 包含存儲(chǔ)介質(zhì)的存儲(chǔ)裝置,其中,存儲(chǔ)裝置存儲(chǔ)計(jì)算機(jī)可用程序代碼;和 處理器,其中,處理器執(zhí)行計(jì)算機(jī)可用程序代碼,并且其中計(jì)算機(jī)可用程序代碼包含: 用于接收一組文檔的計(jì)算機(jī)可用代碼,所述一組文檔中的文檔包含表格數(shù)據(jù); 用于選擇要確定其依賴性的表格數(shù)據(jù)中的單元格的計(jì)算機(jī)可用代碼; 用于選擇與單元格結(jié)合使用的假設(shè)的計(jì)算機(jī)可用代碼; 用于通過確定是否能夠通過在所選部分上使用在假設(shè)中規(guī)定的函數(shù)來計(jì)算假設(shè)中的 結(jié)論,使用處理器和存儲(chǔ)器測(cè)試假設(shè)是否適用于文檔的所選部分的計(jì)算機(jī)可用代碼,其中, 文檔的所選部分包含文檔的表格數(shù)據(jù)中的所選單元格范圍和非表格部分中的內(nèi)容中的一 個(gè);和 用于利用假設(shè)以相對(duì)于所選部分描述單元格的計(jì)算機(jī)可用代碼。
【文檔編號(hào)】G06F17/27GK104281563SQ201410309195
【公開日】2015年1月14日 申請(qǐng)日期:2014年7月1日 優(yōu)先權(quán)日:2013年7月1日
【發(fā)明者】D·K·拜倫, S·N·吉拉爾德, A·皮科夫斯基, M·B·薩恩切茨 申請(qǐng)人:國際商業(yè)機(jī)器公司