專利名稱:一種智能Web表單自動填充方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種表單填充方法及系統(tǒng),特別涉及以前填寫過的內(nèi)容在新表單中不需再次錄入的自動填充方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,電子政務(wù)、電子商務(wù)和各種辦公自動化取得了蓬勃的發(fā)展,很多用戶都需要通過填寫大量表單來進行各類事務(wù)處理,如填報計劃、匯報業(yè)務(wù)、數(shù)據(jù)采集等。表單的內(nèi)容通常由提示要輸入內(nèi)容的標簽和緊隨其后需要用戶輸入的表單域組成。如文本框、復(fù)選框、單選框、下拉選擇框等。用戶把數(shù)據(jù)輸入表單域以后,再提交服務(wù)器處理。而這些表單往往包含很多重復(fù)的內(nèi)容,用戶需要反復(fù)填寫自己的單位信息和個人信息等重復(fù)內(nèi)容。例如,求職人員盡管已經(jīng)有Word文檔等形式的簡歷,但招聘網(wǎng)站填寫個人信息時需要進行大量的復(fù)制、粘貼等手工操作,來填充姓名,性別,家庭住址,教育經(jīng)歷等數(shù)十項內(nèi)容。用戶需要在不同的招聘網(wǎng)站重復(fù)同樣的工作,費時費力,容易出錯。有一些產(chǎn)品和技術(shù)可以減少互聯(lián)網(wǎng)上填報中重復(fù)的工作。例如,Autoformer能收集注冊、登錄簡單表單中用戶名、地址、電話等基本信息,用戶在下次遇到類似的表單時進行自動填充。其中新表單與歷史表單標簽相同時,同名標簽對應(yīng)的數(shù)據(jù)被記憶和重用。當標簽不同時,例如,“郵編”和“郵政編碼”需要填充相同,這種情況無法自動填充。在基于互聯(lián)網(wǎng)的實際的事務(wù)處理系統(tǒng)中,表單非常普及,并且數(shù)據(jù)復(fù)雜,這些簡單的自動填充技術(shù)無法解決。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能自動識別出語義相同的重復(fù)部分,解決填寫表單中重復(fù)內(nèi)容問題智能Web表單自動填充方法及系統(tǒng)。本發(fā)明的技術(shù)方案是
一種智能Web表單自動填充方法,包括語義庫和資源庫,該方法包括以下步驟
1)提取表單中的標簽名,歸一化為所述語義庫的標準名;
2)根據(jù)所述標準名查找所述資源庫,選擇所述候選值進行填表;
3)選擇所述候選值進行填表。進一步,所述語義庫存儲帶概率的所述標簽名到所述標準名的映射概率。進一步,所述資源庫的建立步驟為
21)從參考文檔或歷史表單填充數(shù)據(jù)中提取“標簽名-候選值”對;
22)根據(jù)所述語義庫將“標簽名-候選值”對歸一化為“標準名-候選值”對;
23)將所述“標準名-候選值”對存儲于所述資源庫。更進一步,所述資源庫的建立步驟為
201)從參考文檔或歷史表單填充數(shù)據(jù)中提取“標簽名-候選值”對;202)根據(jù)所述語義庫將“標簽名-候選值”對歸一化為“標準名-候選值-可信度”對;
203)將所述“標準名-候選值-可信度”對存儲于所述資源庫。進一步,所述步驟20 和步驟20 之間設(shè)有步驟204),用于刪除可信度小于過濾閾值的“標準名-候選值-可信度”對。一種智能Web表單自動填充系統(tǒng),其特征在于,包括 語義庫,用于存儲的標簽名到標準名的映射集合; 資源庫,用于存儲“標準名-候選值”對的集合;
歸一化模塊,用于提取表單中的標簽名,歸一化為所述語義庫的標準名; 檢索模塊,用于根據(jù)所述標準名查找資源庫,選取候選值; 填表模塊,用于根據(jù)選擇的所述候選值進行填表。進一步,所述語義庫存儲所述標簽名到所述標準名的映射概率。進一步,所述資源庫存儲“標準名-候選值-可信度”對的集合,設(shè)有可信度的過濾閾值。本發(fā)明的有益效果是通過語義庫的映射關(guān)系,對表格中的標簽名進行歸一化處理,并從資源庫中選取候選值進行自動填表,通過該系統(tǒng)和方法,使用戶的輸入最小化,減輕了用戶重復(fù)輸入的負擔(dān),增強了用戶體驗效果。資源庫的可信度的設(shè)置也使該系統(tǒng)能夠?qū)W習(xí)用戶的偏好,使自動填表的結(jié)果更符合用戶的需求。
圖1為本發(fā)明表單智能自動填充方法示意圖; 圖2為本發(fā)明實施例的實施流程圖3為本發(fā)明實施案例新表單樣圖; 圖4為本發(fā)明實施案例新表單自動填充效果圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的具體實施方式
進行詳細的說明。如圖1所示,一種智能Web表單自動填充方法,包括語義庫和資源庫,該方法包括以下步驟
1)提取表單中的標簽名,歸一化為所述語義庫的標準名;
2)根據(jù)所述標準名查找所述資源庫,選擇所述候選值進行填表;
3)選擇所述候選值進行填表。一種智能Web表單自動填充系統(tǒng),其特征在于,包括 語義庫,用于存儲的標簽名到標準名的映射集合; 資源庫,用于存儲“標準名-候選值”對的集合;
歸一化模塊,用于提取表單中的標簽名,歸一化為所述語義庫的標準名; 檢索模塊,用于根據(jù)所述標準名查找資源庫,選取候選值; 填表模塊,用于根據(jù)選擇的所述候選值進行填表。圖2為本發(fā)明實施例的實施流程圖,具體說明如下
定義語義庫S0,用來解決表單中內(nèi)容相同,但標簽名所用詞匯不同產(chǎn)生的問題,例如新表單要求填寫標簽名為“郵編”的表單域,而歷史填報記錄中只有“郵政編碼”的數(shù)據(jù),語義庫用來實現(xiàn)兩者的歸一,即將標簽名“郵編”映射到標準名“郵政編碼”之上。本發(fā)明采用語義庫來存儲標簽名到標準名的映射的集合。語義庫具備如下特征
1) 標簽名到標準名的映射結(jié)構(gòu),可以是“標準名β標簽名11標簽名2|……”,如 “手機號碼” β “手機I移動電話(Mobile Phone”;也可以是“標準名β標簽名1”,“標準名 β標簽名2”,“標準名β……”的集合。2) 標簽名到標準名的映射是可以帶概率的。例如“辦公電話β聯(lián)系電話_[40%] ”,“手機β聯(lián)系電話_[30%] ”表示歷史填報記錄中,“聯(lián)系電話”分別有40%、30% 的情形是“辦公電話”和“手機”。3) 標簽名是支持正規(guī)表達式格式的。例如“郵*[1_3]編”表示郵編之間可出現(xiàn)1-3個空格。4) 語義庫中標簽名到標準名的映射可以手工的方式建立和維護,也可以使用決策樹、貝葉斯、SVM、隱馬爾可夫模型等機器學(xué)習(xí)的方法從歷史填充記錄中學(xué)習(xí)得到。資源庫構(gòu)造Sl的最終結(jié)果為資源庫S3,其目的是為填寫新表單S2做數(shù)據(jù)準備。 并非每次填寫新表單S2之前都要執(zhí)行資源庫構(gòu)造Si。只有當新的參考文檔或者新的填報數(shù)據(jù)加入時,才有必要重新構(gòu)造資源庫,用來構(gòu)造資源庫的參考文檔和歷史填報記錄必須是關(guān)于當前用戶的,因為他人的數(shù)據(jù)對當前用戶沒有參考價值。Sl的具體實施步驟為
選擇參考文檔Sll或歷史表單填充數(shù)據(jù)S12。復(fù)用數(shù)據(jù)源可以是歷史填報表單記錄 S12,也可以是Word、Excel、Text等格式的參考文檔S11。例如,招聘網(wǎng)站注冊登記個人信息時,就可以使用自己的簡歷文檔作為復(fù)用數(shù)據(jù)源,以便實現(xiàn)自動填寫,本發(fā)明的該模塊將請求用戶上傳簡歷作為復(fù)用數(shù)據(jù)源。又如在月報等事務(wù)處理系統(tǒng)中,歷史月報數(shù)據(jù)就是復(fù)用數(shù)據(jù)源,其中,單位信息等重復(fù)部分將被在今后的填報中自動填寫,本發(fā)明的模塊將選擇當前用戶的歷史填報記錄作為復(fù)用數(shù)據(jù)源?!皹撕灻?數(shù)據(jù)值”對的提取S13 ;其具體步驟為
當選擇的復(fù)用數(shù)據(jù)源為歷史填報表單時,根據(jù)當前用戶的身份信息或當前表單所屬的項目標識,處理表單對應(yīng)的后臺數(shù)據(jù)庫,選擇當前用戶填表的字段名和字段值,作為“標簽名-數(shù)據(jù)值”對。當選擇的復(fù)用數(shù)據(jù)源為Word文檔表格數(shù)據(jù)或Excel文檔表格數(shù)據(jù)時,首先,根據(jù)語義庫中的標簽名檢測參考文檔中標簽名出現(xiàn)的位置,判斷標簽在表格中的分布情況。其次,歸納出標簽分布是成行或者成列分布,成行分布是指表格中整行的內(nèi)容50%以上是標簽名;成列分布是指表格中一整列的內(nèi)容50%以上是標簽名。再次,將成行的標簽名的下一行對應(yīng)的數(shù)據(jù)作為值。如表格中上一行為“姓名I性別I年齡”,下一行為“張三I男I 25” (其中“ I ”為表中單元格分隔符),則構(gòu)造“姓名-張三”、“性別-男”、“年齡-25”的三個“標簽名-數(shù)據(jù)值”對。對成列的標簽,下一列的數(shù)據(jù)作為值。如表格中上一行為“姓名I張三I性別I男”,下一行為“年齡|25|民族I漢”的情形,發(fā)現(xiàn)其中第一列和第三列為標簽名,則構(gòu)造“姓名-張三”、“性別-男”、“年齡-25”、“民族-漢”的四個“標簽名-數(shù)據(jù)值” 對。如果復(fù)用數(shù)據(jù)源為自由文本的word文檔或text文檔,則利用自然語言處理中信息抽取技術(shù)獲得一組“標簽名-數(shù)據(jù)值”對。語義標簽歸一化S14。根據(jù)語義庫S0,將步驟S13獲得的“標簽名-數(shù)據(jù)值”對中的標簽名歸一化成標準名,并將語義庫中的概率傳播到“標準名-候選值”對中。例如, 設(shè)語義庫中有語義映射“辦公電話β聯(lián)系電話-[40%]”,“手機β聯(lián)系電話-[20%]”,“手機β移動電話_[30%] ”三個語義知識。通過步驟S13學(xué)習(xí)到的“標簽名-數(shù)據(jù)值”對有“手機-1111”,“聯(lián)系電話-2222”,“移動電話-1111”,進行歸一化處理有“手機_1111_[1. 0],,, “辦公電話-2222-
”,“手機-2222-
”,“手機_1111_
”四個“標準名-候選值-[概率]”對。按歸一化標簽統(tǒng)計“標準值-候選值” S15。統(tǒng)計實施步驟S14之后的所有“標準名-候選值-[概率]”對,按“標準名”與候選值分組進行統(tǒng)計。統(tǒng)計后將“標準名-候選值-[概率]”對重組為“標準名-候選值-可信度”(可信度描述為當前“標準名-候選值” 對占所有同名“標準名-候選值”對總數(shù)的百分比,其中可信度定義為加權(quán)頻率的對數(shù)值)。 例如設(shè)步驟S103獲得的“標準名-候選值-[概率],,三元組有“手機-1111-[1· 0] ”,“辦公電話-2222-W. 4] ”,“手機-2222-
”,“手機-1111_
”。貝Ij“手機-1111” 的加權(quán)頻率為1. 3,“辦公電話-2222”的加權(quán)頻率為0. 4,“手機-2222”的加權(quán)頻率為0. 2。因此, 它們的可信度分別為 In (1+1. 3)、In (1+0. 4)、In (1+0. 2)。篩選部分“標準值-候選值”,構(gòu)造資源庫S16。將實施步驟S15所得結(jié)果根據(jù)可信度進行篩選,構(gòu)成本發(fā)明的資料庫。篩選原則是對每一個歸一化后的標準名,取可信度大于用戶規(guī)定的部分,或者可信度最大的N個(如N取值為1-3)。為了避免噪音和偶然性, 建議頻率多過一次的候選值才存入資源庫。上述“標簽-值-可信度”的三元組,存儲在資源庫中備查,為提高檢索速度,可考慮建立哈希表之類索引。如圖2填寫新表單S2的基本原理是檢索資源庫S3,獲得新表單中各標簽名的候選值,如果這樣的值存在,則選擇可信度最大的值預(yù)填對應(yīng)的表單域,完成智能自動填表。具體實施步驟描述為
逐一提取新表單的標簽名S22 ;圖3為本發(fā)明實施案例新表單樣圖,可以抽取的標簽名有“姓名”、“性別”、“個人愛好”。為新表單標簽名歸一化S23,獲得每個標簽名對應(yīng)的標準名。根據(jù)語義資源庫S0, 將新表單的標簽歸一化,其目的就是使新表單中的“標簽名”名與S3資料庫中“標準名-候選值”對的“標準名” 一致。為下一步SM檢索資源庫S3時,關(guān)鍵字能準確匹配,這也保證了本發(fā)明在自動識別“標簽名”上的準確性。例如假定語義資源庫中標簽“愛好”是標簽名“個人愛好”的標準名,那么,要將新表單中的“個人愛好”歸一化為標準名“愛好”。利用標準名檢索資源庫S24,為新表單獲得一組候選值。以歸一化后的新表單標準名作為關(guān)鍵字,檢索資源庫S3,發(fā)現(xiàn)該標準名可供使用的候選值,在此,用戶可再次設(shè)定選候選值的個數(shù)來預(yù)填表單,保證只取更高可信度的“標準名-候選值”對作為候選值。例如設(shè)置閾值取可信度最高的3個,即使某標簽在S3中有多個候選值時,也只有可信度最高的3個作為參考值。將可信度最大的候選值,自動預(yù)填表S25,其他候選值可以用文本方式列在后面, 供用戶參考預(yù)填的表單域,并補充那些未填的部分。根據(jù)步驟SM獲得的新表單的候選值, 自動預(yù)填表單。如圖4,在選擇候選值自動填寫表單的時候,分以下情形處理
如表單域是文本框,將可信度最大的直接填入,其他候選值用文本標簽顯示在后面; 如果表單域是單選框或下拉式列表,則將所有選項按照資源庫S3提供的可信度排序,選擇其中可信度最大的作為選取值;
如果表單域是多選框,則將出現(xiàn)在候選值中的所有選項都選中。用戶修正新表單S26 ;用戶修正自動預(yù)填表單標簽域,并補充那些不能實現(xiàn)自動預(yù)填的部分。提交新表單S27和普通填寫表單類似地提交表單給服務(wù)器程序處理。新表單數(shù)據(jù)可以作為新數(shù)據(jù)存入資源庫,可作為后續(xù)智能填充的復(fù)用數(shù)據(jù)源。
權(quán)利要求
1.一種智能Web表單自動填充方法,包括語義庫和資源庫;其特征在于,包括以下步驟1)提取表單中的標簽名,歸一化為所述語義庫的標準名;2)根據(jù)所述標準名查找所述資源庫,選擇所述候選值進行填表;3)選擇所述候選值進行填表。
2.根據(jù)權(quán)利要求1所述的一種智能Web表單自動填充方法,其特征在于所述語義庫存儲帶概率的所述標簽名到所述標準名的映射集合。
3.根據(jù)權(quán)利要求1所述的一種智能Web表單自動填充方法,其特征在于所述資源庫的建立步驟為21)從參考文檔或歷史表單填充數(shù)據(jù)中提取“標簽名-候選值”對;22)根據(jù)所述語義庫將“標簽名-候選值”對歸一化為“標準名-候選值”對;23)將所述“標準名-候選值”對存儲于所述資源庫。
4.根據(jù)權(quán)利要求2所述的一種智能Web表單自動填充方法,其特征在于所述資源庫的建立步驟為201)從參考文檔或歷史表單填充數(shù)據(jù)中提取“標簽名-候選值”對;202)根據(jù)所述語義庫將“標簽名-候選值”對歸一化為“標準名-候選值-可信度”對;203)將所述“標準名-候選值-可信度”對存儲于所述資源庫。
5.根據(jù)權(quán)利要求4所述的一種智能Web表單自動填充方法,其特征在于所述步驟 202)和步驟20 之間設(shè)有步驟204),用于刪除可信度小于過濾閾值的“標準名-候選值-可信度”對。
6.一種智能Web表單自動填充系統(tǒng),其特征在于,包括 語義庫,用于存儲的標簽名到標準名的映射集合;資源庫,用于存儲“標準名-候選值”對的集合; 歸一化模塊,用于提取表單中的標簽名,歸一化為所述語義庫的標準名; 檢索模塊,用于根據(jù)所述標準名查找資源庫,選取候選值; 填表模塊,用于根據(jù)選擇的所述候選值進行填表。
7.根據(jù)權(quán)利要求5的一種智能Web表單自動填充系統(tǒng),其特征在于所述語義庫存儲所述標簽名到所述標準名的映射概率。
8.根據(jù)權(quán)利要求5或6的一種智能Web表單自動填充系統(tǒng),其特征在于所述資源庫存儲“標準名-候選值-可信度”對的集合。
9.根據(jù)權(quán)利要求7的一種智能Web表單自動填充系統(tǒng),其特征在于所述資源庫設(shè)定有可信度的過濾閾值。
全文摘要
本發(fā)明公開一種智能Web表單自動填充方法及系統(tǒng)。該方法包括步驟1)提取表單中的標簽名,歸一化為所述語義庫的標準名;2)根據(jù)所述標準名查找所述資源庫,選擇所述候選值進行填表;3)選擇所述候選值進行填表。該系統(tǒng)包括用于存儲的標簽名到標準名的映射集合的語義庫;用于存儲“標準名-候選值”對的集合的資源庫;用于提取表單中的標簽名,歸一化為所述語義庫的標準名的歸一化模塊;用于根據(jù)所述標準名查找資源庫,選取候選值的檢索模塊;以及用于根據(jù)選擇的所述候選值進行填表的填表模塊。本發(fā)明能減少用戶在填報表單中錄入信息的工作量,減輕用戶負擔(dān),提升用戶體驗。
文檔編號G06F17/30GK102184204SQ20111010733
公開日2011年9月14日 申請日期2011年4月28日 優(yōu)先權(quán)日2011年4月28日
發(fā)明者單延平, 葉施仁, 周葉, 周建龍, 姚平安, 廖定安, 楊長春 申請人:常州大學(xué)