專利名稱:一種信息提取方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息抽取技術(shù)領(lǐng)域,尤其涉及一種信息提取方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,報(bào)紙出版業(yè)的數(shù)字化工程也競(jìng)相開(kāi)展。在報(bào) 紙出版業(yè)的數(shù)字化信息過(guò)程中,報(bào)紙資源的數(shù)字化信息已經(jīng)成為報(bào)社核心的數(shù)字資產(chǎn)。所 述報(bào)紙資源的數(shù)字化信息包括稿件信息,如報(bào)紙版面上文章(正文、段落和標(biāo)題等)、表 格中的文字和圖片內(nèi)容等;版面信息,包括報(bào)紙版次、版面名稱、日期、稿件的位置信息(如 坐標(biāo)信息)、標(biāo)題及正文的字體、字號(hào)等格式信息,文章與圖片、圖片與文字說(shuō)明的關(guān)聯(lián)信息寸。為了將所述報(bào)紙資源的數(shù)字化信息作為歷史資料被完整準(zhǔn)確的保存下來(lái)以備將 來(lái)查詢,或者通過(guò)多種數(shù)字媒體技術(shù)實(shí)時(shí)準(zhǔn)確的進(jìn)行跨媒體發(fā)布,如通過(guò)新聞網(wǎng)站、數(shù)字報(bào) 刊和光盤出版等,則可以通過(guò)標(biāo)引軟件從報(bào)紙的版面信息反解出來(lái)版面文件即所述的報(bào)紙 資源的數(shù)字化信息;然后,再將所述反解出來(lái)的報(bào)紙數(shù)字化信息進(jìn)行標(biāo)引、修改以及校對(duì)。但是,在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有的技術(shù)中至少存在如下問(wèn)題現(xiàn)有 的技術(shù)中所采用的計(jì)算機(jī)自動(dòng)標(biāo)引無(wú)法從所述報(bào)紙的版面文字塊信息和稿件文字塊信息 中提取出預(yù)設(shè)文字塊信息,例如校對(duì)員名稱,版式設(shè)計(jì)員名稱、作者姓名,編輯員名稱等 數(shù)據(jù)信息,這樣就需要標(biāo)引員手工進(jìn)行一一標(biāo)引,使得標(biāo)引人員的工作量較大,且準(zhǔn)確率較 低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種信息提取方法及裝置,以實(shí)現(xiàn)從所述報(bào)紙的版面文字塊 信息和稿件文字塊信息中自動(dòng)提取出預(yù)設(shè)文字塊信息。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案—方面,本發(fā)明實(shí)施例提供了一種信息提取方法,包括從版面文件中提取文字塊信息,其中,所述文字塊信息包括版面文字塊信息和稿 件文字塊信息;判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提取;如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息;如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字塊信息。另一方面,本發(fā)明實(shí)施例提供了一種信息提取裝置,包括文字塊信息提取單元,用于從版面文件中提取文字塊信息,其中,所述文字塊信息 包括版面文字塊信息和稿件文字塊信息;判斷單元,用于判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提??;預(yù)設(shè)版面提取單元,用于如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述 預(yù)設(shè)版面文字塊信息;
預(yù)設(shè)稿件提取單元,用于如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè) 稿件文字塊信息。本發(fā)明實(shí)施例提供的一種信息提取方法及裝置,通過(guò)判斷所述文字塊信息中的預(yù) 設(shè)版面文字塊信息是否被提取,可以防止同一預(yù)設(shè)版面文字塊信息重復(fù)被提??;如果所述 的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)版面 文字塊信息的自動(dòng)提取;如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字 塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)稿件文字塊信息的自動(dòng)提取。
圖1為本發(fā)明實(shí)施例提供的一種信息提取方法流程圖;圖2為本發(fā)明實(shí)施例提供的一種信息提取方法具體實(shí)現(xiàn)流程圖;圖3為本發(fā)明實(shí)施例提供的一種信息提取裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例提供的一種信息提取方法及裝置進(jìn)行詳細(xì)的說(shuō)明。如圖1所示,為本發(fā)明實(shí)施例提供的一種信息提取方法,該方法,具體實(shí)現(xiàn)過(guò)程如 下101 從版面文件中提取文字塊信息,其中,所述文字塊信息包括版面文字塊信 息和稿件文字塊信息;其中,所述版面文件可以理解為報(bào)紙的某個(gè)版面通過(guò)標(biāo)引軟件所反 解出來(lái)的數(shù)字化信息。所述從版面文件中提取文字塊信息就是從所述報(bào)紙版面的數(shù)字化信 息中提取文字塊信息。102 判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提??;103 如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信 息;104 如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字塊信息。本發(fā)明實(shí)施例提供的一種信息提取方法及裝置,通過(guò)判斷所述文字塊信息中的預(yù) 設(shè)版面文字塊信息是否被提取,可以防止同一預(yù)設(shè)版面文字塊信息重復(fù)被提??;如果所述 的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)版面 文字塊信息的自動(dòng)提?。蝗绻龅念A(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字 塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)稿件文字塊信息的自動(dòng)提取。基于以上實(shí)施例,如圖2所示,為本發(fā)明實(shí)施例提供的一種信息提取方法具體實(shí) 現(xiàn)流程圖。當(dāng)需要提取某種預(yù)設(shè)版面文字塊信息和預(yù)設(shè)稿件文字塊信息時(shí),則需要進(jìn)行如 下流程201 設(shè)置所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則、所述預(yù)設(shè)稿件文字 塊信息的正則表達(dá)式匹配規(guī)則以及所述預(yù)設(shè)稿件文字塊信息的特征信息;其中,所述預(yù)設(shè) 版面文字塊信息的正則表達(dá)式匹配規(guī)則和所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī) 則可以通過(guò)正則表達(dá)式的形式進(jìn)行表示;所述的預(yù)設(shè)稿件文字塊信息的特征信息則可以包 括字體信息和位置信息。通過(guò)所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則可以從文 字塊信息中提取到所述預(yù)設(shè)版面文字塊信息;通過(guò)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則可以從文字塊信息中提取到所述預(yù)設(shè)稿件文字塊信息;為了更加準(zhǔn)確的獲取到所 述預(yù)設(shè)稿件文字塊信息可以首先通過(guò)所述預(yù)設(shè)稿件文字塊信息的特征信息縮小獲取所述 預(yù)設(shè)稿件文字塊信息的匹配范圍,然后在所述范圍中再進(jìn)行預(yù)設(shè)稿件文字塊信息的匹配。202 從版面文件中提取文字塊信息,其中,所述文字塊信息包括版面文字塊信 息和稿件文字塊信息;203 判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提取;204 如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信 息;其具體的實(shí)現(xiàn)過(guò)程如下Sll 所述如果所述的預(yù)設(shè)版面文字塊信息未被提取,獲取所述預(yù)設(shè)版面文字塊信 息的正則表達(dá)式匹配規(guī)則;根據(jù)所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則從所述版 面文字塊信息中提取所述預(yù)設(shè)版面文字塊信息;其中,所述的預(yù)設(shè)版面文字塊信息可以為 版面信息中的編輯名稱、校對(duì)員名稱、版式設(shè)計(jì)員名稱等等;所述的預(yù)設(shè)版面文字塊信息的 正則表達(dá)式匹配規(guī)則可以根據(jù)所述具體需要進(jìn)行提取的版面文字塊信息進(jìn)行設(shè)置。S12 將所述預(yù)設(shè)版面文字塊信息的提取標(biāo)識(shí)設(shè)置為已提取狀態(tài)。需要注意的是,為了保證所述預(yù)設(shè)版面文字塊信息提取的準(zhǔn)確性,還可以對(duì)所述 提取到的預(yù)設(shè)版面文字塊信息進(jìn)行如下操作。S13 校驗(yàn)所述預(yù)設(shè)版面文字塊信息,并給出校驗(yàn)結(jié)果;具體的校驗(yàn)過(guò)程為設(shè)所 述預(yù)設(shè)版面文字塊信息為所述版面文字塊信息中的編輯名稱;可以通過(guò)將所述提取到的編 輯名稱與預(yù)先存儲(chǔ)的編輯名稱庫(kù)中的名稱進(jìn)行匹配,如果所述編輯名稱庫(kù)中存在該編輯名 稱,則認(rèn)為所述提取的預(yù)設(shè)版面文字塊信息正確,即校驗(yàn)結(jié)果為100%正確;如果所述提取 到的編輯名稱與預(yù)先存儲(chǔ)的編輯名稱庫(kù)中的名稱部分匹配,或者完全不匹配,則根據(jù)匹配 狀態(tài)給出正確率,即校驗(yàn)結(jié)果為50%正確,或者0%正確。S14 根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)版面文字塊信息。例如將100%正 確的預(yù)設(shè)版面文字塊信息標(biāo)識(shí)為白色;將50%正確的預(yù)設(shè)版面文字塊信息標(biāo)識(shí)為黃色;將 0%正確的預(yù)設(shè)版面文字塊信息標(biāo)識(shí)為紅色。205 如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字塊信息;其 具體的實(shí)現(xiàn)過(guò)程可以為如果所述的預(yù)設(shè)版面文字塊信息已被提取,獲取所述預(yù)設(shè)稿件文字塊信息的正則 表達(dá)式匹配規(guī)則;根據(jù)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則從所述版面文字塊 信息中提取所述預(yù)設(shè)稿件文字塊信息。為了更加準(zhǔn)確的提取到所述預(yù)設(shè)版面文字塊信息,本發(fā)明實(shí)施例提取預(yù)設(shè)稿件文 字塊信息的過(guò)程還可以通過(guò)如下過(guò)程實(shí)現(xiàn)設(shè)以下提取的預(yù)設(shè)稿件文字塊信息為作者姓 名;S21 當(dāng)所述預(yù)設(shè)稿件文字塊信息的特征信息包括字體信息時(shí),如果所述的預(yù)設(shè) 版面文字塊信息已被提取,根據(jù)所述預(yù)設(shè)稿件文字塊信息的字體信息獲取所述預(yù)設(shè)稿件文 字塊信息集合。例如設(shè)字體信息為黑體;則如果所述的預(yù)設(shè)版面文字塊信息已被提取, 就將所述稿件文字塊信息中所有字體為黑體的文字塊信息都提取出來(lái),將所述提取出來(lái)的 信息組合為預(yù)設(shè)稿件文字塊信息集合{T}。為了進(jìn)一步準(zhǔn)確的獲取到所述預(yù)設(shè)稿件文字塊信息,本發(fā)明實(shí)施例還可以通過(guò)設(shè)置特征信息中包括位置信息來(lái)進(jìn)一步縮小獲取所述預(yù)設(shè)稿件文字塊信息的范圍;當(dāng)獲取 到預(yù)設(shè)稿件文字塊信息集合IT}后,繼續(xù)進(jìn)行如下操作S22 當(dāng)所述預(yù)設(shè)稿件文字塊信息的特征信息還包括位置信息時(shí),對(duì)所述預(yù)設(shè)稿 件文字塊信息集合進(jìn)行預(yù)處理,分別獲取得到所述預(yù)設(shè)稿件文字塊信息集合{Ts}及所述 預(yù)設(shè)稿件文字塊信息集合{Te};例如設(shè)位置信息為所述預(yù)設(shè)稿件文字塊信息集合內(nèi)容 的開(kāi)頭到第一個(gè)出現(xiàn)參考符的位置I3S ;和/或,所述預(yù)設(shè)稿件文字塊信息集合內(nèi)容的結(jié)尾 到最后一個(gè)出現(xiàn)參考符的位置Pe。對(duì)所述預(yù)設(shè)稿件文字塊信息集合{T}進(jìn)行預(yù)處理的過(guò)程具體可以包括所述預(yù)設(shè) 稿件文字塊信息集合IT}中可能存在字體描述不一致的問(wèn)題所導(dǎo)致的待提取內(nèi)容T中存在 括號(hào)不一致的問(wèn)題。S23 按照所述位置信息,從所述預(yù)設(shè)稿件文字塊信息集合{T}中提取所述預(yù)設(shè)稿 件文字塊信息的子集{A};具體的講,就是可以首先按照所述位置信息1^,從所述預(yù)設(shè)稿件 文字塊信息集合{Ts}提取相應(yīng)的信息al,如果提取到al,則將al作為子集{A};如果未提 取到al,則再按照所述位置信息Pe,從所述預(yù)設(shè)稿件文字塊信息集合{Te}提取相應(yīng)的信息 a2,將a2作為子集{A}。S24 根據(jù)所述設(shè)置的預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則,從所述預(yù)設(shè)稿 件文字塊信息的子集中提取所述預(yù)設(shè)稿件文字塊信息;設(shè)所述預(yù)設(shè)稿件文字塊信息的正則 表達(dá)式匹配規(guī)則的匹配級(jí)別數(shù)量為4 ;其中,所述匹配級(jí)別1的正則表達(dá)式匹配規(guī)則數(shù)量為 3,所述匹配級(jí)別2的正則表達(dá)式匹配規(guī)則數(shù)量為3,所述匹配級(jí)別3的正則表達(dá)式匹配規(guī)則 數(shù)量為2,所述匹配級(jí)別4的正則表達(dá)式匹配規(guī)則數(shù)量為1 ;間隔符為逗號(hào)或分號(hào);所述各 個(gè)匹配級(jí)別的正則表達(dá)式匹配規(guī)則組成一個(gè)匹配集;該步驟具體可以包括按照匹配級(jí)別依次從所述匹配集中獲取所述匹配級(jí)別對(duì)應(yīng)的正則表達(dá)式匹配規(guī) 則;所述正則表達(dá)式匹配規(guī)則描述方式為正則表達(dá)式。該步驟具體為首先,從匹配集中獲取匹配級(jí)別1所對(duì)應(yīng)的3個(gè)正則表達(dá)式匹配規(guī)則;該規(guī)則如 下規(guī)則ι可以為Λ (. * ?(記者I記者組I作者I實(shí)習(xí)生I通訊員I文V攝I V 攝I文V圖I插圖I漫畫(huà)I制圖I實(shí)習(xí)記者I V文I評(píng)論員I點(diǎn)評(píng)).* \)/g;上述正則表達(dá)式表示全文匹配“(”,并且匹配“非回車符”零到無(wú)限次,并且匹配 “記者”或“記者組”或“作者”或“實(shí)習(xí)生”或“通訊員”或“文/攝”或“/攝”或“文/圖” 或“插圖”或“漫畫(huà)”或“制圖”或“實(shí)習(xí)記者”或“/文”或“評(píng)論員”或“點(diǎn)評(píng)”,并且匹配“非 回車符”零到無(wú)限次,并且匹配“)”。規(guī)則2可以為Λ (\s*([\u4e00-\u9fa5]{2,5}\s+[\u4e00-\u9fa5]{2, 5}\s*)+\s*\)/g ;上述正則表達(dá)式表示全文匹配“(”,并且匹配“空白字符”零到無(wú)限次,并且匹配2 個(gè)到5個(gè)中文字符,并且匹配一個(gè)“空白字符”,并且匹配2個(gè)到5個(gè)中文字符,并且匹配“空 白字符”零到無(wú)限次,并且匹配“空白字符”零到無(wú)限次,并且匹配“)”。規(guī)則3可以為/(記者I記者組I作者I實(shí)習(xí)生I通訊員I實(shí)習(xí)記者I評(píng)論員 制圖 I 漫畫(huà) I 插圖 I 撰稿)(|\s V)*[\u4e00-\U9fa5]{2,6}\S*( = ($ | \n V 攝 | V 文I發(fā)自I綜合報(bào)道I文V攝I V畫(huà)I文并攝I攝影報(bào)道I V繪圖I整理I摘錄整合I攝[\u4e00-\u9fa5] {2,5}專電 | 攝影 | 文 V 圖 | 報(bào)道 | 采寫(xiě) \ (本報(bào)[\u4e00_\u9fa5]* 電 \) I 本版[\u4e00-\u9fa5]*))/g ;上述正則表達(dá)式“(記者ι記者組ι作者ι實(shí)習(xí)生ι通訊員ι實(shí)習(xí)記者I評(píng)論員 制圖I漫畫(huà)I插圖I撰稿)”表示匹配“記者”或“記者組”或“作者”或“實(shí)習(xí)生”或“通
訊員,,或“實(shí)習(xí)記者”或“評(píng)論員,,或“制圖”或“漫畫(huà)”或“插圖”或“撰稿”;上述正則表達(dá)式“(|\s|V )*[\u4e00-\u9fa5] {2,6} \s*” 表示匹配“”或“空 白字符”或“/”零到無(wú)限次,并且匹配2個(gè)到6個(gè)中文字符,并且匹配“空白字符”零到無(wú)限 次;上述正則表達(dá)式“(?=”表示斷言要匹配的文本的后綴;上述正則表達(dá)式“($ ι \η ι V攝I V文I發(fā)自I綜合報(bào)道I文V攝I V畫(huà)I文并攝 攝影報(bào)道I V繪圖I整理I摘錄整合I攝I [\u4e00-\u9fa5] {2,5}專電|攝影|文V圖 報(bào)道I采寫(xiě)\ (本報(bào)[\u4e00-\u9fa5]*電\) |本版[\u4e00_\u9fa5] *) ”為后綴內(nèi)容,即
匹配位置后面緊跟是字符串結(jié)尾或一個(gè)“回車符”,或匹配如下任一字符串“/攝”、“/文”、 “發(fā)自”、“綜合報(bào)道”、“文/攝”、“/畫(huà)”、“文并攝”、“攝影報(bào)道”、“/繪圖”、“整理”、“摘錄整 合”、“攝”、“攝影” “文/圖” “報(bào)道” “采寫(xiě)”或匹配“本報(bào)”后面緊跟一個(gè)以上中文字符并 最后緊跟“電”或匹配“本版”后面緊跟一個(gè)以上中文字符;上述“/g”表示全文查找出現(xiàn)的所有匹配字符。其次,從匹配集中獲取匹配級(jí)別2所對(duì)應(yīng)的3個(gè)正則表達(dá)式匹配規(guī)則;該規(guī)則如 下規(guī)則1 :/(\. |,|\ I! ri\r|\n| V攝 I 文V攝 I V畫(huà) I 文并攝 I V 繪圖 I 文V 圖 V文字整理 V實(shí)習(xí)生 V文)\s*[\u4e00-\u9fa5] {2,4}\s*( ?=((攝[\n$]) V 文ι文ν攝ι ν畫(huà)ι文并攝ι ν繪圖ι攝影ι文ν圖ι ν文字整理ι ν實(shí)習(xí)生))/g;上述正則表達(dá)式“(\. |,|\ ? |! ri\r|\n| V攝I文V攝I V畫(huà)I文并攝I V 繪圖I文V圖ι V文字整理ι V實(shí)習(xí)生ι V文)”表示匹配“.”或“,”或“?”或“! ”或 “\r”或“\n”或“/攝”或“文/攝”或“/畫(huà)”或“文并攝”或“/繪圖”或“文/圖”或“/文 字整理”或“/實(shí)習(xí)生”或“/文”;上述正則表達(dá)式“S*[\Me00-\u9fa5] {2,4} \s*”表示匹配“空白字符”零到無(wú)限 次,并且匹配2個(gè)到4個(gè)中文字符,并且匹配“空白字符”零到無(wú)限次;上述正則表達(dá)式“(?=”表示斷言要匹配的文本的后綴;上述正則表達(dá)式“((攝[\n$]) I V文ι文V攝ι V畫(huà)ι文并攝ι V繪圖ι攝影 文ν圖ι ν文字整理ι ν實(shí)習(xí)生)”表示后綴內(nèi)容,即匹配“/攝”后面緊跟換行符或后面是 字符串結(jié)尾或“/文”或“文/攝”或“/畫(huà)”或“文并攝”或“/繪圖”或“攝影”或“文/圖” 或“/文字整理”或“/實(shí)習(xí)生”;最后緊跟的“)”表示后綴結(jié)束;上述“/g”表示全文查找出現(xiàn)的所有匹配字符。規(guī)則2:/(記者I記者組I作者I實(shí)習(xí)生I通訊員I實(shí)習(xí)記者I評(píng)論員) (\s*| V )+[\u4e00-\u9fa5]{2,4}(\s+[\u4e00-\u9fa5]{2,6}){1, }\s*( ? = ($|\n| V 攝I發(fā)自I綜合報(bào)道I文V攝I V畫(huà)I文并攝I攝影報(bào)道I報(bào)道攝影I V繪圖I整理I攝 {2,5}專電|攝影|文V圖|報(bào)道|采寫(xiě)))/g ;上述正則表達(dá)式“(記者ι記者組ι作者ι實(shí)習(xí)生ι通訊員ι實(shí)習(xí)記者I評(píng)論員)”意思是匹配字符串“記者”或“記者組”或“作者”或“實(shí)習(xí)生”或“通訊員”或“實(shí)習(xí)記者” 或“評(píng)論員”;上述正則表達(dá)式“(\s*| V ) ”表示匹配“空白字符”零次或更多次,或匹配“/”;其 中“ + ”表示并且匹配“(\s* V)” 一次以上;上述正則表達(dá)式“ [\Me00_\u9fa5] {2,4},,表示匹配2個(gè)到4個(gè)中文字符;上述正則表達(dá)式“(\S+[\u4e00-\u9fa5] {2,6}) {1,} ” 表示如下,“ (\s+[\u4e00-\ u9fa5] {2,6},,表示重復(fù)匹配“空白字符” 一次以上,匹配2個(gè)大到6個(gè)中文字符。“ {1,},, 表示重復(fù)匹配“ (\s+[\u4e00-\u9fa5] {2,6}”一次以上;上述正則表達(dá)式“\s*”表示重復(fù)匹配“空白字符”零次或更多次;上述正則表達(dá)式“(?=”表示斷言要匹配的文本的后綴;上述正則表達(dá)式“($|\n I V攝I發(fā)自I綜合報(bào)道I文V攝I V畫(huà)I文并攝I攝 影報(bào)道I報(bào)道攝影I V繪圖I整理I攝I [\Me00-\u9fa5] {2,5}專電|攝影|文V圖|報(bào) 道I采寫(xiě)I)”為上面所述后綴內(nèi)容,表示匹配位置緊跟是字符串結(jié)尾或回車符或“/攝”或 “發(fā)自,,或“綜合報(bào)道”或“文/攝”或“/畫(huà)”或“文并攝”或“攝影報(bào)道”或“道攝影”或“/ 繪圖”或“整理”或“攝”或2個(gè)到5個(gè)中文字符后面跟著“專電”或“攝影”或“文/圖”或 “報(bào)道I ”或“采寫(xiě)”;最后緊跟的“)”表示后綴結(jié)束;上述“/g”表示全文查找出現(xiàn)的所有匹配字符。規(guī)則3:/( I · I □ I €))\S*.*( = ($|\r|\n))/g;上述正則表達(dá)式“( I · I □ I ◎ )\”表示字符串匹配“ ”或“·”或“□”或 “◎”;上述正則表達(dá)式“ \s*. *”表示重復(fù)匹配空白字符零次或更多次,重復(fù)匹配非換行 符零次或更多次;上述正則表達(dá)式“(?=”表示斷言要匹配的文本的后綴;上述正則表達(dá)式“($ I \r|\n) ”表示后綴內(nèi)容,匹配字符串結(jié)尾或回車換行符最后 緊跟的“)”表示后綴結(jié)束;上述“/g”表示全文查找出現(xiàn)的所有匹配字符。再次,從匹配集中獲取匹配級(jí)別3所對(duì)應(yīng)的2個(gè)正則表達(dá)式匹配規(guī)則;該規(guī)則如 下規(guī)則1 Λ (\s*[\u4e00_\u9fa5] {2,4} (\s+[\u4e00-\u9fa5] {2,6}) {1,}\s*\)/ g ;上述正則表達(dá)式“\S*[\u4e00-\u9fa5] {2,4} ”表示重復(fù)匹配“空白字符”零次或 更多次,匹配2個(gè)到4個(gè)中文字符;上述正則表達(dá)式“(\S+[\u4e00-\u9fa5] {2,6}) ”表示匹配“空白字符”一次以上, 匹配2個(gè)到6個(gè)中文字符;上述正則表達(dá)式“{1,}”表示匹配“(\s+[\u4e00-\u9fa5] {2,6})” 一次以上;上述正則表達(dá)式“\s*”表示重復(fù)匹配“空白字符”零次或更多次;上述“/g”表示全文查找出現(xiàn)的所有匹配字符;規(guī)貝丨J2 :re =A (\s* [\u4e00-\u9fa5] {2,4} \s*\) /g ;上述正則表達(dá)式表示重復(fù)匹配“空白字符”零次或更多次,匹配2個(gè)到4個(gè)中文字符,重復(fù)匹配“空白字符”零次或更多次;其中“/g”表示全文查找出現(xiàn)的所有匹配字符;最后,從匹配集中獲取匹配級(jí)別4所對(duì)應(yīng)的1個(gè)正則表達(dá)式匹配規(guī)則;該規(guī)則如 下規(guī)則1 /(\s+1 “ I \ ? I \· I ! ) [\u4e00-\u9fa5] {2,4} \s* ( ?=((攝[\n$]) | V 攝ι ν文ι文ν攝ι ν畫(huà)ι文并攝|\8攝ι ν繪圖ι攝影ι文ν圖ι ν文字整理ι ν實(shí)習(xí) 生))/g;上述正則表達(dá)式“(\s+n\ V I !)”表示匹配“空白字符”一次以上或是字 符串開(kāi)頭位置或匹配“ ?”或“.”或“ !”;上述正則表達(dá)式“ [\u4e00_\u9fa5] {2,4} \s*”表示匹配2個(gè)到4個(gè)中文字符,重
復(fù)匹配“空白字符”零次或更多次;上述正則表達(dá)式“(?=”表示斷言要匹配的文本的后綴;上述正則表達(dá)式“((攝[\n$]) I V攝I V文I文V攝I V畫(huà)I文并攝|\8攝I V 繪圖I攝影I文ν圖ι ν文字整理ι ν實(shí)習(xí)生)”表示匹配“攝”后緊跟換行符或后面是字 符串結(jié)尾,或匹配“/攝”或“/文”或“文”或“文并攝”或后面緊跟一個(gè)空白字符及“攝”或 “/繪圖”或“攝影”或“文/圖”或“/文字整理”或“/實(shí)習(xí)生”;最后緊跟的“)”表示后綴 結(jié)束;其中“/g”表示全文查找出現(xiàn)的所有匹配字符。根據(jù)所述獲取到的正則表達(dá)式匹配規(guī)則,對(duì)所述預(yù)設(shè)稿件文字塊信息的子集中的 內(nèi)容進(jìn)行內(nèi)容匹配,給出匹配結(jié)果;例如根據(jù)所述匹配級(jí)別1的3個(gè)正則表達(dá)式匹配規(guī)則 與所述預(yù)設(shè)稿件文字塊信息的子集中的內(nèi)容進(jìn)行匹配,從而可以提取出來(lái)“作者,王一”,并 將其加入到集合{B},然后繼續(xù)獲取匹配級(jí)別2的3個(gè)正則表達(dá)式匹配規(guī)則與所述預(yù)設(shè)稿件 文字塊信息的子集中的內(nèi)容進(jìn)行匹配,未提取出任何信息;接著,獲取匹配級(jí)別3的2個(gè)正 則表達(dá)式匹配規(guī)則與所述預(yù)設(shè)稿件文字塊信息的子集中的內(nèi)容進(jìn)行匹配,提取出來(lái)“通訊 員,趙二”,并將其加入到集合{B};最后,獲取匹配級(jí)別4的1個(gè)正則表達(dá)式匹配規(guī)則與所 述預(yù)設(shè)稿件文字塊信息的子集中的內(nèi)容進(jìn)行匹配,提取出來(lái)“編輯張三”,并將其加入到集 合{B};所述集合{B}為{作者,王一,通訊員,趙二,編輯張三}。在獲取到所述集合{B}為{作者,王一,通訊員,趙二,編輯張三}時(shí),還可以根據(jù) 相應(yīng)的過(guò)濾規(guī)則對(duì)匹配結(jié)果進(jìn)行關(guān)鍵詞過(guò)濾,得到作者姓名“王一”,將所述姓名提取到作 者集{Bi}中;依次將所述通訊員姓名“趙二”提取到通訊員姓名集{BW中;將所述編輯姓 名“張三”提取到編輯姓名集{B3}中。關(guān)鍵詞過(guò)濾過(guò)程完成關(guān)鍵詞去除過(guò)程,關(guān)鍵詞如“作 者”、“編輯”、“通訊員”等。需要說(shuō)明的是,由于通過(guò)關(guān)鍵詞過(guò)濾得到的結(jié)果中可能存在多個(gè)由特定標(biāo)點(diǎn)符號(hào) (如逗號(hào),分號(hào))間隔的結(jié)果,如{王一,趙二,張三},因此需要對(duì)結(jié)果集進(jìn)行再提取。以特 定標(biāo)點(diǎn)符號(hào)為間隔符,切割字符串得到多個(gè)結(jié)果,如將“王一”加入結(jié)果集{Al};將“趙二” 加入結(jié)果集{A2};將“張三”加入結(jié)果集{A3},。需要注意的是,匹配級(jí)別可以根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)獲得最佳值。正則表達(dá)式匹配規(guī)則都是以正則表達(dá)式的方式表達(dá),由多個(gè)關(guān)鍵詞組合而成。具 體看相關(guān)參數(shù)描述,也可以根據(jù)具體不同實(shí)例配置。每個(gè)正則表達(dá)式匹配規(guī)則對(duì)應(yīng)一個(gè)關(guān)鍵詞替代規(guī)則。多級(jí)別的規(guī)則設(shè)置能最大程度的提取到所有作者;其中,所述包括記者姓 名、通訊員姓名、攝影姓名、采編姓名、實(shí)習(xí)生姓名、文字整理姓名、評(píng)論員姓名等。S25 將所述預(yù)設(shè)稿件文字塊信息的子集進(jìn)行信息再處理;該步驟的具體實(shí)現(xiàn)過(guò) 程可以包括所述將所述結(jié)果集{Al}、{A2}、{A3}.. . {An}合并到結(jié)果集{A};然后,再將所 述結(jié)果集{A}進(jìn)行消重和漏處理的關(guān)鍵詞二次過(guò)濾。具體的講就是將結(jié)果集{A}中內(nèi)容相 同的信息項(xiàng)去除,并將對(duì)所述結(jié)果集{A}進(jìn)行再次關(guān)鍵詞過(guò)濾。S26:從所述再處理后的所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件文
字塊信息。需要注意的是,該方法還包括S27 校驗(yàn)所述預(yù)設(shè)稿件文字塊信息,并給出校驗(yàn)結(jié)果;其具體的校驗(yàn)過(guò)程可以利 用預(yù)先存儲(chǔ)的的字典信息驗(yàn)證提取所述預(yù)設(shè)稿件文字塊信息即作者姓名集{A}的正確率, 步驟如下步驟1 依次獲取作者A,對(duì)比已建好的作者名字典,查看是否都存在,存在,則標(biāo) 識(shí)此作者集{A}正確率為100%。對(duì)某些部分匹配,或是完全不匹配,對(duì)作者集{A}分別標(biāo) 識(shí)60%,0的正確率。步驟2 設(shè)置好覆蓋率為95%中文姓氏字典,對(duì)正確率為不是100%的作者集進(jìn)行 二次正確率計(jì)算,獲取作者字符串的第一個(gè)字符,對(duì)比姓氏字典,如果存在,則提升正確率。 如不存在,獲取作者字符串的前兩個(gè)字符,對(duì)比姓氏字典,如果存在,則提升正確率,否則降 低。S28 根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)稿件文字塊信息。如圖3所示,為本發(fā)明實(shí)施例提供的一種信息提取裝置,該裝置包括文字塊信息提取單元301,用于從版面文件中提取文字塊信息,其中,所述文字塊 信息包括版面文字塊信息和稿件文字塊信息;判斷單元302,用于判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提?。活A(yù)設(shè)版面提取單元303,用于如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所 述預(yù)設(shè)版面文字塊信息;預(yù)設(shè)稿件提取單元304,用于如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù) 設(shè)稿件文字塊信息。需要注意的是,該裝置還包括設(shè)置單元,用于設(shè)置所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則、所述預(yù)設(shè) 稿件文字塊信息的正則表達(dá)式匹配規(guī)則以及所述預(yù)設(shè)稿件文字塊信息的特征信息。需要注意的是,所述預(yù)設(shè)版面提取單元303,包括規(guī)則獲取子單元,用于獲取所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則;預(yù)設(shè)版面提取子單元,用于根據(jù)所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則 從所述版面文字塊信息中提取所述預(yù)設(shè)版面文字塊信息;標(biāo)識(shí)設(shè)置子單元,用于將所述預(yù)設(shè)版面文字塊信息的提取標(biāo)識(shí)設(shè)置為已提取狀 態(tài)。還需要注意的是,所述預(yù)設(shè)版面提取單元303,還包括校驗(yàn)子單元,用于校驗(yàn)所述預(yù)設(shè)版面文字塊信息,并給出校驗(yàn)結(jié)果;
標(biāo)識(shí)子單元,用于根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)版面文字塊信息。還需要注意的是,所述預(yù)設(shè)稿件提取單元304,還用于獲取所述預(yù)設(shè)稿件文字塊信 息的正則表達(dá)式匹配規(guī)則,根據(jù)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則從所述版 面文字塊信息中提取所述預(yù)設(shè)稿件文字塊信息;或者,當(dāng)所述預(yù)設(shè)稿件文字塊信息的特征信息包括字體信息和所述位置信息時(shí),所述 預(yù)設(shè)稿件提取單元304,還用于根據(jù)所述預(yù)設(shè)稿件文字塊信息的字體信息獲取所述預(yù)設(shè)稿 件文字塊信息集合,根據(jù)所述預(yù)設(shè)稿件文字塊信息的字體信息,獲取所述預(yù)設(shè)稿件文字塊 信息集合;對(duì)所述預(yù)設(shè)稿件文字塊信息集合進(jìn)行預(yù)處理;按照所述位置信息,從所述預(yù)設(shè) 稿件文字塊信息集合中提取所述預(yù)設(shè)稿件文字塊信息的子集;根據(jù)所述設(shè)置的預(yù)設(shè)稿件文 字塊信息的正則表達(dá)式匹配規(guī)則,從所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件 文字塊信息。還需要注意的是,所述預(yù)設(shè)稿件提取單元304,包括信息再處理子單元,用于將所述預(yù)設(shè)稿件文字塊信息的子集進(jìn)行信息再處理;預(yù)設(shè)稿件提取子單元,用于從所述再處理后的所述預(yù)設(shè)稿件文字塊信息的子集中 提取所述預(yù)設(shè)稿件文字塊信息。還需要注意的是,所述預(yù)設(shè)稿件提取單元304,還包括校驗(yàn)子單元,用于校驗(yàn)所述預(yù)設(shè)稿件文字塊信息,并給出校驗(yàn)結(jié)果;標(biāo)識(shí)子單元,用于根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)稿件文字塊信息。本發(fā)明實(shí)施例提供的一種信息提取方法及裝置,通過(guò)判斷所述文字塊信息中的預(yù) 設(shè)版面文字塊信息是否被提取,可以防止同一預(yù)設(shè)版面文字塊信息重復(fù)被提??;如果所述 的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)版面 文字塊信息的自動(dòng)提?。蝗绻龅念A(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字 塊信息,從而實(shí)現(xiàn)了預(yù)設(shè)稿件文字塊信息的自動(dòng)提取。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例不但 可以自動(dòng)的提取到的預(yù)設(shè)版面文字塊信息和預(yù)設(shè)稿件文字塊信息,還可以進(jìn)一步通過(guò)預(yù)先 存儲(chǔ)的庫(kù)信息與所述提取到的預(yù)設(shè)版面文字塊信息和預(yù)設(shè)稿件文字塊信息進(jìn)行比較,從而 提高所述提取預(yù)設(shè)版面文字塊信息和預(yù)設(shè)稿件文字塊信息的準(zhǔn)確性,從而大大降低了標(biāo)引 人員的工作量,提高了提取的準(zhǔn)確率。其中,所述提取預(yù)設(shè)稿件文字塊信息的過(guò)程本發(fā)明還 通過(guò)特征信息將提取所述預(yù)設(shè)稿件文字塊信息的范圍縮小,進(jìn)一步提高了提取所述預(yù)設(shè)稿 件文字塊信息準(zhǔn)確率。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方 法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于 一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括如上述方法實(shí)施例的步驟,所述的存儲(chǔ) 介質(zhì),如R0M/RAM、磁碟、光盤等。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種信息提取方法,其特征在于,包括從版面文件中提取文字塊信息,其中,所述文字塊信息包括版面文字塊信息和稿件文 字塊信息;判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提取;如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息;如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字塊信息。
2.根據(jù)權(quán)利要求1所述的信息提取方法,其特征在于,該方法,還包括設(shè)置所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則、所述預(yù)設(shè)稿件文字塊信息的正 則表達(dá)式匹配規(guī)則以及所述預(yù)設(shè)稿件文字塊信息的特征信息。
3.根據(jù)權(quán)利要求2所述的信息提取方法,其特征在于,所述提取所述預(yù)設(shè)版面文字塊 信息的步驟,包括獲取所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則;根據(jù)所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則從所述版面文字塊信息中提取 所述預(yù)設(shè)版面文字塊信息;將所述預(yù)設(shè)版面文字塊信息的提取標(biāo)識(shí)設(shè)置為已提取狀態(tài)。
4.根據(jù)權(quán)利要求3所述的信息提取方法,其特征在于,提取所述預(yù)設(shè)版面文字塊信息 的步驟,還包括校驗(yàn)所述預(yù)設(shè)版面文字塊信息,并給出校驗(yàn)結(jié)果;根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)版面文字塊信息。
5.根據(jù)權(quán)利要求2至4中任意一項(xiàng)所述的信息提取方法,其特征在于,所述提取預(yù)設(shè)稿 件文字塊信息的步驟,包括獲取所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則;根據(jù)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則從所述版面文字塊信息中提取 所述預(yù)設(shè)稿件文字塊信息。
6.根據(jù)權(quán)利要求2至4中任意一項(xiàng)所述的信息提取方法,其特征在于,當(dāng)所述預(yù)設(shè)稿件 文字塊信息的特征信息包括字體信息時(shí),所述提取預(yù)設(shè)稿件文字塊信息的步驟,還包括根據(jù)所述預(yù)設(shè)稿件文字塊信息的字體信息獲取所述預(yù)設(shè)稿件文字塊信息集合。
7.根據(jù)權(quán)利要求6所述的信息提取方法,其特征在于,當(dāng)所述預(yù)設(shè)稿件文字塊信息的 特征信息還包括位置信息時(shí),所述提取預(yù)設(shè)稿件文字塊信息的步驟,還包括對(duì)所述預(yù)設(shè)稿件文字塊信息集合進(jìn)行預(yù)處理;按照所述位置信息,從所述預(yù)設(shè)稿件文字塊信息集合中提取所述預(yù)設(shè)稿件文字塊信息 的子集;根據(jù)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則,從所述預(yù)設(shè)稿件文字塊信息的 子集中提取所述預(yù)設(shè)稿件文字塊信息。
8.根據(jù)權(quán)利要求7所述的信息提取方法,其特征在于,所述根據(jù)所述預(yù)設(shè)稿件文字塊 信息的正則表達(dá)式匹配規(guī)則,從所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件文字 塊信息的步驟,包括將所述預(yù)設(shè)稿件文字塊信息的子集進(jìn)行信息再處理;從所述再處理后的所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件文字塊信息。
9.根據(jù)權(quán)利要求8所述的信息提取方法,其特征在于,所述提取預(yù)設(shè)稿件文字塊信息 的步驟,還包括校驗(yàn)所述預(yù)設(shè)稿件文字塊信息,并給出校驗(yàn)結(jié)果; 根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)稿件文字塊信息。
10.一種信息提取裝置,其特征在于,包括文字塊信息提取單元,用于從版面文件中提取文字塊信息,其中,所述文字塊信息包 括版面文字塊信息和稿件文字塊信息;判斷單元,用于判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提?。?預(yù)設(shè)版面提取單元,用于如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè) 版面文字塊信息;預(yù)設(shè)稿件提取單元,用于如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件 文字塊信息。
11.根據(jù)權(quán)利要求10所述的信息提取裝置,其特征在于,該裝置,還包括設(shè)置單元,用于設(shè)置所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則、所述預(yù)設(shè)稿件 文字塊信息的正則表達(dá)式匹配規(guī)則以及所述預(yù)設(shè)稿件文字塊信息的特征信息。
12.根據(jù)權(quán)利要求11所述的信息提取裝置,其特征在于,所述預(yù)設(shè)版面提取單元,包括規(guī)則獲取子單元,用于獲取所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則; 預(yù)設(shè)版面提取子單元,用于根據(jù)所述預(yù)設(shè)版面文字塊信息的正則表達(dá)式匹配規(guī)則從所 述版面文字塊信息中提取所述預(yù)設(shè)版面文字塊信息;標(biāo)識(shí)設(shè)置子單元,用于將所述預(yù)設(shè)版面文字塊信息的提取標(biāo)識(shí)設(shè)置為已提取狀態(tài)。
13.根據(jù)權(quán)利要求12所述的信息提取裝置,其特征在于,所述預(yù)設(shè)版面提取單元,還包括校驗(yàn)子單元,用于校驗(yàn)所述預(yù)設(shè)版面文字塊信息,并給出校驗(yàn)結(jié)果; 標(biāo)識(shí)子單元,用于根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)版面文字塊信息。
14.根據(jù)權(quán)利要求11至13中任意一項(xiàng)所述的信息提取裝置,其特征在于,所述預(yù)設(shè)稿件提取單元,還用于獲取所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī) 則,根據(jù)所述預(yù)設(shè)稿件文字塊信息的正則表達(dá)式匹配規(guī)則從所述版面文字塊信息中提取所 述預(yù)設(shè)稿件文字塊信息;或者,當(dāng)所述預(yù)設(shè)稿件文字塊信息的特征信息包括字體信息和位置信息時(shí),所述預(yù)設(shè)稿件 提取單元,還用于根據(jù)所述預(yù)設(shè)稿件文字塊信息的字體信息獲取所述預(yù)設(shè)稿件文字塊信息 集合,對(duì)所述預(yù)設(shè)稿件文字塊信息集合進(jìn)行預(yù)處理;按照所述位置信息,從所述預(yù)設(shè)稿件文 字塊信息集合中提取所述預(yù)設(shè)稿件文字塊信息的子集;根據(jù)所述設(shè)置的預(yù)設(shè)稿件文字塊信 息的正則表達(dá)式匹配規(guī)則,從所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件文字塊 fn息ο
15.根據(jù)權(quán)利要求14所述的信息提取裝置,其特征在于,所述預(yù)設(shè)稿件提取單元,包括信息再處理子單元,用于將所述預(yù)設(shè)稿件文字塊信息的子集進(jìn)行信息再處理; 預(yù)設(shè)稿件提取子單元,用于從所述再處理后的所述預(yù)設(shè)稿件文字塊信息的子集中提取所述預(yù)設(shè)稿件文字塊信息。
16.根據(jù)權(quán)利要求15所述的信息提取裝置,其特征在于,所述預(yù)設(shè)稿件提取單元,還包括校驗(yàn)子單元,用于校驗(yàn)所述預(yù)設(shè)稿件文字塊信息,并給出校驗(yàn)結(jié)果; 標(biāo)識(shí)子單元,用于根據(jù)所述校驗(yàn)結(jié)果,標(biāo)識(shí)所述校驗(yàn)的預(yù)設(shè)稿件文字塊信息。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了一種信息提取方法及裝置,涉及信息抽取技術(shù)領(lǐng)域。為了解決現(xiàn)有技術(shù)中,所采用的計(jì)算機(jī)自動(dòng)標(biāo)引無(wú)法從所述報(bào)紙的版面信息和稿件信息中提取出預(yù)設(shè)文字塊信息的問(wèn)題而發(fā)明。本發(fā)明實(shí)施例提供的一種信息提取方法,包括從版面文件中提取文字塊信息,其中,所述文字塊信息包括版面文字塊信息和稿件文字塊信息;判斷所述文字塊信息中的預(yù)設(shè)版面文字塊信息是否被提取;如果所述的預(yù)設(shè)版面文字塊信息未被提取,則提取所述預(yù)設(shè)版面文字塊信息;如果所述的預(yù)設(shè)版面文字塊信息已被提取,則提取預(yù)設(shè)稿件文字塊信息。采用本發(fā)明實(shí)施例可以降低標(biāo)引人員的工作量,提高標(biāo)引的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK102103612SQ20091024304
公開(kāi)日2011年6月22日 申請(qǐng)日期2009年12月22日 優(yōu)先權(quán)日2009年12月22日
發(fā)明者徐劍波, 林欣欣, 王輝, 董寧 申請(qǐng)人:北京方正阿帕比技術(shù)有限公司, 北大方正集團(tuán)有限公司