国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法和系統(tǒng)與流程

      文檔序號(hào):11407247閱讀:338來(lái)源:國(guó)知局
      一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法和系統(tǒng)與流程

      本發(fā)明涉及文本信息提取技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法和系統(tǒng)。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)時(shí)代的高速發(fā)展,越來(lái)越多的的信息發(fā)布在網(wǎng)上。而信息的展現(xiàn)形式卻是參差不齊的,因此越來(lái)越需要一種技術(shù)可以將大量?jī)?yōu)質(zhì)的信息從互聯(lián)網(wǎng)的各個(gè)角落集中的、規(guī)范的挖掘給用戶,來(lái)提高用戶的消費(fèi)質(zhì)量。

      網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息是科研工作者重要的信息獲取、交流方式之一,它可以幫組科研工作者快速的發(fā)現(xiàn)哪里有和自己研究方向相關(guān)聯(lián)的學(xué)術(shù)報(bào)告,從而參加并進(jìn)行學(xué)術(shù)交流、提高學(xué)術(shù)水平。目前網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息在每個(gè)研究所、高校等機(jī)構(gòu)都是存在的,但是機(jī)構(gòu)太過(guò)分散,每個(gè)機(jī)構(gòu)的學(xué)術(shù)網(wǎng)頁(yè)網(wǎng)址也都很難查找,而且學(xué)術(shù)信息的展現(xiàn)形式的混亂導(dǎo)致讓用戶很難快速的查找和發(fā)現(xiàn)與自己相關(guān)的學(xué)術(shù)報(bào)告,所以如何快速在大量混亂的機(jī)構(gòu)、網(wǎng)頁(yè)中找到自己所需要的報(bào)告是一個(gè)問(wèn)題。因此能將分散的、格式混亂的學(xué)術(shù)報(bào)告集中、規(guī)范的展現(xiàn)給科研工作者是一個(gè)非常有價(jià)值的工作。

      由于網(wǎng)頁(yè)信息的高度復(fù)雜性和高度自然語(yǔ)言化,現(xiàn)有的、配合html標(biāo)記的規(guī)則化關(guān)鍵字匹配方法工作方式單一,可擴(kuò)展性很低,面對(duì)稍有變化的網(wǎng)頁(yè)就需要大量的重寫(xiě)操作,而且沒(méi)有考慮到html標(biāo)記以外的標(biāo)記內(nèi)容,最小粒度依賴于dom樹(shù)節(jié)點(diǎn)的分類,但同一節(jié)點(diǎn)中很容易包含不同的內(nèi)容?,F(xiàn)有的基于文檔樹(shù)的機(jī)器學(xué)習(xí)方式針對(duì)整體的分類任務(wù)和節(jié)點(diǎn)類別判斷較好,但是針對(duì)更精細(xì)的、文檔樹(shù)參考價(jià)值低的、特征過(guò)于寬泛復(fù)雜的內(nèi)容效果還不夠,尤其未考慮到內(nèi)容之間序的關(guān)系。



      技術(shù)實(shí)現(xiàn)要素:

      基于背景技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明提出了一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法和系統(tǒng)。

      本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法,包括:

      s1、將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和學(xué)術(shù)報(bào)告的內(nèi)容開(kāi)頭替換為對(duì)應(yīng)的固定表示標(biāo)記,并根據(jù)相鄰兩個(gè)固定表示標(biāo)記對(duì)學(xué)術(shù)報(bào)告進(jìn)行分割,得到初步分割結(jié)果集合;

      s2、刪除初步分割結(jié)果集合中匹配預(yù)設(shè)黑名單的初步分割結(jié)果,得到有效分割結(jié)果集合;

      s3、獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,再根據(jù)各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置合并提取出各有效分割結(jié)果對(duì)應(yīng)的屬性內(nèi)容;

      s4、判斷步驟s3中屬性是否出現(xiàn)重復(fù),當(dāng)判斷結(jié)果為是時(shí),根據(jù)屬性排列方式將不同屬性對(duì)應(yīng)的屬性內(nèi)容分配到相應(yīng)的學(xué)術(shù)報(bào)告中;

      s5、獲取學(xué)術(shù)報(bào)告的報(bào)告人信息和時(shí)間并匹配到學(xué)術(shù)報(bào)告中報(bào)告人信息和時(shí)間中。

      優(yōu)選地,步驟s1,具體包括:將html轉(zhuǎn)義字符還原,并將表示開(kāi)始、結(jié)束標(biāo)記的html代碼替換為表示結(jié)尾的固定表示標(biāo)記;依次替換題目、報(bào)告人、時(shí)間、地點(diǎn)、報(bào)告人簡(jiǎn)介、報(bào)告簡(jiǎn)介、主辦單位的內(nèi)容開(kāi)頭標(biāo)識(shí)為相應(yīng)的固定表示標(biāo)記;

      優(yōu)選地,在步驟s1中,所述固定表示標(biāo)記代表的標(biāo)記類別是唯一的。

      優(yōu)選地,在步驟s2中,所述黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標(biāo)學(xué)術(shù)報(bào)告中一段內(nèi)容的類別特征;

      優(yōu)選地,在步驟s3中,所述獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,具體包括:有效分割結(jié)果起始位置為有效分割結(jié)果的開(kāi)頭位置,有效分割結(jié)果中連續(xù)空白內(nèi)容出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)次數(shù)的位置為有效分割結(jié)果的結(jié)尾位置。

      優(yōu)選地,步驟s4中,所述判斷步驟s3中屬性是否出現(xiàn)重復(fù),其中所述屬性不包括舉辦單位;

      優(yōu)選地,步驟s4中,在根據(jù)屬性排列方式將不同屬性對(duì)應(yīng)的屬性內(nèi)容分配到相應(yīng)的學(xué)術(shù)報(bào)告中之后,還包括:當(dāng)某個(gè)屬性在多個(gè)學(xué)術(shù)報(bào)告中出現(xiàn)且僅出現(xiàn)一次時(shí),將此屬性添加到其他學(xué)術(shù)報(bào)告中。

      優(yōu)選地,步驟s5,具體包括:

      根據(jù)已有報(bào)告人職稱生成一個(gè)對(duì)應(yīng)列表,將列表按職稱詞語(yǔ)包含與被包含的順序由高職位到低職位的順序進(jìn)行排序,再根據(jù)職稱生成的對(duì)應(yīng)列表在報(bào)告人和報(bào)告人簡(jiǎn)介中提取出職稱最高的作為此報(bào)告職稱并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的機(jī)構(gòu),并結(jié)合相關(guān)的、正確的前綴、后綴作為此報(bào)告的報(bào)告人單位并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的名字,作為此報(bào)告的報(bào)告人姓名并匹配到報(bào)告人信息中;

      按照預(yù)設(shè)策略將報(bào)告時(shí)間補(bǔ)充為utc時(shí)間并匹配到報(bào)告人信息中,其中,預(yù)設(shè)策略包括:獲取學(xué)術(shù)報(bào)告對(duì)應(yīng)機(jī)構(gòu)的最新的時(shí)間記為最新時(shí)間,對(duì)所述最新時(shí)間出現(xiàn)不規(guī)范的時(shí)間進(jìn)行規(guī)范化,將12小時(shí)進(jìn)制轉(zhuǎn)化為24小時(shí)進(jìn)制,并按照從整體到部分的捕獲策略得到精準(zhǔn)的年月日時(shí)分,當(dāng)學(xué)術(shù)報(bào)告原數(shù)據(jù)沒(méi)有年份,則使用發(fā)布時(shí)間中的年份,當(dāng)發(fā)布時(shí)間中沒(méi)有年份,則看最新時(shí)間是否為空,若不為空則取最新時(shí)間的年份,否則放入沒(méi)有年份的等待隊(duì)列,當(dāng)報(bào)告至少具有年月日,則將此時(shí)間賦值給所述的最新時(shí)間,并查看所述的沒(méi)有年份的等待隊(duì)列,若其中不為空,則補(bǔ)上年份并從隊(duì)列中去除,其他情況不處理;當(dāng)開(kāi)始時(shí)間缺失時(shí)分、結(jié)束時(shí)間缺失年月日時(shí)分的情況時(shí),進(jìn)行大致偏好時(shí)間的填補(bǔ)。

      一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取系統(tǒng),包括:

      替換分割模塊,用于將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和學(xué)術(shù)報(bào)告的內(nèi)容開(kāi)頭替換為對(duì)應(yīng)的固定表示標(biāo)記,并根據(jù)相鄰兩個(gè)固定表示標(biāo)記對(duì)學(xué)術(shù)報(bào)告進(jìn)行分割,得到初步分割結(jié)果集合;

      黑名單模塊,用于刪除初步分割結(jié)果集合中匹配預(yù)設(shè)黑名單的初步分割結(jié)果,得到有效分割結(jié)果集合;

      內(nèi)容提取模塊,用于獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,再根據(jù)各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置合并提取出各有效分割結(jié)果對(duì)應(yīng)的屬性內(nèi)容;

      報(bào)告分類模塊,用于判斷內(nèi)容提取模塊中屬性是否出現(xiàn)重復(fù),當(dāng)判斷結(jié)果為是時(shí),根據(jù)屬性排列方式將不同屬性對(duì)應(yīng)的屬性內(nèi)容分配到相應(yīng)的學(xué)術(shù)報(bào)告中;

      內(nèi)容補(bǔ)充模塊,獲取學(xué)術(shù)報(bào)告的報(bào)告人信息和時(shí)間并匹配到學(xué)術(shù)報(bào)告中報(bào)告人信息和時(shí)間中。

      優(yōu)選地,所述替換分割模塊,具體用于:將html轉(zhuǎn)義字符還原,并將表示開(kāi)始、結(jié)束標(biāo)記的html代碼替換為表示結(jié)尾的固定表示標(biāo)記;依次替換題目、報(bào)告人、時(shí)間、地點(diǎn)、報(bào)告人簡(jiǎn)介、報(bào)告簡(jiǎn)介、主辦單位的內(nèi)容開(kāi)頭標(biāo)識(shí)為相應(yīng)的固定表示標(biāo)記;

      優(yōu)選地,替換分割模塊,還用于:將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和內(nèi)容開(kāi)頭標(biāo)識(shí)替換為對(duì)應(yīng)的固定表示標(biāo)記,其中所述固定表示標(biāo)記代表的標(biāo)記類別是唯一的。

      優(yōu)選地,所述黑名單模塊,具體用于:黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標(biāo)學(xué)術(shù)報(bào)告中一段內(nèi)容的類別特征;

      優(yōu)選地,所述內(nèi)容提取模塊,具體用于:獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,其中有效分割結(jié)果起始位置為有效分割結(jié)果的開(kāi)頭位置,有效分割結(jié)果中連續(xù)空白內(nèi)容出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)次數(shù)的位置為有效分割結(jié)果的結(jié)尾位置。

      優(yōu)選地,所述報(bào)告分類模塊,具體用于:判斷內(nèi)容提取模塊中屬性是否出現(xiàn)重復(fù),其中所述屬性不包括舉辦單位;

      優(yōu)選地,報(bào)告分類模塊,還用于:當(dāng)某個(gè)屬性在多個(gè)學(xué)術(shù)報(bào)告中出現(xiàn)且僅出現(xiàn)一次時(shí),將此屬性添加到其他學(xué)術(shù)報(bào)告中。

      優(yōu)選地,所述內(nèi)容補(bǔ)充模塊,具體用于:

      根據(jù)已有報(bào)告人職稱生成一個(gè)對(duì)應(yīng)列表,將列表按職稱詞語(yǔ)包含與被包含的順序由高職位到低職位的順序進(jìn)行排序,再根據(jù)職稱生成的對(duì)應(yīng)列表在報(bào)告人和報(bào)告人簡(jiǎn)介中提取出職稱最高的作為此報(bào)告職稱并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的機(jī)構(gòu),并結(jié)合相關(guān)的、正確的前綴、后綴作為此報(bào)告的報(bào)告人單位并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的名字,作為此報(bào)告的報(bào)告人姓名并匹配到報(bào)告人信息中;

      按照預(yù)設(shè)策略將報(bào)告時(shí)間補(bǔ)充為utc時(shí)間并匹配到報(bào)告人信息中,其中,預(yù)設(shè)策略包括:獲取學(xué)術(shù)報(bào)告對(duì)應(yīng)機(jī)構(gòu)的最新的時(shí)間記為最新時(shí)間,對(duì)所述最新時(shí)間出現(xiàn)不規(guī)范的時(shí)間進(jìn)行規(guī)范化,將12小時(shí)進(jìn)制轉(zhuǎn)化為24小時(shí)進(jìn)制,并按照從整體到部分的捕獲策略得到精準(zhǔn)的年月日時(shí)分,當(dāng)學(xué)術(shù)報(bào)告原數(shù)據(jù)沒(méi)有年份,則使用發(fā)布時(shí)間中的年份,當(dāng)發(fā)布時(shí)間中沒(méi)有年份,則看最新時(shí)間是否為空,若不為空則取最新時(shí)間的年份,否則放入沒(méi)有年份的等待隊(duì)列,當(dāng)報(bào)告至少具有年月日,則將此時(shí)間賦值給所述的最新時(shí)間,并查看所述的沒(méi)有年份的等待隊(duì)列,若其中不為空,則補(bǔ)上年份并從隊(duì)列中去除,其他情況不處理;當(dāng)開(kāi)始時(shí)間缺失時(shí)分、結(jié)束時(shí)間缺失年月日時(shí)分的情況時(shí),進(jìn)行大致偏好時(shí)間的填補(bǔ)。

      本發(fā)明在提取信息時(shí)做出了一個(gè)假設(shè),同一類有用的信息是連續(xù)展現(xiàn)的,比如對(duì)于一個(gè)摘要,我們不會(huì)認(rèn)為第一段摘要和第二段摘要之間會(huì)有不屬于摘要信息的存在,那么,這樣就可以利用同信息連續(xù)展現(xiàn)特性、節(jié)點(diǎn)細(xì)化功能,將分類任務(wù)化為文本切割位置的選擇任務(wù),本發(fā)明對(duì)于非連續(xù)展現(xiàn)的信息或無(wú)開(kāi)頭標(biāo)識(shí)的信息則缺乏適應(yīng),本發(fā)明提供一個(gè)三層架構(gòu)來(lái)提高可擴(kuò)展性,即規(guī)范-合并-模式架構(gòu);規(guī)范:解決標(biāo)簽格式多樣性問(wèn)題,提供一個(gè)可供定制的匹配選擇,使用戶可以在為新的網(wǎng)頁(yè)情況輕松得擴(kuò)展;合并:主要解決結(jié)尾位置問(wèn)題,使用黑名單方式進(jìn)行處理,不在名單中的可以去除,保證能正確的結(jié)尾;模式:一個(gè)網(wǎng)頁(yè)報(bào)告中可能有多個(gè)相同屬性的標(biāo)簽,比如多個(gè)報(bào)告時(shí)間、多個(gè)報(bào)告人簡(jiǎn)介等等,這里就是解決一頁(yè)多報(bào)告、多報(bào)告共享屬性等標(biāo)簽歸屬問(wèn)題,并進(jìn)行人工修改評(píng)測(cè)。這個(gè)架構(gòu)擺脫了傳統(tǒng)提取信息時(shí)最小粒度依賴于dom樹(shù)節(jié)點(diǎn)的分類,并利用了屬性順序特征分類,考慮到了內(nèi)容之間序的關(guān)系,本發(fā)明為了更高的利用所需信息,本發(fā)明利用屬性之間的一定聯(lián)系進(jìn)行深層次的信息提取、規(guī)范,如根據(jù)發(fā)布時(shí)間、時(shí)間及其前后的時(shí)間規(guī)范補(bǔ)充非標(biāo)準(zhǔn)時(shí)間,根據(jù)報(bào)告人、報(bào)告人簡(jiǎn)介用分詞、規(guī)則匹配方式得到更細(xì)的姓名、職稱、機(jī)構(gòu),從而一定的克服了節(jié)點(diǎn)內(nèi)精細(xì)內(nèi)容的匹配問(wèn)題。

      本發(fā)明擴(kuò)大了dom樹(shù)節(jié)點(diǎn)細(xì)化的能力,提高了規(guī)則適用性,利用了屬性順序特征分類。利用同信息連續(xù)展現(xiàn)特性等,將分類任務(wù)化為文本切割位置的選擇任務(wù),從而準(zhǔn)確、規(guī)范并易于擴(kuò)展地提取和整理學(xué)術(shù)報(bào)告信息。

      附圖說(shuō)明

      圖1為本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法的流程示意圖;

      圖2為圖1中步驟s1的具體流程圖;

      圖3為圖1中步驟s2的具體流程圖;

      圖4為圖1中步驟s3的具體流程圖;

      圖5為圖1中步驟s4的具體流程圖;

      圖6為圖1中步驟s5具體流程圖;

      圖7為本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法的三層架構(gòu)示意圖;

      圖8為本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取系統(tǒng)的模塊示意圖。

      具體實(shí)施方式

      參照?qǐng)D1,本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法,該方法包括:

      步驟s1,將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和學(xué)術(shù)報(bào)告的內(nèi)容開(kāi)頭替換為對(duì)應(yīng)的固定表示標(biāo)記,并根據(jù)相鄰兩個(gè)固定表示標(biāo)記對(duì)學(xué)術(shù)報(bào)告進(jìn)行分割,得到初步分割結(jié)果集合;

      本步驟具體包括:將html轉(zhuǎn)義字符還原,并將表示開(kāi)始、結(jié)束標(biāo)記的html代碼替換為表示結(jié)尾的固定表示標(biāo)記;依次替換題目、報(bào)告人、時(shí)間、地點(diǎn)、報(bào)告人簡(jiǎn)介、報(bào)告簡(jiǎn)介、主辦單位的內(nèi)容開(kāi)頭標(biāo)識(shí)為相應(yīng)的固定表示標(biāo)記;

      具體地,在本步驟中,所述固定表示標(biāo)記代表的標(biāo)記類別是唯一的;

      在本實(shí)施方式中,獲取學(xué)術(shù)網(wǎng)頁(yè)并對(duì)其中的html標(biāo)簽及屬性標(biāo)簽進(jìn)行規(guī)范化的處理,即將html標(biāo)簽及屬性標(biāo)簽聯(lián)合起來(lái)得到更細(xì)致的劃分點(diǎn),其中,所述屬性標(biāo)簽為學(xué)術(shù)報(bào)告中特有的、表示內(nèi)容屬性的標(biāo)記,例如“報(bào)告人:”、“報(bào)告人簡(jiǎn)介:”;

      參照?qǐng)D2,步驟s1具體包括以下步驟:

      步驟s11,下載一個(gè)學(xué)術(shù)報(bào)告網(wǎng)站上的每一個(gè)學(xué)術(shù)報(bào)告網(wǎng)頁(yè),

      步驟s12,從已經(jīng)下載好的學(xué)術(shù)報(bào)告網(wǎng)頁(yè)中按順序提取一個(gè)學(xué)術(shù)報(bào)告網(wǎng)頁(yè),如果提取完畢則結(jié)束;

      例如,提取報(bào)告:“<p>\r\n\t報(bào)告題目一:</p>\n<p>aaaaaa</p>aaa<p>報(bào)告時(shí)間:bbb</p>bbb<p>報(bào)告地點(diǎn):ccc</p><p>報(bào)\xa0告\xa0人:ddd</p>ddd<p>內(nèi)容摘要:</p><p>eeeeee</p><p>eee</p><p>報(bào)告人簡(jiǎn)介:</p><p>fff</p><p>r\n\t報(bào)告題目二:</p><p>aaa</p>aaa<p>報(bào)告時(shí)間:bbb</p><p>報(bào)告地點(diǎn):ccc</p><p>報(bào)\xa0告\xa0人:ddd</p><p>ddd內(nèi)容摘要:</p><p>eeeeee</p><p></p><p>報(bào)告人簡(jiǎn)介:</p><p>fff</p>fff<p>”;

      步驟s13,將html轉(zhuǎn)義字符還原,并將表示開(kāi)始、結(jié)束標(biāo)記的html代碼替換為一個(gè)固定的結(jié)尾表示標(biāo)記,然后去掉html代碼;

      例如,由上例得到:“報(bào)告題目一:{結(jié)尾}aaaaaa{結(jié)尾}aaa報(bào)告時(shí)間:bbb{結(jié)尾}bbb報(bào)告地點(diǎn):ccc{結(jié)尾}報(bào)告人:ddd{結(jié)尾}ddd內(nèi)容摘要:{結(jié)尾}eeeeee{結(jié)尾}eee{結(jié)尾}報(bào)告人簡(jiǎn)介:{結(jié)尾}fff{結(jié)尾}報(bào)告題目二:{結(jié)尾}aaa{結(jié)尾}aaa報(bào)告時(shí)間:bbb{結(jié)尾}報(bào)告地點(diǎn):ccc{結(jié)尾}報(bào)告人:ddd{結(jié)尾}ddd內(nèi)容摘要:{結(jié)尾}eeeeee{結(jié)尾}{結(jié)尾}報(bào)告人簡(jiǎn)介:{結(jié)尾}fff{結(jié)尾}fff”;

      步驟s14,根據(jù)屬性出現(xiàn)規(guī)則多層次的依次替換題目、報(bào)告人、時(shí)間、地點(diǎn)、報(bào)告人簡(jiǎn)介、報(bào)告簡(jiǎn)介、主辦單位等模糊屬性為固定的表示標(biāo)記;

      例如,由上例得到:“{題目}{結(jié)尾}aaaaaa{結(jié)尾}aaa{時(shí)間}bbb{結(jié)尾}bbb{地點(diǎn)}ccc{結(jié)尾}{報(bào)告人}ddd{結(jié)尾}ddd{報(bào)告簡(jiǎn)介}{結(jié)尾}eeeeee{結(jié)尾}eee{結(jié)尾}{報(bào)告人簡(jiǎn)介}{結(jié)尾}fff{結(jié)尾}{題目}{結(jié)尾}aaa{結(jié)尾}aaa{時(shí)間}bbb{結(jié)尾}{地點(diǎn)}ccc{結(jié)尾}{報(bào)告人}ddd{結(jié)尾}ddd{報(bào)告簡(jiǎn)介}{結(jié)尾}eeeeee{結(jié)尾}{結(jié)尾}{報(bào)告人簡(jiǎn)介}{結(jié)尾}fff{結(jié)尾}fff”;

      步驟s15,整體替換修正,在上一個(gè)步驟全部完成的基礎(chǔ)上再替換更為復(fù)雜的、屬性直接存在一定聯(lián)系的模糊屬性標(biāo)簽為固定的表示標(biāo)記,并有偏好的替換一些模凌兩可的標(biāo)簽;

      步驟s16,按已經(jīng)確定好的固定表示標(biāo)記將這段文本分割;

      例如,由上例得到:“屬性:內(nèi)容,1:,0:aaaaaa,0:aaa,3:bbb,0:bbb,4:ccc,0:,2:ddd,0:ddd,6:,0:eeeeee,0:eee,0:,5:,0:fff,0:,1:,0:aaa,0:aaa,3:bbb,0:,4:ccc,0:,2:ddd,0:ddd,6:,0:eeeeee,0:,0:,5:,0:fff,0:fff”,其中0代表結(jié)尾,123456代表一般屬性。

      步驟s2,刪除初步分割結(jié)果集合中匹配預(yù)設(shè)黑名單的初步分割結(jié)果,得到有效分割結(jié)果集合;

      在本步驟中,所述黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標(biāo)學(xué)術(shù)報(bào)告中一段內(nèi)容的類別特征;

      在本實(shí)施方式中,根據(jù)建立的多樣化黑名單確定結(jié)尾的位置,這是一種分類的方式,其中,所述黑名單是指一組模糊匹配方法的集合,可以是一組正則表達(dá)式,用于確定內(nèi)容是否屬于當(dāng)前屬性;

      參照?qǐng)D3,步驟s2具體包括以下步驟:

      步驟s21,根據(jù)網(wǎng)頁(yè)的規(guī)則和需要,從所有屬性適用和單一屬性適用的角度分別建立2種黑名單。其中,所述單一屬性適用是指某個(gè)特定的屬性使用的黑名單;

      步驟s22,從分割結(jié)果中提取一個(gè)分割塊,如果沒(méi)有則結(jié)束。所述分割結(jié)果是指步驟s16所得到的文本分割結(jié)果;

      步驟s23,判斷分割塊開(kāi)頭是否為普通屬性,若不是則進(jìn)入步驟s22,否則進(jìn)入在步驟s24。所述分割塊開(kāi)頭是指分割塊起始處的分割節(jié)點(diǎn)。所述普通屬性是指所需提取內(nèi)容的屬性之一,不是指代表結(jié)尾的屬性;

      步驟s24,判斷分割塊內(nèi)容是否匹配黑名單,從所有屬性適用和單一屬性適用的角度分別一次,若不是則進(jìn)入步驟s25,否則進(jìn)入在步驟s22;

      步驟s25,此分割塊作為一類開(kāi)頭;

      步驟s26,從分割結(jié)果中再提取一個(gè)分割塊,如果沒(méi)有則結(jié)束;

      步驟s27,判斷分割塊開(kāi)頭是否為普通屬性,若不是則進(jìn)入步驟s28,否則進(jìn)入在步驟s24;

      步驟s28,判斷分割塊內(nèi)容是否匹配黑名單,從所有屬性適用和單一屬性適用的角度分別一次,若不是則進(jìn)入步驟s29,否則進(jìn)入在步驟s26;

      在步驟s29中,此分割塊內(nèi)容加入此類,繼續(xù)步驟s21。所述此類是指步驟s25所創(chuàng)建的一類。

      步驟s3,獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,再根據(jù)各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置合并提取出各有效分割結(jié)果對(duì)應(yīng)的屬性內(nèi)容;

      在本步驟中,所述獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,具體包括:有效分割結(jié)果起始位置為有效分割結(jié)果的開(kāi)頭位置,有效分割結(jié)果中連續(xù)空白內(nèi)容出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)次數(shù)的位置為有效分割結(jié)果的結(jié)尾位置;

      在本實(shí)施方式中,由開(kāi)頭和結(jié)尾的位置合并提取出所有不同屬性的內(nèi)容;

      參照?qǐng)D4,步驟s3具體包括以下步驟:

      步驟s31,抽取一個(gè)類,從開(kāi)頭到最后內(nèi)容,抽完則結(jié)束,所述一個(gè)類是指步驟s2中得到的所有類別中的一個(gè);

      步驟s32,判斷所抽取類別中空白塊連續(xù)次數(shù)是否超過(guò)閾值,是則進(jìn)入步驟s33,否則進(jìn)入步驟s34。所述空白塊是指類別中的分割塊只有開(kāi)頭或中間沒(méi)有內(nèi)容;

      步驟s33,丟棄此連續(xù)空白塊及其之后的內(nèi)容;

      步驟s34,判斷此類屬性是否與上類一致,是則進(jìn)入步驟s35,否則進(jìn)入步驟s36,所述上類是指上一次在步驟s31中所抽取的一個(gè)類,如果是第一次則沒(méi)有上一次;

      步驟s35,將此類與上一類合并成一個(gè)類。

      步驟s36,合并此類別的內(nèi)容,成功分出類別,繼續(xù)步驟s31;

      例如,經(jīng)過(guò)步驟s13后,由上例得到:“屬性:內(nèi)容,1:aaaaaaaaa,3:bbbbbb,4:ccc,2:dddddd,6:eeeeeeeee,5:fff,1:aaaaaa,3:bbb,4:ccc,2:dddddd,6:eeeeee,5:ffffff”,其中0代表結(jié)尾,123456代表一般屬性。

      步驟s4,判斷步驟s3中屬性是否出現(xiàn)重復(fù),當(dāng)判斷結(jié)果為是時(shí),根據(jù)屬性排列方式將不同屬性對(duì)應(yīng)的屬性內(nèi)容分配到相應(yīng)的學(xué)術(shù)報(bào)告中;

      本步驟中,判斷步驟s3中屬性是否出現(xiàn)重復(fù),其中所述屬性不包括舉辦單位;

      具體的,在本步驟中,判斷網(wǎng)頁(yè)有多個(gè)學(xué)術(shù)報(bào)告之后,還包括:當(dāng)某個(gè)屬性在多個(gè)學(xué)術(shù)報(bào)告中出現(xiàn)且僅出現(xiàn)一次時(shí),將此屬性添加到其他學(xué)術(shù)報(bào)告中。

      具體的,在本步驟中,根據(jù)學(xué)術(shù)報(bào)告的屬性排列方式將不同屬性內(nèi)容分屬到對(duì)應(yīng)的學(xué)術(shù)報(bào)告中之后,還包括:根據(jù)同一頁(yè)面下不同報(bào)告的屬性缺失差異、每個(gè)報(bào)告的屬性缺失狀況、黑白名單關(guān)鍵字的判斷、屬性字符長(zhǎng)度的限制對(duì)分析結(jié)果進(jìn)行可信任程度評(píng)估;

      在本實(shí)施方式中,根據(jù)類別內(nèi)容的屬性的排列方式確定類別內(nèi)容的屬性分屬哪一個(gè)報(bào)告,達(dá)到分離一個(gè)網(wǎng)頁(yè)的多個(gè)報(bào)告的效果;

      參照?qǐng)D5,步驟s4具體包括以下步驟:

      步驟s41,生成一個(gè)空的報(bào)告。所述空的報(bào)告是用來(lái)存儲(chǔ)一個(gè)報(bào)告的屬性內(nèi)容的,可以是數(shù)組或結(jié)構(gòu)體等的形式;

      步驟s42,判斷分類結(jié)果是否遍歷完,是則進(jìn)入步驟s47,否則進(jìn)入步驟s43,所述分類結(jié)果是指步驟s3分出的所有類別;

      步驟s43中,從分好的結(jié)果中抽取一個(gè)類及其屬性;

      步驟s44中,判斷所取的屬性是否在生成的報(bào)告中已有,是則進(jìn)入步驟s45,否則進(jìn)入步驟s46;

      步驟s45,再生成一個(gè)空的報(bào)告,放在上一個(gè)報(bào)告之前,作為被加入的報(bào)告。

      步驟s46中,將所取的類加入報(bào)告之中,然后進(jìn)入步驟s42;

      例如,直到步驟s407時(shí),由上例得到:“{題目}aaaaaaaaa,{報(bào)告人}dddddd,{時(shí)間}bbbbbb,{地點(diǎn)}ccc,{報(bào)告人簡(jiǎn)介}fff,{報(bào)告簡(jiǎn)介}eeeeeeeee;{題目}aaaaaa,{報(bào)告人}dddddd,{時(shí)間}bbb,{地點(diǎn)}ccc,{報(bào)告人簡(jiǎn)介}ffffff,{報(bào)告簡(jiǎn)介}eeeeee”;

      步驟s47,對(duì)本網(wǎng)頁(yè)所有報(bào)告缺失屬性進(jìn)行公共信息延展,所述公共信息延展是指將多個(gè)報(bào)告中出現(xiàn)且僅出現(xiàn)一次的屬性類別添加到本網(wǎng)頁(yè)其他的所有報(bào)告之中;

      步驟s48,分析計(jì)算結(jié)果可信度,所述結(jié)果可信度是根據(jù)同一網(wǎng)頁(yè)下不同報(bào)告的屬性缺失差異、每個(gè)報(bào)告的屬性缺失狀況、黑白名單關(guān)鍵字的判斷、屬性字符長(zhǎng)度的限制的角度綜合得到的結(jié)果,本發(fā)明實(shí)施例對(duì)此并不加以限定;

      至此分析完一個(gè)網(wǎng)頁(yè)的所有報(bào)告以后,再回到步驟s12,直到分析完所有的網(wǎng)頁(yè)再進(jìn)行步驟s5。

      步驟s5,獲取學(xué)術(shù)報(bào)告的報(bào)告人信息和時(shí)間并匹配到學(xué)術(shù)報(bào)告中報(bào)告人信息和時(shí)間中;

      本步驟具體包括:

      根據(jù)已有報(bào)告人職稱生成一個(gè)對(duì)應(yīng)列表,將列表按職稱詞語(yǔ)包含與被包含的順序由高職位到低職位的順序進(jìn)行排序,再根據(jù)職稱生成的對(duì)應(yīng)列表在報(bào)告人和報(bào)告人簡(jiǎn)介中提取出職稱最高的作為此報(bào)告職稱并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的機(jī)構(gòu),并結(jié)合相關(guān)的、正確的前綴、后綴作為此報(bào)告的報(bào)告人單位并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的名字,作為此報(bào)告的報(bào)告人姓名并匹配到報(bào)告人信息中;

      按照預(yù)設(shè)策略將報(bào)告時(shí)間補(bǔ)充為utc時(shí)間并匹配到報(bào)告人信息中,其中,預(yù)設(shè)策略包括:獲取學(xué)術(shù)報(bào)告對(duì)應(yīng)機(jī)構(gòu)的最新的時(shí)間記為最新時(shí)間,對(duì)所述最新時(shí)間出現(xiàn)不規(guī)范的時(shí)間進(jìn)行規(guī)范化,將12小時(shí)進(jìn)制轉(zhuǎn)化為24小時(shí)進(jìn)制,并按照從整體到部分的捕獲策略得到精準(zhǔn)的年月日時(shí)分,當(dāng)學(xué)術(shù)報(bào)告原數(shù)據(jù)沒(méi)有年份,則使用發(fā)布時(shí)間中的年份,當(dāng)發(fā)布時(shí)間中沒(méi)有年份,則看最新時(shí)間是否為空,若不為空則取最新時(shí)間的年份,否則放入沒(méi)有年份的等待隊(duì)列,當(dāng)報(bào)告至少具有年月日,則將此時(shí)間賦值給所述的最新時(shí)間,并查看所述的沒(méi)有年份的等待隊(duì)列,若其中不為空,則補(bǔ)上年份并從隊(duì)列中去除,其他情況不處理;當(dāng)開(kāi)始時(shí)間缺失時(shí)分、結(jié)束時(shí)間缺失年月日時(shí)分的情況時(shí),進(jìn)行大致偏好時(shí)間的填補(bǔ);

      在本實(shí)施方式中,使用分詞和模糊匹配技術(shù)深度規(guī)范時(shí)間和細(xì)化報(bào)告人信息;

      參照?qǐng)D參照?qǐng)D6,步驟s5具體包括以下步驟:

      步驟s51,從前面所有步驟得到的報(bào)告中取出一份報(bào)告,若取完則結(jié)束。

      步驟s52,根據(jù)職稱列表從報(bào)告人及其簡(jiǎn)介中匹配出最高職稱,所述職稱列表是根據(jù)已有的報(bào)告人職稱生成的一個(gè)對(duì)應(yīng)列表,列表按職稱詞語(yǔ)包含與被包含、高職位到低職位的順序進(jìn)行排序,每個(gè)職稱可能有著不同的表達(dá)形式,一般由正則表達(dá)式展現(xiàn);

      步驟s53,從報(bào)告人及其簡(jiǎn)介中匹配出報(bào)告人機(jī)構(gòu),利用分詞算法和一定規(guī)則的正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的機(jī)構(gòu),并帶上相關(guān)的、正確的前綴、后綴作為此報(bào)告的報(bào)告人單位;

      步驟s54,從報(bào)告人及其簡(jiǎn)介中匹配出報(bào)告人精確姓名,利用分詞算法和一定規(guī)則的正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的名字,作為此報(bào)告的報(bào)告人姓名;

      步驟s55中,將報(bào)告時(shí)間補(bǔ)充并化為utc時(shí)間,再返回步驟s51;

      最后,針對(duì)分析完的數(shù)據(jù),和數(shù)據(jù)庫(kù)中的信息進(jìn)行一定偏好的匹配,丟棄冗余的數(shù)據(jù),并將所有分析完畢的報(bào)告信息分條存入數(shù)據(jù)庫(kù)。

      參照?qǐng)D7,圖7為本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取方法的三層架構(gòu)示意圖,本發(fā)明提供一個(gè)三層架構(gòu)來(lái)提高可擴(kuò)展性,即規(guī)范-合并-模式架構(gòu);規(guī)范:解決標(biāo)簽格式多樣性問(wèn)題,提供一個(gè)可供定制的匹配選擇,使用戶可以在為新的網(wǎng)頁(yè)情況輕松得擴(kuò)展;合并:主要解決結(jié)尾位置問(wèn)題,使用黑名單方式進(jìn)行處理,不在名單中的可以去除,保證能正確的結(jié)尾;模式:一個(gè)網(wǎng)頁(yè)報(bào)告中可能有多個(gè)相同屬性的標(biāo)簽,比如多個(gè)報(bào)告時(shí)間、多個(gè)報(bào)告人簡(jiǎn)介等等,這里就是解決一頁(yè)多報(bào)告、多報(bào)告共享屬性等標(biāo)簽歸屬問(wèn)題,并進(jìn)行人工修改評(píng)測(cè)。這個(gè)架構(gòu)擺脫了傳統(tǒng)提取信息時(shí)最小粒度依賴于dom樹(shù)節(jié)點(diǎn)的分類,并利用了屬性順序特征分類,考慮到了內(nèi)容之間序的關(guān)系,本發(fā)明為了更高的利用所需信息,本發(fā)明利用屬性之間的一定聯(lián)系進(jìn)行深層次的信息提取、規(guī)范,如根據(jù)發(fā)布時(shí)間、時(shí)間及其前后的時(shí)間規(guī)范補(bǔ)充非標(biāo)準(zhǔn)時(shí)間,根據(jù)報(bào)告人、報(bào)告人簡(jiǎn)介用分詞、規(guī)則匹配方式得到更細(xì)的姓名、職稱、機(jī)構(gòu),從而一定的克服了節(jié)點(diǎn)內(nèi)精細(xì)內(nèi)容的匹配問(wèn)題。

      參照?qǐng)D2,本發(fā)明提出的一種網(wǎng)頁(yè)學(xué)術(shù)報(bào)告信息抽取系統(tǒng),包括:

      替換分割模塊,用于將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和學(xué)術(shù)報(bào)告的內(nèi)容開(kāi)頭替換為對(duì)應(yīng)的固定表示標(biāo)記,并根據(jù)相鄰兩個(gè)固定表示標(biāo)記對(duì)學(xué)術(shù)報(bào)告進(jìn)行分割,得到初步分割結(jié)果集合;

      替換分割模塊,具體用于:將html轉(zhuǎn)義字符還原,并將表示開(kāi)始、結(jié)束標(biāo)記的html代碼替換為表示結(jié)尾的固定表示標(biāo)記;依次替換題目、報(bào)告人、時(shí)間、地點(diǎn)、報(bào)告人簡(jiǎn)介、報(bào)告簡(jiǎn)介、主辦單位的內(nèi)容開(kāi)頭標(biāo)識(shí)為相應(yīng)的固定表示標(biāo)記;

      具體的,替換分割模塊,還用于:將學(xué)術(shù)報(bào)告網(wǎng)頁(yè)html標(biāo)簽和內(nèi)容開(kāi)頭標(biāo)識(shí)替換為對(duì)應(yīng)的固定表示標(biāo)記,其中所述固定表示標(biāo)記代表的標(biāo)記類別是唯一的;

      在本實(shí)施方式中,獲取學(xué)術(shù)網(wǎng)頁(yè)并對(duì)其中的html標(biāo)簽及屬性標(biāo)簽進(jìn)行規(guī)范化的處理,即將html標(biāo)簽及屬性標(biāo)簽聯(lián)合起來(lái)得到更細(xì)致的劃分點(diǎn),其中,所述屬性標(biāo)簽為學(xué)術(shù)報(bào)告中特有的、表示內(nèi)容屬性的標(biāo)記,例如“報(bào)告人:”、“報(bào)告人簡(jiǎn)介:”。

      黑名單模塊,用于刪除初步分割結(jié)果集合中匹配預(yù)設(shè)黑名單的初步分割結(jié)果,得到有效分割結(jié)果集合;

      黑名單模塊,具體用于:黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標(biāo)學(xué)術(shù)報(bào)告中一段內(nèi)容的類別特征;

      在本實(shí)施方式中,根據(jù)建立的多樣化黑名單確定結(jié)尾的位置,這是一種分類的方式,其中,所述黑名單是指一組模糊匹配方法的集合,可以是一組正則表達(dá)式,用于確定內(nèi)容是否屬于當(dāng)前屬性。

      內(nèi)容提取模塊,用于獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,再根據(jù)各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置合并提取出各有效分割結(jié)果對(duì)應(yīng)的屬性內(nèi)容;

      內(nèi)容提取模塊,具體用于:獲取有效分割結(jié)果集合中各有效分割結(jié)果的開(kāi)頭位置和結(jié)尾位置,其中有效分割結(jié)果起始位置為有效分割結(jié)果的開(kāi)頭位置,有效分割結(jié)果中連續(xù)空白內(nèi)容出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)次數(shù)的位置為有效分割結(jié)果的結(jié)尾位置。

      在本實(shí)施方式中,由開(kāi)頭和結(jié)尾的位置合并提取出所有不同屬性的內(nèi)容。

      報(bào)告分類模塊,用于判斷內(nèi)容提取模塊中屬性是否出現(xiàn)重復(fù),當(dāng)判斷結(jié)果為是時(shí),表示網(wǎng)頁(yè)有多個(gè)學(xué)術(shù)報(bào)告,此時(shí)根據(jù)屬性排列方式將不同屬性對(duì)應(yīng)的屬性內(nèi)容分配到相應(yīng)的學(xué)術(shù)報(bào)告中;;

      報(bào)告分類模塊,具體用于:判斷內(nèi)容提取模塊中屬性是否出現(xiàn)重復(fù),其中所述屬性不包括舉辦單位;

      具體的,報(bào)告分類模塊,還用于:當(dāng)某個(gè)屬性在多個(gè)學(xué)術(shù)報(bào)告中出現(xiàn)且僅出現(xiàn)一次時(shí),將此屬性添加到其他學(xué)術(shù)報(bào)告中。

      報(bào)告分類模塊,還用于:根據(jù)同一頁(yè)面下不同報(bào)告的屬性缺失差異、每個(gè)報(bào)告的屬性缺失狀況、黑白名單關(guān)鍵字的判斷、屬性字符長(zhǎng)度的限制對(duì)分析結(jié)果進(jìn)行可信任程度評(píng)估;

      在本實(shí)施方式中,根據(jù)類別內(nèi)容的屬性的排列方式確定類別內(nèi)容的屬性分屬哪一個(gè)報(bào)告,達(dá)到分離一個(gè)網(wǎng)頁(yè)的多個(gè)報(bào)告的效果。

      內(nèi)容補(bǔ)充模塊,獲取學(xué)術(shù)報(bào)告的報(bào)告人信息和時(shí)間并匹配到學(xué)術(shù)報(bào)告中報(bào)告人信息和時(shí)間中;

      內(nèi)容補(bǔ)充模塊,具體用于:

      根據(jù)已有報(bào)告人職稱生成一個(gè)對(duì)應(yīng)列表,將列表按職稱詞語(yǔ)包含與被包含的順序由高職位到低職位的順序進(jìn)行排序,再根據(jù)職稱生成的對(duì)應(yīng)列表在報(bào)告人和報(bào)告人簡(jiǎn)介中提取出職稱最高的作為此報(bào)告職稱并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的機(jī)構(gòu),并結(jié)合相關(guān)的、正確的前綴、后綴作為此報(bào)告的報(bào)告人單位并匹配到報(bào)告人信息中;

      利用分詞算法和正則匹配方法分離出報(bào)告人、報(bào)告人簡(jiǎn)介中的名字,作為此報(bào)告的報(bào)告人姓名并匹配到報(bào)告人信息中;

      按照預(yù)設(shè)策略將報(bào)告時(shí)間補(bǔ)充為utc時(shí)間并匹配到報(bào)告人信息中,其中,預(yù)設(shè)策略包括:獲取學(xué)術(shù)報(bào)告對(duì)應(yīng)機(jī)構(gòu)的最新的時(shí)間記為最新時(shí)間,對(duì)所述最新時(shí)間出現(xiàn)不規(guī)范的時(shí)間進(jìn)行規(guī)范化,將12小時(shí)進(jìn)制轉(zhuǎn)化為24小時(shí)進(jìn)制,并按照從整體到部分的捕獲策略得到精準(zhǔn)的年月日時(shí)分,當(dāng)學(xué)術(shù)報(bào)告原數(shù)據(jù)沒(méi)有年份,則使用發(fā)布時(shí)間中的年份,當(dāng)發(fā)布時(shí)間中沒(méi)有年份,則看最新時(shí)間是否為空,若不為空則取最新時(shí)間的年份,否則放入沒(méi)有年份的等待隊(duì)列,當(dāng)報(bào)告至少具有年月日,則將此時(shí)間賦值給所述的最新時(shí)間,并查看所述的沒(méi)有年份的等待隊(duì)列,若其中不為空,則補(bǔ)上年份并從隊(duì)列中去除,其他情況不處理;當(dāng)開(kāi)始時(shí)間缺失時(shí)分、結(jié)束時(shí)間缺失年月日時(shí)分的情況時(shí),進(jìn)行大致偏好時(shí)間的填補(bǔ)。

      本實(shí)施方式擴(kuò)大了dom樹(shù)節(jié)點(diǎn)細(xì)化的能力,提高了規(guī)則適用性,利用了屬性順序特征分類。利用同信息連續(xù)展現(xiàn)特性等,將分類任務(wù)化為文本切割位置的選擇任務(wù),從而準(zhǔn)確、規(guī)范并易于擴(kuò)展地提取和整理學(xué)術(shù)報(bào)告信息。

      以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1