一種網(wǎng)頁(yè)信息獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)軟件應(yīng)用領(lǐng)域,特別涉及一種網(wǎng)頁(yè)信息獲取方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,每時(shí)每刻都在產(chǎn)生著海量的數(shù)據(jù),這些數(shù)據(jù)可以為政府或公 司了解一個(gè)行業(yè)的市場(chǎng)活躍度以及評(píng)價(jià)一個(gè)公司的綜合實(shí)力提供很好的參考。
[0003] 目前,網(wǎng)頁(yè)中的數(shù)據(jù)主要通過(guò)網(wǎng)頁(yè)源代碼解析的方法自動(dòng)化解析獲取。在現(xiàn)有技 術(shù)中,主要根據(jù)模式化的前后標(biāo)志,進(jìn)行目標(biāo)信息獲取,該方法將網(wǎng)頁(yè)結(jié)構(gòu)統(tǒng)一規(guī)范的網(wǎng)站 中的目標(biāo)信息獲取比較完整,但是,對(duì)于網(wǎng)頁(yè)結(jié)構(gòu)多變、不一的網(wǎng)頁(yè)來(lái)說(shuō),其前標(biāo)志和/或 后標(biāo)志常常無(wú)法確定,導(dǎo)致了獲取目標(biāo)信息的完整性和準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種網(wǎng)頁(yè)源代碼解析方法和裝置,以提高獲取目標(biāo)信息的完整性和準(zhǔn) 確性。
[0005] 一種網(wǎng)頁(yè)信息獲取方法,包括:
[0006] 建立不規(guī)則匹配庫(kù),所述不規(guī)則匹配庫(kù)包括:目標(biāo)信息的屬性、目標(biāo)信息的格式以 及目標(biāo)信息包含的字符串中的任意一個(gè)或多個(gè);
[0007] 遍歷目標(biāo)網(wǎng)頁(yè)的源代碼,根據(jù)所述匹配庫(kù)中的目標(biāo)信息的屬性、目標(biāo)信息的格式 以及目標(biāo)信息包含的字符串中的任意一個(gè)或多個(gè),從所述目標(biāo)網(wǎng)頁(yè)的源代碼中獲取目標(biāo)信 息。
[0008] 優(yōu)選地,該方法進(jìn)一步包括:建立關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù),所述關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù)包 括:目標(biāo)信息關(guān)鍵字、各個(gè)目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個(gè)或多個(gè);
[0009] 根據(jù)所述匹配庫(kù)中的信息的屬性、信息的格式以及信息包含的字符串中的任意一 個(gè)或多個(gè),從所述目標(biāo)網(wǎng)頁(yè)的源代碼中獲取目標(biāo)信息之前,進(jìn)一步包括:
[0010] 根據(jù)所述關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù)中的目標(biāo)信息關(guān)鍵字、各個(gè)目標(biāo)信息源代碼的前標(biāo)志 或后標(biāo)志中任意一個(gè)或多個(gè),截取所述目標(biāo)網(wǎng)頁(yè)中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵 字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個(gè)或多個(gè);
[0011] 判斷所述截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前 的內(nèi)容中任意一個(gè)是否為空,如果是,則執(zhí)行所述遍歷目標(biāo)網(wǎng)頁(yè)的源代碼;否則,通過(guò)清洗 機(jī)制清洗所述目標(biāo)網(wǎng)頁(yè)中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的 內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個(gè)或多個(gè),獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
[0012] 優(yōu)選地,所述通過(guò)清洗機(jī)制清洗所述目標(biāo)網(wǎng)頁(yè)中目標(biāo)信息源代碼中含有的目標(biāo)信 息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個(gè)或多個(gè),獲取目標(biāo) 信息,包括:
[0013] 根據(jù)目標(biāo)信息的屬性、格式或正則達(dá)表達(dá)式中的任意一個(gè)或多個(gè),從所述目標(biāo)網(wǎng) 頁(yè)中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的 內(nèi)容中的任意一個(gè)或多個(gè),獲得目標(biāo)信息。
[0014] 優(yōu)選地,在遍歷目標(biāo)網(wǎng)頁(yè)的源代碼之前,進(jìn)一步包括:
[0015] 整理目標(biāo)網(wǎng)頁(yè),使同類目標(biāo)信息具有統(tǒng)一格式;
[0016] 所述遍歷目標(biāo)網(wǎng)頁(yè)的源代碼,包括:遍歷所述整理后的目標(biāo)網(wǎng)頁(yè)的源代碼。
[0017] 優(yōu)選地,所述網(wǎng)頁(yè)為投標(biāo)網(wǎng)頁(yè);
[0018] 所述目標(biāo)信息,包括:項(xiàng)目名稱、項(xiàng)目編號(hào)、公告發(fā)布時(shí)間、招標(biāo)人、代理機(jī)構(gòu)、開(kāi)標(biāo) 時(shí)間中的任意一個(gè)或多個(gè);
[0019] 所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁(yè)或投標(biāo)網(wǎng)頁(yè)的源代碼中項(xiàng)目名稱的字體或 字號(hào)中的任意一個(gè)或兩個(gè);
[0020] 所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁(yè)或投標(biāo)網(wǎng)頁(yè)的源代碼中項(xiàng)目編號(hào)、公告發(fā)布 時(shí)間或開(kāi)標(biāo)時(shí)間的輸出格式中的任意一個(gè)或多個(gè);
[0021] 所述目標(biāo)信息包含的字符串,包括:項(xiàng)目編號(hào)含有的大寫或小寫字符以及 "["或"]"符號(hào)。
[0022] -種網(wǎng)頁(yè)信息獲取裝置,包括:
[0023] 第一建立單元,用于建立不規(guī)則匹配庫(kù),所述不規(guī)則匹配庫(kù)包括:目標(biāo)信息的屬 性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個(gè)或多個(gè);
[0024] 獲取單元,用于遍歷目標(biāo)網(wǎng)頁(yè)的源代碼,根據(jù)所述匹配庫(kù)中的目標(biāo)信息的屬性、目 標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個(gè)或多個(gè),從所述目標(biāo)網(wǎng)頁(yè)的源代碼 中獲取目標(biāo)信息。
[0025] 優(yōu)選地,該裝置進(jìn)一步包括:第二建立單元、截取單元、判斷單元和清洗單元,其 中,
[0026] 所述第二建立單元,用于建立關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù),所述關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù)包括:目 標(biāo)信息關(guān)鍵字、各個(gè)目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個(gè)或多個(gè);
[0027] 所述截取單元,用于根據(jù)所述關(guān)鍵字識(shí)別數(shù)據(jù)庫(kù)中的目標(biāo)信息關(guān)鍵字、各個(gè)目標(biāo) 信息源代碼的前標(biāo)志或后標(biāo)志中任意一個(gè)或多個(gè),截取所述目標(biāo)網(wǎng)頁(yè)中目標(biāo)信息源代碼中 含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個(gè)或多 個(gè);
[0028] 所述判斷單元,用于判斷所述截取單元截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前 標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中任意一個(gè)是否為空,如果是,則觸發(fā)所述獲取單元; 否則,觸發(fā)所述清洗單元;
[0029] 所述清洗單元,用于通過(guò)清洗機(jī)制清洗所述截取單元截取的所述目標(biāo)網(wǎng)頁(yè)中目標(biāo) 信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的 任意一個(gè)或多個(gè),獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
[0030] 優(yōu)選地,所述清洗單元進(jìn)一步包括:
[0031] 用于根據(jù)目標(biāo)信息的屬性、格式或正則達(dá)表達(dá)式中的任意一個(gè)或多個(gè),從所述目 標(biāo)網(wǎng)頁(yè)中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之 前的內(nèi)容中的任意一個(gè)或多個(gè),獲得目標(biāo)信息。
[0032] 優(yōu)選地,該裝置進(jìn)一步包括:整理單元,其中,
[0033] 所述整理單元,用于整理目標(biāo)網(wǎng)頁(yè),使同類目標(biāo)信息具有統(tǒng)一格式;
[0034] 所述獲取單元,進(jìn)一步用于遍歷所述整理后的目標(biāo)網(wǎng)頁(yè)的源代碼,根據(jù)所述匹配 庫(kù)中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個(gè)或多 個(gè),從所述整理后的目標(biāo)網(wǎng)頁(yè)的源代碼中獲取目標(biāo)信息。
[0035] 優(yōu)選地,所述裝置應(yīng)用于招投標(biāo)網(wǎng)頁(yè)的目標(biāo)信息獲取,其中,
[0036] 所述獲取單元獲取的目標(biāo)信息,包括:項(xiàng)目名稱、項(xiàng)目編號(hào)、公告發(fā)布時(shí)間、招標(biāo) 人、代理機(jī)構(gòu)、開(kāi)標(biāo)時(shí)間中的任意一個(gè)或多個(gè);
[0037] 所述第一建立單元建立的不規(guī)則匹配庫(kù)中所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁(yè) 或投標(biāo)網(wǎng)頁(yè)的源代碼中項(xiàng)目名稱的字體或字號(hào)中的任意一個(gè)或兩個(gè);
[0038] 所述第一建立單元建立的不規(guī)則匹配庫(kù)中所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁(yè) 或投標(biāo)網(wǎng)頁(yè)的源代碼中項(xiàng)目編號(hào)、公告發(fā)布時(shí)間或開(kāi)標(biāo)時(shí)間的輸出格式中的任意一個(gè)或多 個(gè);
[0039] 所述第一建立單元建立的不規(guī)則匹配庫(kù)中所述目標(biāo)信息包含的字符串,包括:項(xiàng) 目編號(hào)含有的大寫或小寫字符以及["或"]"符號(hào)。
[0040] 本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)信息獲取方法和裝置,其通過(guò)建立的不規(guī)則匹配庫(kù) 中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個(gè)或多個(gè)來(lái) 獲取目標(biāo)信息,這是因?yàn)?,?duì)于同一領(lǐng)域的網(wǎng)頁(yè)來(lái)說(shuō),不管目標(biāo)信息在源代碼中的前后標(biāo)志 是否一致,該目標(biāo)信息在源代碼中的屬性、格式以及包含的字符串是相同或相近的。因此, 與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的方法也可對(duì)前標(biāo)志和/或后標(biāo)志無(wú)法確定的目標(biāo)信息進(jìn) 行獲取,有效地提高了獲取目標(biāo)信息的完整性和準(zhǔn)確性。
【附圖說(shuō)明】
[0041] 圖1本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取方法的流程圖;
[0042] 圖2本發(fā)明另一實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取方法的流程圖;
[0043] 圖3本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取裝置所在架構(gòu)示意圖;
[0044] 圖4本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取裝置結(jié)構(gòu)示意圖;
[0045] 圖5本發(fā)明另一實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取裝置結(jié)構(gòu)示意圖;
[0046] 圖6本發(fā)明又一實(shí)施例提供的一種網(wǎng)頁(yè)信息獲取裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0047] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述。顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒?發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí) 施例,都屬于本發(fā)明保護(hù)的范圍。
[0048] 如圖1所示,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)信息獲取方法,該