基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法
【專利摘要】本發(fā)明公開了一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,涉及信息庫構(gòu)建領(lǐng)域。該方法以資源價(jià)格采集任務(wù)方式執(zhí)行:在任務(wù)中配置獲取資源價(jià)格數(shù)據(jù)的信息參數(shù)、采集頻率、清洗規(guī)則、存儲(chǔ)目標(biāo)位置;在任務(wù)執(zhí)行中通過配置的參數(shù)定時(shí)從互聯(lián)網(wǎng)價(jià)格網(wǎng)站上進(jìn)行數(shù)據(jù)抓取、清洗、存儲(chǔ)等操作,從而獲得準(zhǔn)確的價(jià)格數(shù)據(jù)。與現(xiàn)有技術(shù)相比,本發(fā)明的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法能夠解決建筑施工企業(yè)在項(xiàng)目管理系統(tǒng)建立資源(工、料、機(jī))價(jià)格庫時(shí)操作繁瑣、及時(shí)性差、需人工干預(yù)的問題,大大提高了工作效率,保證了數(shù)據(jù)準(zhǔn)確性及時(shí)性,具有很好的推廣應(yīng)用價(jià)值。
【專利說明】基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息庫構(gòu)建領(lǐng)域,具體地說是一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法。
【背景技術(shù)】
[0002]建筑企業(yè)在生產(chǎn)經(jīng)營活動(dòng)中,對資源價(jià)格數(shù)據(jù)十分敏感,因?yàn)橹挥蝎@得準(zhǔn)確及時(shí)的價(jià)格數(shù)據(jù)才能在項(xiàng)目預(yù)算中做到準(zhǔn)確預(yù)測項(xiàng)目成本,對項(xiàng)目投標(biāo)和成本控制都起到重要作用,在日常經(jīng)營采購活動(dòng)中參考資源價(jià)格數(shù)據(jù)在談判中能做到知己知彼,在競價(jià)談判中處于有利位置。所以,建筑企業(yè)對資源價(jià)格數(shù)據(jù)的及時(shí)性準(zhǔn)確性十分關(guān)注。
[0003]傳統(tǒng)項(xiàng)目管理系統(tǒng)中價(jià)格數(shù)據(jù)采集方式一般有兩種:一是依賴操作人員從項(xiàng)目管理系統(tǒng)中錄入,要想得到準(zhǔn)確實(shí)時(shí)的價(jià)格數(shù)據(jù)就需要大量人工操作錄入,費(fèi)時(shí)費(fèi)力,且容易出錯(cuò),不能在第一時(shí)間拿到準(zhǔn)確數(shù)據(jù);二是操作員先在系統(tǒng)外通過物理文件整理為系統(tǒng)需要的特定格式,然后導(dǎo)入系統(tǒng),這種方式需要大量人工干預(yù),及時(shí)性也不佳,且一旦整理數(shù)據(jù)有錯(cuò)誤就會(huì)影響了數(shù)據(jù)正確性,甚至數(shù)據(jù)不能導(dǎo)入。
[0004]如何能讓價(jià)格采集工作變得簡單實(shí)時(shí)有效,提高投標(biāo)報(bào)價(jià)和成本控制的準(zhǔn)確性實(shí)時(shí)性,提高采購工作的生產(chǎn)率和工作效率,是建筑施工企業(yè)迫切要解決的一個(gè)難題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的技術(shù)任務(wù)是針對上述現(xiàn)有技術(shù)的不足,提供一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法。該方法能夠解決建筑施工企業(yè)在項(xiàng)目管理系統(tǒng)建立資源(工、料、機(jī))價(jià)格庫時(shí)操作繁瑣、及時(shí)性差、需人工干預(yù)的技術(shù)問題。
[0006]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的:基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,包括價(jià)格采集任務(wù)的設(shè)置及價(jià)格采集任務(wù)的執(zhí)行兩個(gè)步驟:
價(jià)格采集任務(wù)的設(shè)置包括:
(1)任務(wù)基本屬性,包括任務(wù)的編號、名稱、地區(qū)、時(shí)間規(guī)則等屬性;
(2)任務(wù)的數(shù)據(jù)來源,指定抓取數(shù)據(jù)的價(jià)格網(wǎng)站網(wǎng)址,設(shè)置任務(wù)抓取網(wǎng)站的登錄網(wǎng)址、登錄用戶名和密碼、驗(yàn)證碼獲取規(guī)則等信息,其中,驗(yàn)證碼獲取規(guī)則包括:驗(yàn)證碼地址、驗(yàn)證碼識別方式、驗(yàn)證碼識別接口(如默認(rèn)識別方式不能實(shí)現(xiàn),可以通過插件方式實(shí)現(xiàn)),是否人工參與等;
(3 )任務(wù)的抓取規(guī)則,用于對每一個(gè)抓取對象設(shè)置抓取規(guī)則,指定要抓取的數(shù)據(jù)內(nèi)容和抽取規(guī)則:網(wǎng)頁上會(huì)有很多無效的數(shù)據(jù),需要指定取哪些數(shù)據(jù)例如資源名稱,資源編號,規(guī)格型號,價(jià)格單位,單價(jià)等對應(yīng)網(wǎng)頁上哪些元素。每個(gè)抓取對象通過設(shè)置正則表達(dá)式、直接查找和遞歸查找等匹配方式來從網(wǎng)頁上找到所需的數(shù)據(jù)。用戶也可在滿足抓取規(guī)則接口的情況下自行開發(fā)擴(kuò)展數(shù)據(jù)抓取方法;
(4)任務(wù)的分頁方式,使之能夠獲取分頁后的數(shù)據(jù):網(wǎng)頁上數(shù)據(jù)顯示是有限的,資源價(jià)格往往會(huì)分頁顯示,可通過分頁方式訪問到有效的數(shù)據(jù)網(wǎng)頁,以節(jié)省大量的時(shí)間; (5)任務(wù)的執(zhí)行頻率和輪詢規(guī)則,用于指定任務(wù)下次執(zhí)行的最小間隔時(shí)間,和可以使用的服務(wù)器,以應(yīng)對價(jià)格網(wǎng)站服務(wù)器防DDOS (分布式拒絕服務(wù))軟件的攔截:任務(wù)執(zhí)行時(shí),任務(wù)服務(wù)器根據(jù)可用服務(wù)器和最小執(zhí)行時(shí)間分配抓取任務(wù),只有服務(wù)器執(zhí)行完成后空閑時(shí)間大于最小間隔時(shí)間,才可執(zhí)行下一次抓??;
(6)任務(wù)的數(shù)據(jù)清洗規(guī)則,用于對采集的數(shù)據(jù)進(jìn)行再次校驗(yàn)整理,并對數(shù)據(jù)進(jìn)行比較去重;
(7)任務(wù)的存儲(chǔ)規(guī)則,可以存儲(chǔ)到數(shù)據(jù)庫表或物理文件,所述數(shù)據(jù)庫支持各種主流數(shù)據(jù)庫,用戶也可在滿足存儲(chǔ)接口的情況下自行開發(fā)擴(kuò)展存儲(chǔ)方式;數(shù)據(jù)保存時(shí)要包含發(fā)布地區(qū)、時(shí)間、資源品名、材質(zhì)、規(guī)格、價(jià)格、數(shù)量、生產(chǎn)廠、倉庫地、交易地等要素,數(shù)據(jù)存儲(chǔ)的規(guī)則要一致,要能方便的根據(jù)時(shí)間和地區(qū)等要素把資源價(jià)格信息分開或合并保存。
[0007]任務(wù)的數(shù)據(jù)來源可設(shè)置多個(gè),每個(gè)來源分別配置抓取規(guī)則、分頁方式和執(zhí)行頻率輪詢規(guī)則。
[0008]任務(wù)的抓取規(guī)則支持多種方式組合,數(shù)據(jù)中不同項(xiàng)內(nèi)容采用不同的規(guī)則,同一項(xiàng)內(nèi)容可設(shè)置優(yōu)先級不同的規(guī)則進(jìn)行抓取。
[0009]任務(wù)的執(zhí)行頻率可按周、天、時(shí)、分、秒或自定義時(shí)間間隔設(shè)置;任務(wù)的輪詢規(guī)則支持同一服務(wù)器等待時(shí)間和不同服務(wù)器的切換時(shí)間等設(shè)置。
[0010]價(jià)格采集任務(wù)的執(zhí)行包括:
(1)抓取指定網(wǎng)站價(jià)格數(shù)據(jù)網(wǎng)頁
任務(wù)模擬訪問某一個(gè)價(jià)格網(wǎng)站進(jìn)行價(jià)格數(shù)據(jù)網(wǎng)頁抓取工作;
(2)依據(jù)抓取規(guī)則抓取數(shù)據(jù)
(3)依據(jù)清洗規(guī)則清洗數(shù)據(jù)
(4)依據(jù)存儲(chǔ)規(guī)則保存數(shù)據(jù)。
[0011]作為優(yōu)選,設(shè)置任務(wù)的分頁方式時(shí),可以通過設(shè)置首頁、上頁、下頁、末頁和顯示頁序號的分頁方式或指定下一頁按鈕或指定頁序號輸入框和跳轉(zhuǎn)執(zhí)行按鈕的方式設(shè)置分頁。
[0012]數(shù)據(jù)清洗的規(guī)則包括數(shù)據(jù)一致性檢查、無效值和缺失值處理及去重規(guī)則。
[0013]抓取指定網(wǎng)站價(jià)格數(shù)據(jù)網(wǎng)頁的具體步驟為:
1)訪問價(jià)格網(wǎng)站,輸入訪問憑據(jù);然后,判斷是否需要輸入驗(yàn)證碼;
2)如果不需要驗(yàn)證碼,則進(jìn)入網(wǎng)頁抓取操作;如果需要驗(yàn)證碼,根據(jù)設(shè)置的驗(yàn)證規(guī)則獲取驗(yàn)證碼,并進(jìn)行識別判斷或人工識別;
3)驗(yàn)證碼輸入完成后,進(jìn)入網(wǎng)頁抓取操作;
4)當(dāng)前網(wǎng)頁抓取完成后,讀取分頁方式,判斷是否有下一頁,如果有下一頁,則根據(jù)設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作,然后執(zhí)行抓取網(wǎng)頁操作,直到?jīng)]有下一頁。
[0014]抓取數(shù)據(jù)時(shí),在某一網(wǎng)站網(wǎng)頁保存后,就可以按該網(wǎng)站設(shè)置的抓取規(guī)則抓取數(shù)據(jù),不用等到所有網(wǎng)頁保存完成后再抓取數(shù)據(jù)。數(shù)據(jù)抓取任務(wù)可以在網(wǎng)頁抓取保存的空閑時(shí)間執(zhí)行,這樣可以有效的利用服務(wù)器的資源,提高任務(wù)的執(zhí)行效率。
[0015]數(shù)據(jù)抓取后,需要對所有網(wǎng)站抓取的數(shù)據(jù)根據(jù)設(shè)置的規(guī)則進(jìn)行清洗整理,才能得到最終有效的數(shù)據(jù)。數(shù)據(jù)清洗任務(wù)可以在數(shù)據(jù)抓取后執(zhí)行,但是必須保證數(shù)據(jù)清洗任務(wù)的范圍是整個(gè)任務(wù)所有網(wǎng)站的抓取數(shù)據(jù)。
[0016]數(shù)據(jù)清洗后,需要對數(shù)據(jù)根據(jù)設(shè)置的存儲(chǔ)規(guī)則進(jìn)行保存,才能被用戶使用。
[0017]本發(fā)明的方法以資源價(jià)格采集任務(wù)方式執(zhí)行:在任務(wù)中配置獲取資源價(jià)格數(shù)據(jù)的信息參數(shù)、采集頻率、清洗規(guī)則、存儲(chǔ)目標(biāo)位置;在任務(wù)執(zhí)行中通過配置的參數(shù)定時(shí)從互聯(lián)網(wǎng)價(jià)格網(wǎng)站上進(jìn)行數(shù)據(jù)抓取、清洗、存儲(chǔ)等操作,從而獲得準(zhǔn)確的價(jià)格數(shù)據(jù)。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明的方法具有以下突出的有益效果:
(一)只需發(fā)布任務(wù)并配置其執(zhí)行參數(shù),剩余工作由服務(wù)器自動(dòng)執(zhí)行,減少了人工干預(yù),大大提高了工作效率,保證了數(shù)據(jù)準(zhǔn)確性及時(shí)性;
(二)使用該方法能明顯提高建筑施工企業(yè)項(xiàng)目概預(yù)算使用相關(guān)資源價(jià)格的準(zhǔn)確性、及時(shí)性,能更準(zhǔn)確測算工程成本,提高企業(yè)競爭力;在資源采購時(shí)能及時(shí)獲得當(dāng)?shù)禺?dāng)前及歷史價(jià)格,節(jié)約采購成本。
【專利附圖】
【附圖說明】
[0019]附圖1是本發(fā)明構(gòu)建方法中價(jià)格采集任務(wù)的設(shè)置流程圖;
附圖2是本發(fā)明構(gòu)建方法中價(jià)格采集任務(wù)的執(zhí)行流程圖。
【具體實(shí)施方式】
[0020]參照說明書附圖以具體實(shí)施例對本發(fā)明的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法作以下詳細(xì)地說明。
[0021]實(shí)施例:
如附圖1所示,本發(fā)明的價(jià)格采集任務(wù)的設(shè)置過程為:
首先,設(shè)置任務(wù)基本屬性A101,確定一個(gè)價(jià)格采集任務(wù)。每個(gè)任務(wù)可以設(shè)置多個(gè)抓取網(wǎng)站A102。任務(wù)的每一個(gè)抓取網(wǎng)站設(shè)置數(shù)據(jù)來源A104、抓取規(guī)則A105、分頁方式A106和執(zhí)行頻率輪詢規(guī)則A107等屬性A103。其中,數(shù)據(jù)來源A104,包含登錄網(wǎng)址、登錄用戶名和密碼、驗(yàn)證碼獲取規(guī)則等信息;抓取規(guī)則A105應(yīng)對每一個(gè)抓取對象設(shè)置抓取規(guī)則,可以包含多個(gè)抓取對象;設(shè)置完網(wǎng)站抓取規(guī)則后,進(jìn)入數(shù)據(jù)清洗規(guī)則定義A108,對采集的數(shù)據(jù)進(jìn)行再次校驗(yàn)整理,并對數(shù)據(jù)進(jìn)行比較去重,保證最終數(shù)據(jù)到有效性。最后,設(shè)置數(shù)據(jù)的存儲(chǔ)規(guī)則A109,數(shù)據(jù)存儲(chǔ)的規(guī)則要一致,要能方便的根據(jù)時(shí)間和地區(qū)等要素把資源價(jià)格信息分開或合并保存。
[0022]如圖2所示,是本發(fā)明方法的價(jià)格采集任務(wù)的執(zhí)行流程示意圖。
[0023]圖示中展示了本發(fā)明的價(jià)格采集任務(wù)的執(zhí)行流程。首先,服務(wù)器發(fā)起價(jià)格任務(wù)采集請求A201,指定采集任務(wù),采集價(jià)格數(shù)據(jù),進(jìn)入任務(wù)設(shè)置的抓取網(wǎng)站抓取網(wǎng)頁數(shù)據(jù)階段A202。
[0024]任務(wù)模擬訪問某一個(gè)價(jià)格網(wǎng)站進(jìn)行價(jià)格數(shù)據(jù)網(wǎng)頁抓取工作A202。首先,訪問價(jià)格網(wǎng)站,輸入訪問憑據(jù)A203。然后,判斷是否需要輸入驗(yàn)證碼A204。如果不需要驗(yàn)證碼,則進(jìn)入網(wǎng)頁抓取操作A207。如果需要驗(yàn)證碼,根據(jù)A104設(shè)置的驗(yàn)證規(guī)則獲取驗(yàn)證碼,并進(jìn)行識別判斷A205。如果不能機(jī)器識別,則需要人工識別A206。驗(yàn)證碼輸入完成后,進(jìn)入網(wǎng)頁抓取操作A207。當(dāng)前網(wǎng)頁抓取完成后,根據(jù)A106設(shè)定,讀取分頁方式,判斷是否有下一頁A209,如果有下一頁,則根據(jù)A107設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作A208,然后執(zhí)行抓取網(wǎng)頁操作A207,然后執(zhí)行A209操作,直到?jīng)]有下一頁。
[0025]抓取數(shù)據(jù)是在某一網(wǎng)站網(wǎng)頁保存后,就可以按該網(wǎng)站設(shè)置的抓取規(guī)則A106,抓取數(shù)據(jù)A210,不用等到所有網(wǎng)頁保存完成后再抓取數(shù)據(jù)。
[0026]數(shù)據(jù)清洗后,根據(jù)A109設(shè)置的存儲(chǔ)規(guī)則對數(shù)據(jù)進(jìn)行保存A212。
【權(quán)利要求】
1.基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,其特征在于包括價(jià)格采集任務(wù)的設(shè)置及價(jià)格采集任務(wù)的執(zhí)行兩個(gè)步驟: 價(jià)格采集任務(wù)的設(shè)置包括: 任務(wù)基本屬性,包括任務(wù)的編號、名稱、地區(qū)、時(shí)間規(guī)則屬性; (2)任務(wù)的數(shù)據(jù)來源,指定抓取數(shù)據(jù)的價(jià)格網(wǎng)站網(wǎng)址,設(shè)置任務(wù)抓取網(wǎng)站的登錄網(wǎng)址、登錄用戶名和密碼、驗(yàn)證碼獲取規(guī)則信息; (3)任務(wù)的抓取規(guī)則,用于對每一個(gè)抓取對象設(shè)置抓取規(guī)則; (4)任務(wù)的分頁方式; (5)任務(wù)的執(zhí)行頻率和輪詢規(guī)則,用于指定任務(wù)下次執(zhí)行的最小間隔時(shí)間,和可以使用的服務(wù)器; (6)任務(wù)的數(shù)據(jù)清洗規(guī)則,用于對采集的數(shù)據(jù)進(jìn)行再次校驗(yàn)整理,并對數(shù)據(jù)進(jìn)行比較去重; (7)任務(wù)的存儲(chǔ)規(guī)則; 價(jià)格采集任務(wù)的執(zhí)行包括: (1)抓取指定網(wǎng)站價(jià)格數(shù)據(jù)網(wǎng)頁 任務(wù)模擬訪問某一個(gè)價(jià)格網(wǎng)站進(jìn)行價(jià)格數(shù)據(jù)網(wǎng)頁抓取工作; (2)依據(jù)抓取規(guī)則抓取數(shù)據(jù) (3)依據(jù)清洗規(guī)則清洗數(shù)據(jù) (4)依據(jù)存儲(chǔ)規(guī)則保存數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,其特征在于通過設(shè)置首頁、上頁、下頁、末頁和顯示頁序號的分頁方式或指定下一頁按鈕或指定頁序號輸入框和跳轉(zhuǎn)執(zhí)行按鈕的方式設(shè)置分頁。
3.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,其特征在于數(shù)據(jù)清洗的規(guī)則包括數(shù)據(jù)一致性檢查、無效值和缺失值處理及去重規(guī)則。
4.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價(jià)格信息庫的構(gòu)建方法,其特征在于抓取指定網(wǎng)站價(jià)格數(shù)據(jù)網(wǎng)頁的具體步驟為: 訪問價(jià)格網(wǎng)站,輸入訪問憑據(jù);然后,判斷是否需要輸入驗(yàn)證碼; 如果不需要驗(yàn)證碼,則進(jìn)入網(wǎng)頁抓取操作;如果需要驗(yàn)證碼,根據(jù)設(shè)置的驗(yàn)證規(guī)則獲取驗(yàn)證碼,并進(jìn)行識別判斷或人工識別; 驗(yàn)證碼輸入完成后,進(jìn)入網(wǎng)頁抓取操作; 當(dāng)前網(wǎng)頁抓取完成后,讀取分頁方式,判斷是否有下一頁,如果有下一頁,則根據(jù)設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作,然后執(zhí)行抓取網(wǎng)頁操作,直到?jīng)]有下一頁。
【文檔編號】G06Q50/08GK104484424SQ201410791468
【公開日】2015年4月1日 申請日期:2014年12月19日 優(yōu)先權(quán)日:2014年12月19日
【發(fā)明者】薛軍利, 劉本熙, 李洪營, 李偉龍, 聶明, 李煥偉, 李偉 申請人:浪潮通用軟件有限公司