一種網頁信息提取方法及其設備的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網技術領域,尤其涉及一種網頁信息提取方法及其設備。
【背景技術】
[0002]隨著互聯(lián)網技術的發(fā)展,現(xiàn)如今互聯(lián)網中所包含的網頁信息越來越多,許多開發(fā)的項目均需要通過外站網頁對部分網頁信息進行提取,現(xiàn)有的網頁信息提取方式是通過正則表達式對獲取的超級文本標記語言(Hyper Text Markup Language,HTML)內容進行分析獲取,由于正則表達式的結構復雜,因而增加了定義網頁信息提取的規(guī)則的復雜度,增加了開發(fā)成本。
【發(fā)明內容】
[0003]本發(fā)明實施例提供一種網頁信息提取方法及其設備,可以降低定義網頁信息提取的規(guī)則的復雜度,降低開發(fā)成本。
[0004]本發(fā)明實施例第一方面提供了一種網頁信息提取方法,可包括:
[0005]獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息;
[0006]根據所述特征描述信息生成與所述網頁信息相關聯(lián)的信息提取表達式,所述信息提取表達式為JQuery表達式;
[0007]采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息。
[0008]本發(fā)明實施例第二方面提供了一種網頁信息提取設備,可包括:
[0009]信息獲取單元,用于獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息;
[0010]表達式生成單元,用于根據所述特征描述信息生成與所述網頁信息相關聯(lián)的信息提取表達式,所述信息提取表達式為JQuery表達式;
[0011]信息提取單元,用于采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息。
[0012]在本發(fā)明實施例中,通過獲取所輸入的網頁地址對應的網頁源文件,在網頁源文件中獲取待提取的網頁信息對應的特征描述信息,再根據特征描述信息生成與網頁信息相關聯(lián)的JQuery的信息提取表達式,最終采用嵌入式瀏覽器加載網頁地址對應的網頁源文件,并調用信息提取表達式在網頁源文件加載完成后提取網頁信息。通過采用嵌入式瀏覽器執(zhí)行JQuery的信息提取表達式以實現(xiàn)網頁信息提取的過程,替代了采用正則表達式進行提取的過程,簡化了表達式的結構,進而降低了定義網頁信息提取的規(guī)則的復雜度,并降低了開發(fā)成本。
【附圖說明】
[0013]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0014]圖1是本發(fā)明實施例提供的一種網頁信息提取方法的流程示意圖;
[0015]圖2是本發(fā)明實施例提供的另一種網頁信息提取方法的流程示意圖;
[0016]圖3是本發(fā)明實施例提供的一種網頁信息提取設備的結構示意圖;
[0017]圖4是本發(fā)明實施例提供的信息獲取單元的結構示意圖;
[0018]圖5是本發(fā)明實施例提供的另一種網頁信息提取設備的結構示意圖。
【具體實施方式】
[0019]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0020]本發(fā)明實施例提供的網頁信息提取方法可以應用于互聯(lián)網的網頁中網頁信息提取的場景,例如:網頁信息提取設備獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息,所述網頁信息提取設備根據所述特征描述信息生成與所述網頁信息相關聯(lián)的信息提取表達式,所述信息提取表達式為JQuery表達式,所述網頁信息提取設備采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息的場景等。通過采用嵌入式瀏覽器執(zhí)行JQuery的信息提取表達式以實現(xiàn)網頁信息提取的過程,替代了采用正則表達式進行提取的過程,簡化了表達式的結構,進而降低了定義網頁信息提取的規(guī)則的復雜度,并降低了開發(fā)成本。
[0021]本發(fā)明實施例涉及的網頁信息提取設備可以包括但不限于移動電話、移動電腦、平板電腦、個人數(shù)字助理(Personal Digital Assistant,PDA)、智能手表等具備網頁訪問功能在內的用戶設備;所述網頁地址優(yōu)選為網頁的統(tǒng)一資源定位符(Uniform ResourceLocat1n,URL),所述網頁源文件優(yōu)選為HTML文件。
[0022]下面將結合附圖1和附圖2,對本發(fā)明實施例提供的網頁信息提取方法進行詳細介紹。
[0023]請參見圖1,為本發(fā)明實施例提供了一種網頁信息提取方法的流程示意圖。如圖1所示,本發(fā)明實施例的所述方法可以包括以下步驟S101-步驟S103。
[0024]S101,獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息;
[0025]具體的,網頁信息提取設備可以獲取所輸入的網頁地址對應的網頁源文件,優(yōu)選的,所述網頁信息提取設備可以采用系統(tǒng)瀏覽器獲取所輸入的網頁地址以加載所述網頁地址對應的網頁源文件,并獲取所述網頁源文件,所述系統(tǒng)瀏覽器可以為所述網頁信息提取設備默認的網頁瀏覽器。所述網頁信息提取設備可以在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息,所述網頁信息可以為需要在網頁中提取的具體內容,所述特征描述信息可以為在所述網頁源文件用于表述所述網頁信息的描述語言,具體可以為包含有待提取的所述網頁信息對應的屬性、標簽的信息。
[0026]S102,根據所述特征描述信息生成與所述網頁信息相關聯(lián)的信息提取表達式;
[0027]具體的,所述網頁信息提取設備可以根據所述特征描述信息中的屬性、標簽等,生成與所述網頁信息相關聯(lián)的信息提取表達式,所述信息提取表達式優(yōu)選為JQuery表達式,可以理解的是,所述信息提取表達式用于在所述網頁源文件中對網頁信息進行提取的表達式,可以由嵌入式瀏覽器進行識別并調用。
[0028]S103,采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息;
[0029]具體的,所述網頁信息提取設備可以采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,優(yōu)選的,所述嵌入式瀏覽器可以為調用標準部件工具包(Standard WidgetToolkit,SWT)的Browser類所加載的瀏覽器,所述網頁信息提取設備控制所述嵌入式瀏覽器調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息。
[0030]在本發(fā)明實施例中,通過獲取所輸入的網頁地址對應的網頁源文件,在網頁源文件中獲取待提取的網頁信息對應的特征描述信息,再根據特征描述信息生成與網頁信息相關聯(lián)的JQuery的信息提取表達式,最終采用嵌入式瀏覽器加載網頁地址對應的網頁源文件,并調用信息提取表達式在網頁源文件加載完成后提取網頁信息。通過采用嵌入式瀏覽器執(zhí)行JQuery的信息提取表達式以實現(xiàn)網頁信息提取的過程,替代了采用正則表達式進行提取的過程,簡化了表達式的結構,進而降低了定義網頁信息提取的規(guī)則的復雜度,并降低了開發(fā)成本。
[0031]請參見圖2,為本發(fā)明實施例提供了另一種網頁信息提取方法的流程示意圖。如圖2所示,本發(fā)明實施例的所述方法可以包括以下步驟S201-步驟S206。
[0032]S201,采用系統(tǒng)瀏覽器獲取所輸入的網頁地址以加載所述網頁地址