国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種提取頁面信息的方法及裝置的制造方法_2

      文檔序號:9826310閱讀:來源:國知局
      濾特征字符串和預(yù)設(shè)的標(biāo)簽匹配模式來提取目標(biāo)信息,過濾掉了不適合在小屏幕的移動終端上顯示的頁面信息,避免了通過DOM樹提取待處理網(wǎng)頁的所有內(nèi)容,提高了提取頁面信息的效率,且適用于不同類型移動終端提取及顯示頁面信息。
      [0070]為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細(xì)說明如下。
      【附圖說明】
      [0071]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
      [0072]圖1示出了本發(fā)明實施例1所提供的一種提取頁面信息的方法流程圖;
      [0073]圖2A示出了本發(fā)明實施例2所提供的一種提取頁面信息的方法流程圖;
      [0074]圖2B示出了本發(fā)明實施例2提供的一種待處理網(wǎng)頁的示意圖;
      [0075]圖2C示出了本發(fā)明實施例2所提供的移動終端顯示的提取的頁面信息的示意圖;
      [0076]圖3A示出了本發(fā)明實施例3所提供的一種提取頁面信息的裝置結(jié)構(gòu)示意圖;
      [0077]圖3B示出了本發(fā)明實施例3所提供的另一種提取頁面信息的裝置結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0078]下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細(xì)描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
      [0079]考慮到相關(guān)技術(shù)中基于DOM樹結(jié)構(gòu)的提取頁面信息的方法,需要對網(wǎng)頁的所有內(nèi)容進(jìn)行分析,導(dǎo)致提取頁面信息的效率很低。基于此,本發(fā)明實施例提供了一種提取頁面信息的方法及裝置。下面通過實施例進(jìn)行描述。
      [0080]實施例1
      [0081]參見圖1,本發(fā)明實施例提供了一種提取頁面信息的方法。在本發(fā)明實施例中根據(jù)預(yù)設(shè)的過濾特征字符串和預(yù)設(shè)的標(biāo)簽匹配模式從待處理網(wǎng)頁的源代碼中提取目標(biāo)信息。該方法具體包括以下步驟:
      [0082]步驟101:獲取網(wǎng)頁中待處理的源代碼;
      [0083]目前移動終端上都設(shè)置有瀏覽器,用戶經(jīng)常通過移動終端上的瀏覽器來瀏覽網(wǎng)頁。上述網(wǎng)頁可以是通過移動終端上的瀏覽請求打開或下載的網(wǎng)頁。
      [0084]在本步驟中可以通過如下方式來獲取網(wǎng)頁中待處理的源代碼,具體包括:接收用戶的網(wǎng)頁獲取請求,將網(wǎng)頁獲取請求發(fā)送至相應(yīng)的網(wǎng)站服務(wù)器;接收網(wǎng)站服務(wù)器以流式傳輸方式發(fā)送的網(wǎng)頁的源代碼,將當(dāng)前接收到的流式傳輸?shù)脑创a作為網(wǎng)頁中待處理的源代碼。
      [0085]上述流式傳輸方式為網(wǎng)站服務(wù)器實時地、連續(xù)地將網(wǎng)頁的源代碼發(fā)送給移動終端,移動終端可以邊接收網(wǎng)頁的源代碼邊對已接收到的部分進(jìn)行處理,不需要等到接收到網(wǎng)頁的全部的源代碼。通過這種流式傳輸方式來獲取網(wǎng)頁的源代碼,實現(xiàn)了邊獲取源代碼邊從已獲取的部分源代碼中提取頁面信息,提高了獲取頁面信息的效率。
      [0086]另外,考慮到網(wǎng)頁的源代碼內(nèi)容通常比較多,本發(fā)明還可以根據(jù)具體的需求,將網(wǎng)頁的源代碼劃分為多個代碼段,或者從源代碼中提取出所需的一段代碼進(jìn)行處理,以減少單次處理的源代碼數(shù)據(jù)量。
      [0087]將源代碼劃分為多個代碼段,可以根據(jù)預(yù)設(shè)的分段特征字符串,從網(wǎng)頁源代碼的起始處開始,順序查找與分段特征字符串相匹配的字符串,在相匹配的字符串處進(jìn)行劃分,將網(wǎng)頁的源代碼劃分為多個代碼段。從源代碼中提取出所需的一段代碼,可以根據(jù)預(yù)設(shè)的起始字符串和結(jié)束字符串,從網(wǎng)頁的源代碼中劃分出所需的代碼段。
      [0088]步驟102:根據(jù)預(yù)設(shè)的過濾特征字符串和預(yù)設(shè)的標(biāo)簽匹配模式,從源代碼中提取目標(biāo)信息;
      [0089]上述從源代碼中提取目標(biāo)信息的具體提取過程為:對源代碼進(jìn)行詞法分析,得到源代碼的每個標(biāo)簽信息;從得到的所有標(biāo)簽信息中,刪除與預(yù)設(shè)的過濾特征字符串相匹配的標(biāo)簽信息;再從未刪除的標(biāo)簽信息中,提取符合預(yù)設(shè)的標(biāo)簽匹配模式的標(biāo)簽信息作為目標(biāo)?目息O
      [0090]對源代碼進(jìn)行詞法分析時,可以從源代碼的起始處開始,順序遍歷源代碼包含的每個字符,通過詞法分析將遍歷的字符轉(zhuǎn)換為源代碼包含的標(biāo)簽信息。
      [0091]本發(fā)明中的標(biāo)簽信息是指能夠在頁面上構(gòu)成一項完整信息的源代碼字符串,以HTML (HyperText Markup Language,超文本標(biāo)記語言)語言為例,字符串〈a 〉視頻</a>構(gòu)成一項超鏈接信息,而字符串<img src = 〃/i/eg_tu.jpg〃alt = 〃flower〃/>構(gòu)成一項圖片信息,上述源代碼均是一個標(biāo)簽信息。而由多個標(biāo)簽嵌套構(gòu)成的更為復(fù)雜的一項信息,如導(dǎo)航欄等,其所對應(yīng)的源代碼字符串也作為一個標(biāo)簽信息。
      [0092]對于閉合類型的標(biāo)簽,標(biāo)簽信息包括相互對應(yīng)的開標(biāo)簽字符串、閉標(biāo)簽字符串及開標(biāo)簽字符串和閉標(biāo)簽字符串之間的全部字符串;對于自閉合類型的標(biāo)簽,其沒有形成開標(biāo)簽和閉標(biāo)簽的組合方式,即其標(biāo)簽信息包括標(biāo)簽中的全部字符串。
      [0093]例如,超鏈接標(biāo)簽<a>,其為閉合類型的標(biāo)簽,其標(biāo)簽信息為開標(biāo)簽字符串<a…〉、閉標(biāo)簽字符串</a>,以及字符串<a…〉與字符串</a>之間的所有字符串。如超鏈接標(biāo)簽<a href = 〃http://tv.UC.com〃> 視頻〈/a>,其標(biāo)簽信息包括字符串〈a href = 〃http://tv.UC.com"〉、字符串</a>以及“視頻”。
      [0094]再如,圖片標(biāo)簽<img>,其為自閉合類型標(biāo)簽,其標(biāo)簽信息為標(biāo)簽中的全部字符串。如圖片標(biāo)簽〈img src = 〃/i/eg_tu.jpg〃alt = 〃flower"/〉,其標(biāo)簽信息即包括字符串〈imgsrc = 〃/i/eg_tu.jpg"alt = "flower"/〉中的所有字符。
      [0095]對于源代碼中的每個標(biāo)簽信息,可以通過如下操作來刪除與預(yù)設(shè)的過濾特征字符串相匹配的標(biāo)簽信息,具體包括:
      [0096]讀取標(biāo)簽信息的開標(biāo)簽字符串;本發(fā)明實施例中,對于閉合類型的標(biāo)簽,則讀取其開標(biāo)簽字符串;對于自閉合類型的標(biāo)簽,則讀取其標(biāo)簽中的所有字符串作為其開標(biāo)簽字符串O
      [0097]判斷開標(biāo)簽字符串中是否包含預(yù)設(shè)的過濾特征字符串;在判斷出開標(biāo)簽字符串中包含預(yù)設(shè)的過濾特征字符串時,確定該標(biāo)簽信息為與預(yù)設(shè)的過濾特征字符串相匹配的標(biāo)簽信息,則該標(biāo)簽信息為需要過濾的標(biāo)簽信息,從源代碼中刪除該標(biāo)簽信息。
      [0098]而在判斷出該標(biāo)簽信息不是與預(yù)設(shè)的過濾特征字符串相匹配的標(biāo)簽信息時,則進(jìn)一步判斷該標(biāo)簽信息是否符合預(yù)設(shè)的標(biāo)簽匹配模式,如果符合,則將該標(biāo)簽信息確定為目標(biāo)?目息O
      [0099]在本發(fā)明實施例中,技術(shù)人員可以根據(jù)標(biāo)簽類型來設(shè)置預(yù)設(shè)的標(biāo)簽匹配模式,標(biāo)簽類型可以為超鏈接、文本、圖片和視頻等類型。預(yù)設(shè)的標(biāo)簽匹配模式可以為單個標(biāo)簽類型構(gòu)成的單一匹配模式,也可以為多種標(biāo)簽類型組合構(gòu)成的組成匹配模式。
      [0100]上述預(yù)設(shè)的標(biāo)簽匹配模式為單一匹配模式時,從未刪除的標(biāo)簽信息中,根據(jù)該單一匹配模式依次對未刪除的標(biāo)簽信息進(jìn)行模式匹配;提取符合該單一匹配模式的標(biāo)簽信息作為目標(biāo)信息。
      [0101]上述的標(biāo)簽匹配模式為組合匹配模式時,從未刪除的標(biāo)簽信息中,根據(jù)該組合匹配模式依次對未刪除的標(biāo)簽信息進(jìn)行模式匹配;提取順序分布且其組合能夠滿足該組合匹配模式的多個標(biāo)簽信息作為目標(biāo)信息。
      [0102]上述對標(biāo)簽信息進(jìn)行過濾和模式匹配,是以標(biāo)簽信息中的開標(biāo)簽字符串為依據(jù)進(jìn)行的。標(biāo)簽信息的開標(biāo)簽字符串中既包含表示標(biāo)簽類型的字符,也可能包含過濾特征字符串。以如下HTML語言的網(wǎng)頁源代碼為例進(jìn)行說明,在超鏈接標(biāo)簽〈a href = "http://tv.UC.com〃>視頻</a>中,其標(biāo)簽信息的開標(biāo)簽字符串為〈a 〉,通過其開標(biāo)簽字符串可判斷該標(biāo)簽信息的類型為超鏈接標(biāo)簽類型<a>。假定預(yù)設(shè)的過濾特征字符串為“tv”,該標(biāo)簽信息的開標(biāo)簽字符串中包含該過濾特征字符串“tv”,則確定該標(biāo)簽信息為需要過濾的標(biāo)簽信息,需從源代碼中刪除。
      [0103]過濾特征字符串可以根據(jù)具體需要進(jìn)行自定義設(shè)置,通過設(shè)置過濾特征字符串和預(yù)設(shè)的標(biāo)簽匹配模式,可以過濾標(biāo)簽信息并進(jìn)一步提取出目標(biāo)信息。
      [0104]為了便于理解本發(fā)明實施例提供的提取目標(biāo)信息的方法,下面舉例進(jìn)行說明。假定預(yù)設(shè)的過濾特征字符串為“tv”,預(yù)設(shè)的標(biāo)簽匹配模式為組合匹配模式(text a),其表示提取一個文本標(biāo)簽信息和一個超鏈接標(biāo)簽信息。以如下源代碼為例,該源代碼中的一段包括如下標(biāo)簽信息1-3,對該源代碼進(jìn)行過濾及模式匹配的方式如下:
      [0105]標(biāo)簽信息I:<a href = "http:"tv.UC.com"〉視頻 </a>
      [0106]標(biāo)簽信息2:
      直播足球賽〈/P〉
      [0107]標(biāo)簽信息3:<a href = 〃http://bbs.UC.com"〉論壇 </a>
      [0108]對于標(biāo)簽信息1,由于其開標(biāo)簽字符串〈a href = "http://tv.UC.com〃>中包含預(yù)設(shè)的過濾特征字符串“tv”,則確定該標(biāo)簽信息I為需要過濾的標(biāo)簽信息,需從源代碼中刪除標(biāo)簽信息I。
      [0109]對于標(biāo)簽信息2和3,由于標(biāo)簽信息2的開標(biāo)簽字符串〈P〉中不包含預(yù)設(shè)的過濾特征字符串“tv”,標(biāo)簽信息3的開標(biāo)簽字符串〈a href = 〃http://bbs.UC.com〃>中也不包含預(yù)設(shè)的過濾特征字符串“tv”。則標(biāo)簽信息2和3都不是需要過濾的標(biāo)簽信息,無需刪除。然后進(jìn)一步判斷標(biāo)簽信息2是否符合預(yù)設(shè)的標(biāo)簽匹配模式(text a),由于標(biāo)簽信息2為text類型標(biāo)簽,符合標(biāo)簽匹配模式(text a)的第一項,則繼續(xù)匹配下一個標(biāo)簽信息3。由于標(biāo)簽信息3為超鏈接標(biāo)簽信息<a>,符合預(yù)設(shè)的標(biāo)簽匹配模式(text a)的第二項,則標(biāo)簽信息2和3的組合能夠符合預(yù)設(shè)的標(biāo)簽匹配模式(text a),則將標(biāo)簽信息2和3確定為需要提取的目標(biāo)信息。
      [0110]本發(fā)明對源代碼進(jìn)行過濾和模式匹配時,以單個的標(biāo)簽作為判斷的基本元素,即以token為單位進(jìn)行判斷。以HTML語言為例,token的格式如下〈*… >,如超鏈接標(biāo)簽〈ahref = 〃http
      當(dāng)前第2頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1