專利名稱:一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁下載技術(shù)領(lǐng)域,更具體地說,涉及一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)及方法。
背景技術(shù):
目前用戶在瀏覽網(wǎng)頁時,主要通過網(wǎng)頁瀏覽器,例如美國微軟公司的因特網(wǎng)瀏覽器(Internet Explorer)。在瀏覽網(wǎng)頁時,網(wǎng)頁瀏覽器與萬維網(wǎng)(WWW)服務(wù)器的數(shù)據(jù)交互采用超文本傳輸協(xié)議(HTTP)。WWW服務(wù)器向網(wǎng)絡(luò)終端發(fā)送的網(wǎng)頁數(shù)據(jù)包括超文本標(biāo)記語言(HTML)等格式的文本文件以及相關(guān)媒體資源。終端網(wǎng)頁瀏覽器在獲取上述文件和資源后,進(jìn)一步解析這些文件,并將其繪制到網(wǎng)頁瀏覽器的窗口中,以供友好交互。
在用戶瀏覽網(wǎng)頁時,往往需要將某些網(wǎng)頁中的鏈接對象保存到本地存儲設(shè)備,供以后瀏覽或使用。但現(xiàn)有的網(wǎng)頁瀏覽器每次只能保存一個鏈接對象,因此當(dāng)用戶試圖保存頁面中的多個鏈接對象時,需要對每個鏈接逐一操作。
目前某些軟件,例如著名的離線瀏覽器(Offline Explorer),可以將網(wǎng)頁及其所包含的多層鏈接全部抓取下載。這類軟件在下載頁面的同時,對其HTML等網(wǎng)頁文件內(nèi)容解析,從而獲得頁面鏈接的統(tǒng)一資源定位(URL)并下載。如果鏈接指向的又是HTML等格式的網(wǎng)頁,那么軟件可以按照用戶要求的層數(shù),繼續(xù)嵌套迭代解析、下載,直到達(dá)到用戶要求的層數(shù)深度。此類離線下載軟件主要目的是完成網(wǎng)站內(nèi)容的完整抓取和復(fù)制,從而便于用戶在離線狀態(tài)下直接瀏覽。雖然它也可用作下載網(wǎng)頁上的批量鏈接,但是其只能下載全部鏈接,而不能針對性的下載需要的網(wǎng)頁內(nèi)容,必然造成不必要的網(wǎng)絡(luò)帶寬消耗和硬盤存儲開銷。
此外,現(xiàn)有的某些下載類軟件,例如FlashGet、迅雷等,通過在網(wǎng)頁瀏覽器中使用彈出式菜單,提供“下載全部鏈接”的功能,從而列出當(dāng)前網(wǎng)頁中包括的所有鏈接及其對應(yīng)文本提示,用戶可選擇其中需要下載的連接,從而下載對應(yīng)內(nèi)容,實(shí)現(xiàn)批量下載。
上述下載軟件在一定程度上實(shí)現(xiàn)了用戶的批量定制下載,但這種方法存在局限性。將網(wǎng)頁包含的所有的鏈接展現(xiàn)在新開啟的對話框中,往往使用戶定制下載內(nèi)容不夠直觀。尤其在以下兩種情況下,定制下載內(nèi)容的操作比較繁瑣(1)當(dāng)網(wǎng)頁中包含的鏈接數(shù)目很多時,彈出式對話框中顯示的條目繁多。用戶不僅需要遍歷搜索每個鏈接,而且逐個選擇鏈接時容易混淆、遺漏或者多選。
(2)當(dāng)存在相同的文本而其代表的鏈接對象不同時(例如網(wǎng)頁中包括多處“點(diǎn)擊此處下載”字樣,但對應(yīng)的實(shí)際鏈接對象不同),用戶將受到干擾,難以定制下載條目。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對上述的瀏覽網(wǎng)頁時網(wǎng)頁內(nèi)容存儲操作繁瑣的問題,提供一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)及方法。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提供一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),包括選取單元,用于在網(wǎng)頁中選取待保存的多個鏈接;解析單元,用于解析所述網(wǎng)頁的腳本,并獲取所述選取的鏈接對應(yīng)的統(tǒng)一資源定位;下載引擎,用于根據(jù)選定的統(tǒng)一資源定位下載鏈接對象。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)中,所述解析單元進(jìn)一步包括定位子單元,所述選取單元進(jìn)一步包括初選子單元、預(yù)覽子單元和調(diào)整子單元,其中所述初選子單元,用于從瀏覽器顯示的網(wǎng)頁中通過鼠標(biāo)拖動方式選取一個或多個鏈接;所述定位子單元,用于解析所述網(wǎng)頁的腳本,并獲取所述初選子單元選取的鏈接對象對應(yīng)的統(tǒng)一資源定位;所述預(yù)覽子單元,用于顯示所述定位子單元獲得的統(tǒng)一資源定位;所述調(diào)整子單元,用于調(diào)整并確認(rèn)預(yù)覽子單元中顯示的統(tǒng)一資源定位,并將確認(rèn)后的統(tǒng)一資源定位傳送到下載引擎下載鏈接對象。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)中,所述解析單元進(jìn)一步包括校驗(yàn)子單元,用于刪除解析單元獲取的統(tǒng)一資源定位中的重復(fù)項。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)中,還包括保存單元,用于將下載引擎下載的鏈接對象保存到指定位置。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)中,所述解析單元獲取的統(tǒng)一資源定位是腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容。
本發(fā)明還提供一種保存網(wǎng)頁中多個鏈接對象的方法,包括以下步驟(a)在網(wǎng)頁中選取待保存的多個鏈接,并解析所述網(wǎng)頁的腳本,獲取所述選定的鏈接對應(yīng)的統(tǒng)一資源定位;(b)根據(jù)所述選定的統(tǒng)一資源定位下載鏈接對象。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的方法中,所述步驟(a)進(jìn)一步包括(a1)從瀏覽器顯示的網(wǎng)頁中以鼠標(biāo)拖動方式選取一個或多個鏈接;(a2)解析所述網(wǎng)頁獲得選取鏈接對應(yīng)的腳本片段,并從所述腳本片段中獲取統(tǒng)一資源定位。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的方法中,所述步驟(a)進(jìn)一步包括(a3)顯示步驟(a2)獲得的統(tǒng)一資源定位;(a4)調(diào)整并確認(rèn)步驟(a3)顯示的統(tǒng)一資源定位;(a5)將步驟(a4)中確認(rèn)的統(tǒng)一資源定位傳送到下載引擎。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的方法中,所述步驟(a2)中所述獲取的統(tǒng)一資源定位是腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容。
在本發(fā)明所述的一種保存網(wǎng)頁中多個鏈接對象的方法中,所述步驟(a)中進(jìn)一步包括刪除重復(fù)的統(tǒng)一資源定位。
本發(fā)明一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)及方法,通過解析網(wǎng)頁腳本獲取在網(wǎng)頁中選取的多個鏈接對象的對應(yīng)的統(tǒng)一資源定位,并根據(jù)統(tǒng)一資源定位下載相關(guān)內(nèi)容,實(shí)現(xiàn)了直觀的多個鏈接對象下載,簡化了多鏈接對象的下載操作。
下面將結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步說明,附圖中圖1是本發(fā)明一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖;圖2是圖1中選取單元和解析單元的一個實(shí)施例的結(jié)構(gòu)示意圖;圖3是本發(fā)明一種保存網(wǎng)頁中多個鏈接對象的方法實(shí)施例的流程圖;圖4是圖3中選取鏈接對象并獲取統(tǒng)一資源定位步驟一個實(shí)施例的詳細(xì)流程圖。
具體實(shí)施例方式
本實(shí)施例中的鏈接是指網(wǎng)頁中指向特定文件的文字或圖片等;而鏈接對象則是指上述鏈接所指向的文件,例如網(wǎng)頁、圖片或多媒體文件等。在鏈接被點(diǎn)擊時,網(wǎng)頁瀏覽器下載鏈接所指向的鏈接對象,并播放或顯示鏈接對象。
如圖1所示,是本發(fā)明一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖。該系統(tǒng)包括選取單元11、解析單元12以及下載引擎13。該系統(tǒng)可以捆綁到網(wǎng)頁瀏覽器并使用網(wǎng)頁瀏覽器提供的部分功能,例如下載引擎;該系統(tǒng)也可以是獨(dú)立的工具。
選取單元11用于在網(wǎng)頁中選取待保存的多個鏈接。該選取單元11可使用現(xiàn)有網(wǎng)頁瀏覽器中的方式實(shí)現(xiàn)選取多個鏈接的操作。例如通過鼠標(biāo)在網(wǎng)頁瀏覽器中顯示的網(wǎng)頁上左鍵點(diǎn)擊拖動,選中目標(biāo)鏈接所對應(yīng)的文本、圖像等區(qū)域。此外,還可通過相關(guān)快捷鍵,例如Alt鍵等,配合鼠標(biāo)選取,從而實(shí)現(xiàn)選取區(qū)域的累加或者去除,定制下載對象。
解析單元12用于解析所述網(wǎng)頁的腳本,并獲取所述選取的鏈接對應(yīng)的統(tǒng)一資源定位(URL)。
目前大多數(shù)的網(wǎng)頁文件采取HTML編碼格式,它使用戶可以通過統(tǒng)一的入口(網(wǎng)頁瀏覽器)訪問各種不同格式的計算機(jī)文檔,消除了不同計算機(jī)系統(tǒng)之間的信息交流問題。HTML通過在文本文件中加入一系列的標(biāo)簽(tag)實(shí)現(xiàn)瀏覽器的網(wǎng)頁顯示。標(biāo)簽是HTML語法的基本元素,由“<”和“>”成對組成,兩者之間是標(biāo)簽的內(nèi)容。例如<a href=”http://www.sina.com.cn”>新浪網(wǎng)</a>,表示在網(wǎng)頁上用鼠標(biāo)左鍵點(diǎn)擊“新浪網(wǎng)”時,網(wǎng)頁瀏覽器會自動打開http://www.sina.com.cn/指向的網(wǎng)頁。此外,可擴(kuò)展超文本標(biāo)記語言(XHTML)也被用于進(jìn)行網(wǎng)頁編碼,其格式與HTML編碼格式類似。
在本實(shí)施例中,解析單元12在獲取選取的鏈接對應(yīng)的腳本片段后,將腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容作為統(tǒng)一資源定位。
下載引擎13用于根據(jù)解析單元12獲取的統(tǒng)一資源定位下載鏈接對象。該下載引擎的實(shí)現(xiàn)類似現(xiàn)有網(wǎng)頁瀏覽器或其它網(wǎng)頁下載軟件。
如圖2所示,為圖1中選取單元11和解析單元12的一個實(shí)施例的結(jié)構(gòu)示意圖。在本實(shí)施例中,解析單元12進(jìn)一步包括定位子單元121,選取單元11進(jìn)一步包括初選子單元111、預(yù)覽子單元112和調(diào)整子單元113,其中初選子單元111用于從瀏覽器顯示的網(wǎng)頁中選取一個或多個鏈接。初選子單元111可使用現(xiàn)有網(wǎng)頁瀏覽器中的方式實(shí)現(xiàn)選取多個鏈接的操作。例如通過鼠標(biāo)在網(wǎng)頁瀏覽器中顯示的網(wǎng)頁上左鍵點(diǎn)擊拖動,選中目標(biāo)鏈接所對應(yīng)的文本、圖像等區(qū)域。此外,還可通過相關(guān)快捷鍵,例如Alt鍵等,配合鼠標(biāo)選取,從而實(shí)現(xiàn)選取區(qū)域的累加或者去除,定制下載對象。
定位子單元121用于解析選取的鏈接所在網(wǎng)頁的腳本,并獲取初選子單元111選取的鏈接對象對應(yīng)的統(tǒng)一資源定位。定位子單元121將腳本中每一<a>標(biāo)簽中href屬性內(nèi)容作為統(tǒng)一資源定位。
預(yù)覽子單元112用于顯示定位子單元111獲得的統(tǒng)一資源定位。
調(diào)整子單元113用于調(diào)整并確認(rèn)預(yù)覽子單元中顯示的統(tǒng)一資源定位,并將確認(rèn)后的統(tǒng)一資源定位傳送到下載引擎13下載鏈接對象。
此外,解析單元12還可包括一個校驗(yàn)子單元122,用于刪除定位子單元121解析獲得的統(tǒng)一資源定位中的重復(fù)項。
在上述系統(tǒng)中,還可包括保存單元,用于設(shè)置鏈接對象的保存位置,并將下載引擎下載的鏈接對象保存到上述指定位置。
如圖3所示,是本發(fā)明一種保存網(wǎng)頁中多個鏈接對象的方法實(shí)施例的流程圖。該方法包括以下步驟步驟S31在網(wǎng)頁中選取待保存的多個鏈接對象,并解析所述網(wǎng)頁的腳本,獲取所述選取的鏈接對象對應(yīng)的統(tǒng)一資源定位。
在選取鏈接對象時,可使用現(xiàn)有網(wǎng)頁瀏覽器中的選取方式。例如通過鼠標(biāo)在網(wǎng)頁瀏覽器中顯示的網(wǎng)頁上左鍵點(diǎn)擊拖動,選中目標(biāo)鏈接所對應(yīng)的文本、圖像等區(qū)域。
在解析網(wǎng)頁腳本時,首先獲取選取的鏈接對應(yīng)的腳本片段,然后將腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容作為統(tǒng)一資源定位。
步驟S32根據(jù)上述獲取的統(tǒng)一資源定位下載鏈接對象。該下載步驟采用現(xiàn)有網(wǎng)頁瀏覽器或其它網(wǎng)頁下載軟件類似的方式下載。
如圖4所示,是圖3中選取鏈接對象并獲取統(tǒng)一資源定位步驟的其中一種實(shí)施例的詳細(xì)流程圖。該步驟具體包括步驟S41從瀏覽器顯示的網(wǎng)頁中選取一個或多個鏈接。在選取鏈接對象時,可使用現(xiàn)有網(wǎng)頁瀏覽器中的選取方式。
步驟S42解析所述網(wǎng)頁的腳本,并獲取步驟S41中選取的鏈接對象對應(yīng)的統(tǒng)一資源定位。在本實(shí)施例中,首先獲取選取的鏈接對應(yīng)的腳本片段,然后將腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容作為需選定的統(tǒng)一資源定位。
步驟S43顯示獲得的統(tǒng)一資源定位。上述統(tǒng)一資源定位可通過彈出式窗口進(jìn)行顯示。
步驟S44調(diào)整并確認(rèn)步驟S43中顯示的統(tǒng)一資源定位。該調(diào)整可通過在彈出式窗口中的復(fù)選框?qū)崿F(xiàn),即每一統(tǒng)一資源定位對應(yīng)一個復(fù)選框,被選中的復(fù)選框?qū)?yīng)的統(tǒng)一資源定位即為被確認(rèn)的統(tǒng)一資源定位。
步驟S45將確認(rèn)后的統(tǒng)一資源定位傳送到下載引擎下載鏈接對象。
在上述方法中,還可包括刪除重復(fù)的統(tǒng)一資源定位的步驟,從而保證每一統(tǒng)一資源定位僅下載一次,避免重復(fù)下載。
此外,還可包括一個保存下載的鏈接對象的步驟。在具體實(shí)現(xiàn)時,可將所有下載的鏈接對象存放于指定的文件夾中,并在出現(xiàn)文件同名時按次序?yàn)橥募詣用?;也可按照統(tǒng)一資源定位自動生成子目錄,并按子目錄保存文件。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),其特征在于,包括選取單元,用于在網(wǎng)頁中選取待保存的多個鏈接;解析單元,用于解析所述網(wǎng)頁的腳本,并獲取所述選取的鏈接對應(yīng)的統(tǒng)一資源定位;下載引擎,用于根據(jù)選定的統(tǒng)一資源定位下載鏈接對象。
2.根據(jù)權(quán)利要求1所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),其特征在于,所述解析單元進(jìn)一步包括定位子單元,所述選取單元進(jìn)一步包括初選子單元、預(yù)覽子單元和調(diào)整子單元,其中所述初選子單元,用于從瀏覽器顯示的網(wǎng)頁中通過鼠標(biāo)拖動方式選取一個或多個鏈接;所述定位子單元,用于解析所述網(wǎng)頁的腳本,并獲取所述初選子單元選取的鏈接對象對應(yīng)的統(tǒng)一資源定位;所述預(yù)覽子單元,用于顯示所述定位子單元獲得的統(tǒng)一資源定位;所述調(diào)整子單元,用于調(diào)整并確認(rèn)預(yù)覽子單元中顯示的統(tǒng)一資源定位,并將確認(rèn)后的統(tǒng)一資源定位傳送到下載引擎下載鏈接對象。
3.根據(jù)權(quán)利要求1或2所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),其特征在于,所述解析單元進(jìn)一步包括校驗(yàn)子單元,用于刪除解析單元獲取的統(tǒng)一資源定位中的重復(fù)項。
4.根據(jù)權(quán)利要求1或2所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),其特征在于,還包括保存單元,用于將下載引擎下載的鏈接對象保存到指定位置。
5.根據(jù)權(quán)利要求1所述的一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),其特征在于,所述解析單元獲取的統(tǒng)一資源定位是腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容。
6.一種保存網(wǎng)頁中多個鏈接對象的方法,其特征在于,包括以下步驟(a)在網(wǎng)頁中選取待保存的多個鏈接,并解析所述網(wǎng)頁的腳本,獲取所述選定的鏈接對應(yīng)的統(tǒng)一資源定位;(b)根據(jù)所述選定的統(tǒng)一資源定位下載鏈接對象。
7.根據(jù)權(quán)利要求6所述的一種保存網(wǎng)頁中多個鏈接對象的方法,其特征在于,所述步驟(a)進(jìn)一步包括(a1)從瀏覽器顯示的網(wǎng)頁中以鼠標(biāo)拖動方式選取一個或多個鏈接;(a2)解析所述網(wǎng)頁獲得選取鏈接對應(yīng)的腳本片段,并從所述腳本片段中獲取統(tǒng)一資源定位。
8.根據(jù)權(quán)利要求7所述的一種保存網(wǎng)頁中多個鏈接對象的方法,其特征在于,所述步驟(a)進(jìn)一步包括(a3)顯示步驟(a2)獲得的統(tǒng)一資源定位;(a4)調(diào)整并確認(rèn)步驟(a3)顯示的統(tǒng)一資源定位;(a5)將步驟(a4)中確認(rèn)的統(tǒng)一資源定位傳送到下載引擎。
9.根據(jù)權(quán)利要求7所述的一種保存網(wǎng)頁中多個鏈接對象的方法,其特征在于,所述步驟(a2)中所述獲取的統(tǒng)一資源定位是腳本片段中每一<a>標(biāo)簽中href屬性內(nèi)容。
10.根據(jù)權(quán)利要求6所述的一種保存網(wǎng)頁中多個鏈接對象的方法,其特征在于,所述步驟(a)中進(jìn)一步包括刪除重復(fù)的統(tǒng)一資源定位。
全文摘要
本發(fā)明公開了一種保存網(wǎng)頁中多個鏈接對象的系統(tǒng),包括選取單元,用于在網(wǎng)頁中選取待保存的多個鏈接;解析單元,用于解析所述網(wǎng)頁的腳本,并獲取所述選取的鏈接對應(yīng)的統(tǒng)一資源定位;下載引擎,用于根據(jù)選定的統(tǒng)一資源定位下載鏈接對象。本發(fā)明還提供一種對應(yīng)的方法。本發(fā)明通過解析網(wǎng)頁腳本獲取在網(wǎng)頁中選取的多個鏈接對象的對應(yīng)的統(tǒng)一資源定位,并根據(jù)統(tǒng)一資源定位下載相關(guān)內(nèi)容,實(shí)現(xiàn)了直觀的多個鏈接對象下載,簡化了多鏈接對象的下載操作。
文檔編號G06F17/30GK101079057SQ20071007351
公開日2007年11月28日 申請日期2007年3月14日 優(yōu)先權(quán)日2007年3月14日
發(fā)明者胡鵬 申請人:騰訊科技(深圳)有限公司