專利名稱::一種針對(duì)Web內(nèi)容的融合發(fā)布方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)服務(wù)
技術(shù)領(lǐng)域:
,具體地說,本發(fā)明涉及一種跨計(jì)算機(jī)網(wǎng)絡(luò)和移動(dòng)通信網(wǎng)絡(luò)的內(nèi)容發(fā)布方法及裝置。
背景技術(shù):
:目前,Web上的凄史據(jù)與傳統(tǒng)的凝:據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而,Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。在跨網(wǎng)絡(luò)環(huán)境中,業(yè)務(wù)系統(tǒng)存在如下問題不同網(wǎng)絡(luò)接入的用戶訪問一些提供半結(jié)構(gòu)化內(nèi)容的服務(wù),存在等待時(shí)間過長(zhǎng)、響應(yīng)時(shí)間慢、下載時(shí)間過長(zhǎng)、連接失敗等問題;不同終端用戶由于自身設(shè)備的局限,存在終端處理能力受限,終端存儲(chǔ)空間受限,終端媒體播放器不兼容等問題。目前,互聯(lián)網(wǎng)上的內(nèi)容商多數(shù)通過Web發(fā)布內(nèi)容。Web就是一種超文本信息系統(tǒng),Web的一個(gè)主要的概念就是超文本連接,它使得文本不再象一本書一樣是固定的線性的。而是可以從一個(gè)位置跳到另外的位置。你可以從中獲取更多的信息??梢赞D(zhuǎn)到別的主題上。想要了解某一個(gè)主題的內(nèi)容只要在這個(gè)主題上點(diǎn)一下,就可以跳轉(zhuǎn)到包含這一主題的文檔上。正是這種多連接性我們才把它稱為Web,其中,Web中應(yīng)用最廣的技術(shù)有XML,HTML,JavaScript,CSS等技術(shù)。XML代表ExtensibleMarkupLanguage(extensibleMarkupLanguage的縮寫,意為可擴(kuò)展的標(biāo)記語言)。XML是一套定義語義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對(duì)這些部件加以標(biāo)識(shí)。它也是元標(biāo)記語言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語義的、結(jié)構(gòu)化的標(biāo)記語言的句法語言。HTML的英文全稱是HyperTextMarkupLanguage,中文叫j故"超文本標(biāo)記語言"。和一般文本的不同的是,一個(gè)HTML文件不僅包含文本內(nèi)容,還包含一些Tag,中文稱"標(biāo)記"。一個(gè)HTML文件的后綴名是.htm或者是.html。JavaScript是一種基于對(duì)象和事件驅(qū)動(dòng)并具有安全性能的腳本語言。使用它的目的是與HTML超文本語言一起實(shí)現(xiàn)在一個(gè)Web頁面中與Web客戶進(jìn)行交互作用。它是通過嵌入或調(diào)入在標(biāo)準(zhǔn)的HTML語言中實(shí)現(xiàn)的。它的出現(xiàn)彌補(bǔ)了HTML語言的缺陷。JavaScript是一種比較簡(jiǎn)單的編程語言,使用方法是JavaScript向頁面的HTML文件增加一個(gè)腳本,不許單獨(dú)編i奪解釋。當(dāng)一個(gè)支持JavaScript瀏覽器打開這個(gè)頁面時(shí),它會(huì)讀出這個(gè)腳本并執(zhí)行其指令。因此JavaScript使用較容易方便,運(yùn)行快,適用于較簡(jiǎn)單的應(yīng)用。CSS是CascadingStyleSheets(層疊樣式表)的簡(jiǎn)稱.CSS語言是一種標(biāo)記語言,它不需要編譯,可以直接由瀏覽器執(zhí)行(屬于瀏覽器解釋型語言).在標(biāo)準(zhǔn)網(wǎng)頁設(shè)計(jì)中CSS負(fù)責(zé)網(wǎng)頁內(nèi)容(XHTML)的表現(xiàn).CSS文件也可以說是一個(gè)文本發(fā)明件,它包含了一些CSS標(biāo)記,CSS文件必須使用ess為文件名后綴.可以通過筒單的更改CSS文件,改變網(wǎng)頁的整體表現(xiàn)形式,可以減少我們的工作量,CSS是由W3C的CSS工作組產(chǎn)生和維護(hù)的.目前Web內(nèi)容除了支持HTML外,還支持觀L,XHTML語法的內(nèi)容,麵L是一種基于XML的標(biāo)記語言,用于指定窄帶設(shè)備(包括移動(dòng)電話和尋呼機(jī))的內(nèi)容和用戶界面。XHTML是TheExtensibleHyperTextMarkupLanguage可擴(kuò)展才示識(shí)i吾言的縮寫。目前4,薦遵循的是W3C于2000年1月26日推薦XMLl.0。XML雖然數(shù)據(jù)轉(zhuǎn)換能力強(qiáng)大,完全可以替代HTML,但面對(duì)成千上萬已有的站點(diǎn),直接釆用XML還為時(shí)過早。因此,我們?cè)贖TML4.0的基礎(chǔ)上,用XML的規(guī)則對(duì)其進(jìn)行擴(kuò)展,得到了XHTML。簡(jiǎn)單的說,建立XHTML的目的就是實(shí)現(xiàn)HTML向XML的過渡。為了給移動(dòng)通信網(wǎng)上的用戶和互聯(lián)網(wǎng)上的用戶同時(shí)提供Web服務(wù),目前存在一些方法來解決移動(dòng)終端訪問互聯(lián)網(wǎng)網(wǎng)頁的問題,主要分為下面三類1)新建同步WAP站點(diǎn)的方法這類方法比較普遍,實(shí)現(xiàn)起來也最為簡(jiǎn)單,只需要按照原有WEB網(wǎng)站的設(shè)計(jì)來單獨(dú)設(shè)計(jì)一個(gè)WAP網(wǎng)站;由于該站是專門為了移動(dòng)設(shè)備所制作,無論從網(wǎng)絡(luò)帶寬消耗和設(shè)備處理能力上都沒有障礙,用戶體驗(yàn)很好;然而由于該站需要重新設(shè)計(jì)、制作,從成本角度和效率角度來看,該方法都存在很大的局限性,不適合大規(guī)才莫應(yīng)用。目前國外的C麗,YAHOO等,以及國內(nèi)的SINA,SOHU,163等幾乎所有的網(wǎng)站的移動(dòng)站點(diǎn)都基于這樣的方法實(shí)現(xiàn)。2)基于RSS訂閱的方法該方法實(shí)現(xiàn)上基于RSS協(xié)議,通過更新訂閱的RSS內(nèi)容來獲取最新的信息;這種方法能夠使用戶有針對(duì)性地訪問特定的,感興趣的網(wǎng)站內(nèi)容,有效地降低了帶寬負(fù)載,提高地用戶體驗(yàn);然后,這種方法只適用于部分有RSS6訂閱功能的網(wǎng)站,同時(shí)要求網(wǎng)站提供的RSS內(nèi)容較簡(jiǎn)單,不能支持復(fù)雜的RSS文件。這種方法其實(shí)不是對(duì)弱結(jié)構(gòu)化內(nèi)容的處理方法,它需要手工地在后臺(tái)把HTML內(nèi)容轉(zhuǎn)化成RSSXML內(nèi)容,效率低下。目前,流行的各種基于J2ME的RSSreader都支持這個(gè)方法。3)基于HTTP-PROXY架構(gòu)的方法a)針對(duì)特定網(wǎng)站的處理該方法的典型應(yīng)用是AvantGo;采用面向頻道訂購的方法,通過對(duì)熱門網(wǎng)站的針對(duì)性的處理,給用戶提供熱門的新聞和信息,使該軟件成為最好的移動(dòng)設(shè)備離線瀏覽互聯(lián)網(wǎng)解決方案之一;這個(gè)方法的存在的問題是,不能全面解決移動(dòng)設(shè)備訪問互聯(lián)網(wǎng)網(wǎng)頁的問題,只能訪問小部分流4亍的網(wǎng)3占。b)HTML轉(zhuǎn)麵L處理該方法是早期應(yīng)用常釆用的一個(gè)方法,典型應(yīng)用有WEST;通過一個(gè)支持WAP協(xié)議的HTTPProxy,把原始的HTML文件轉(zhuǎn)換成麗L才各式,達(dá)到適應(yīng)手機(jī)屏幕和適用WAP瀏覽器的目的。該方法可以使大多數(shù)HTML頁面可以通過WAP瀏覽器訪問,但是,該方法不能很好的識(shí)別HTML上下文,也就是說,不能有針對(duì)性地對(duì)網(wǎng)頁內(nèi)的各部分內(nèi)容作有針對(duì)性地處理。c)Opera-Mini方法Opera-Mini是當(dāng)前國際上比較流行的移動(dòng)設(shè)備訪問互聯(lián)網(wǎng)的軟件,同時(shí)國內(nèi)流行的還有UcWeb,這兩種軟件均采用基于HTTP-PROXY的方法,調(diào)整原始HTML文檔的layout、壓縮文檔內(nèi)嵌對(duì)象,然后通過特殊的文件格式下發(fā)等,達(dá)到在移動(dòng)設(shè)備上無縫訪問互聯(lián)網(wǎng)網(wǎng)頁的目的,然而這種方法需要特殊的客戶端軟件支持來識(shí)別PROXY下發(fā)的特殊文件,相當(dāng)于把頁面固化在返回文件中,不支持通用瀏覽器等。以上各方案都沒有考慮終端所處的不同網(wǎng)絡(luò)環(huán)境,只能根據(jù)終端的種類、型號(hào)、支持的文件類型簡(jiǎn)單地提供不同的、獨(dú)立的服務(wù)。這種方法的不足之處包括不能快速部署業(yè)務(wù);不同保證業(yè)務(wù)同步;不能有效地利用現(xiàn)存的海量Web數(shù)據(jù)資源為用戶提供服務(wù)??偟膩碚f,這些方法都不是真正的內(nèi)容融合方法。
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,根據(jù)不同的終端、不同的網(wǎng)絡(luò)帶寬自適應(yīng)提供不同內(nèi)容,提高內(nèi)容融合系統(tǒng)的智能性,從而提供一種能夠自適應(yīng)Web內(nèi)容的融合發(fā)布方法及裝置。本發(fā)明提出的針對(duì)Web內(nèi)容的融合發(fā)布方法,包括如下步驟1)客戶端向服務(wù)端發(fā)送針對(duì)某一Web內(nèi)容的請(qǐng)求;2)服務(wù)端查找所請(qǐng)求的Web內(nèi)容,將該Web內(nèi)容轉(zhuǎn)換為XML文檔;3)刪除所述Web內(nèi)容中所述客戶端設(shè)備不支持的對(duì)象并根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息對(duì)剩余對(duì)象進(jìn)行壓縮;4)將XML文檔和處理后的對(duì)象組合,得到新的Web內(nèi)容;5)將新的Web內(nèi)容返回給客戶端。上述技術(shù)方案中,所述步驟2)中,還包括對(duì)Web內(nèi)容進(jìn)行信息識(shí)別和信息提取;所述Web內(nèi)容是從HTML文檔轉(zhuǎn)化為XML文檔。上述技術(shù)方案中,所述步驟3)中,刪除不支持的對(duì)象是遍歷原HTML文檔的DOM樹,刪除客戶端設(shè)備所不支持的對(duì)象節(jié)點(diǎn)。上述技術(shù)方案中,所述步驟3)中,對(duì)剩余對(duì)象進(jìn)行壓縮包括根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息,對(duì)原HTML文檔中的多媒體對(duì)象進(jìn)行壓縮。上述技術(shù)方案中,所述步驟3)中,還包括對(duì)原HTML文檔中的URL進(jìn)行格式化,得到格式化URL。上述技術(shù)方案中,所述步驟4)是將壓縮后的多媒體對(duì)象保存到所述格式化URL所指定的位置,得到最終的DOM文檔;然后4艮據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息,將XML文檔和最終的DOM文檔融合成新的Web內(nèi)容。本發(fā)明提出的針對(duì)Web內(nèi)容的融合發(fā)布裝置,包括接收模塊,用于接收客戶端向服務(wù)端發(fā)送的針對(duì)某一Web內(nèi)容的請(qǐng)求;格式轉(zhuǎn)換模塊,用于查找所請(qǐng)求的Web內(nèi)容,并將該Web內(nèi)容轉(zhuǎn)換為XML文檔;剪切壓縮模塊,用于刪除所述Web內(nèi)容中所述客戶端設(shè)備不支持的對(duì)象并根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息對(duì)剩余對(duì)象進(jìn)行壓縮;組合模塊,用于將XML文檔和處理后的對(duì)象組合,得到新的Web內(nèi)容;發(fā)送模塊,用于把新的Web內(nèi)容發(fā)送給客戶端。上述技術(shù)方案中,所述格式轉(zhuǎn)換模塊還用于對(duì)Web內(nèi)容進(jìn)行信息識(shí)別和信息提?。凰龈袷睫D(zhuǎn)換模塊是將Web內(nèi)容是從HTML文檔轉(zhuǎn)化為XML文檔的格式轉(zhuǎn)換模塊。上述技術(shù)方案中,所述剪切壓縮模塊還用于對(duì)原HTML文檔中的URL進(jìn)行格式化,得到格式化URL。上述技術(shù)方案中,所述組合模塊還用于將壓縮后的多媒體對(duì)象保存到所述格式化URL所指定的位置。本發(fā)明具有如下技術(shù)效果1.本發(fā)明具有普適性能夠在不改變?cè)袠I(yè)務(wù)系統(tǒng)的情況下,使Web內(nèi)容同時(shí)應(yīng)用到不同帶寬的網(wǎng)絡(luò)環(huán)境中,例如同時(shí)在互聯(lián)網(wǎng)、移動(dòng)通信網(wǎng)、廣播電視網(wǎng)絡(luò)中提供Web業(yè)務(wù);各種終端都可以享受該Web業(yè)務(wù),例如手機(jī),PDA,^L頂盒等。2.本發(fā)明具有穩(wěn)定性,本發(fā)明采用了松耦合的系統(tǒng)結(jié)構(gòu),可以提高發(fā)布系統(tǒng)的整體穩(wěn)定性。3.本發(fā)明具有可擴(kuò)展性系統(tǒng)能夠擴(kuò)展應(yīng)用到其它和Web內(nèi)容類似的領(lǐng)域。4.本發(fā)明設(shè)計(jì)框架思路明確,實(shí)施難度較小,可以廣泛應(yīng)用到生產(chǎn)系統(tǒng)中去。5.本發(fā)明不需要終端安裝定制的客戶端軟件,采用終端自帶的瀏覽器,如Opera移動(dòng)瀏覽器即可,能夠有效地?cái)U(kuò)大使用范圍。10以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中圖1是本發(fā)明的運(yùn)行流程示意圖圖2是本發(fā)明的實(shí)施體系結(jié)構(gòu)圖圖3是系統(tǒng)平臺(tái)選取示意圖具體實(shí)施例方式本發(fā)明應(yīng)用于Web系統(tǒng)中,其應(yīng)用環(huán)境如圖2所示,下面介紹本發(fā)明的一種實(shí)現(xiàn)方法。實(shí)施例1本實(shí)施例的服務(wù)端的系統(tǒng)平臺(tái),如圖3所示。其中,本實(shí)施例選耳又的月良務(wù)器為DELL1850,基本配置如下XE0N3.2G(2M),DDR2G內(nèi)存,146GB石更盤,雙1000M網(wǎng)卡。本實(shí)施例選取的操作系統(tǒng)為開源的FREEBSD系統(tǒng),片反本為FREEBSD6.2Release。本實(shí)施例選取的WEB伺服器為開源的Apache,版本為ApacheHTTPServerVersion2.2。本實(shí)施例選取的HTTP請(qǐng)求處理環(huán)境為PHP+MYSQL,版本分別為PHP4.4.5和MYSQL5.0。除了以上介紹的平臺(tái)必要的配置,還需要實(shí)現(xiàn)5C核心模塊,下面將作細(xì)致的介紹。本實(shí)施例服務(wù)端的主要處理才莫塊如下轉(zhuǎn)換模塊(Convert模塊)在5C流程模塊中,本發(fā)明選取一個(gè)開源的基于JAVA的項(xiàng)目JTidy作為liHTMLParser,它承擔(dān)著把HTML文檔轉(zhuǎn)換成DOM文檔的責(zé)任。JTidy是一個(gè)在JAVA平臺(tái)上開發(fā)的軟件包,它可以查找HTML文檔的語法錯(cuò)誤,一般情況下,它被用作排除HTML語法錯(cuò)誤的工具,同時(shí),JTidy提供了基于DOM接口的HTML全文解析。除了搭建JTidy子模塊,在Convert模塊中,還需要實(shí)現(xiàn)請(qǐng)求處理子模塊,用來處理HTTPPOST請(qǐng)求;還需要頁面請(qǐng)求子模塊,用來模擬普通瀏覽器請(qǐng)求下載原始HTML頁面和相應(yīng)的頁面內(nèi)嵌對(duì)象;還需要設(shè)備屬性映射子模塊,用來尋找對(duì)應(yīng)的設(shè)備屬性表。剪切模塊(Cut模塊)5C流程中的Cut模塊較為簡(jiǎn)單,主要包括2個(gè)子模塊DOM樹遍歷子模塊和對(duì)象節(jié)點(diǎn)選擇子模塊;前者主要用來遍歷Convert模塊生成的DOM樹,當(dāng)遇到新的對(duì)象節(jié)點(diǎn)時(shí),調(diào)用對(duì)象節(jié)點(diǎn)選擇子模塊,對(duì)象節(jié)點(diǎn)選擇子模塊通過查詢?cè)O(shè)備屬性表決定該對(duì)象節(jié)點(diǎn)是否被設(shè)備支持,如果不支持,則通知DOM樹遍歷子模塊刪除該對(duì)象節(jié)點(diǎn)。壓縮模塊(Compress模塊)Compress模塊主要功能是壓縮URL和內(nèi)嵌式多々某體對(duì)象,主要包括LMT計(jì)算子模塊、URL壓縮子模塊和多纟某體壓縮子^^塊。LMT子模塊需要利用Cut模塊中的DOM樹遍歷子模塊,遍歷HTML文檔中的內(nèi)嵌多媒體對(duì)象,并且提取M頂E屬性,尺寸,以及原始URL,并且利用Convert才莫塊得到的"i殳備屬性,計(jì)算目標(biāo)對(duì)象的M頂E,尺寸,以及新的URL。URL壓縮子模塊把LMT子模塊中目標(biāo)對(duì)象的URL映射成較短的以數(shù)字標(biāo)示的格式化URL,并且填入LMT表的最后一項(xiàng)中。多々某體壓縮子^t塊采用了開源的FFMPEG(國際上著名的編解碼項(xiàng)目)作為CODEC,FFMPEG是最全的開源圖像、視音頻轉(zhuǎn)換工具,具有很強(qiáng)的擴(kuò)展性;本子模塊通過PHP對(duì)其封裝,按照LMT表中的規(guī)則來處理相應(yīng)的多媒體對(duì)象。緩存模塊(Cache模塊)Cache模塊主要功能是保存Compress模塊生成的新多媒體對(duì)象和生成新的DOM文檔FDD。本模塊由2個(gè)子模塊組成,媒體保存子模塊和FDD生成子模塊。媒體生成子模塊利用LMT表和Compress模塊中的多4某體壓縮子模塊,把新的壓縮結(jié)果保存到對(duì)應(yīng)的位置上;FDD生成子模塊利用DOM樹遍歷子模塊替換LMT中有對(duì)應(yīng)FURL的鏈接URL,生成FDD文檔。融合模塊(Converge模塊)Converge模塊是本系統(tǒng)中比較關(guān)鍵的一個(gè)模塊,我們通過PHP來實(shí)現(xiàn),主要由兩個(gè)子模塊組成FDD到窗L轉(zhuǎn)換模塊,F(xiàn)DD到XHTML轉(zhuǎn)換模塊。具體調(diào)用哪個(gè)模塊,由設(shè)備的DataSheet決定,依賴于設(shè)備上瀏覽器的版本。FDD到麗L轉(zhuǎn)換模塊簡(jiǎn)稱為F2W模塊,本實(shí)施例采用了俄羅斯著名的開源轉(zhuǎn)換工具LazyWapReal-timeHTML2WAPconverter,生成新的麵L文檔n麗L。FDD到XHTML轉(zhuǎn)換模塊筒稱為F2X模塊,本實(shí)施例也釆用了俄羅斯的H2X開源轉(zhuǎn)換器,生成新的XHTML文檔nXHTML?;谏鲜鱿到y(tǒng)平臺(tái),本發(fā)明提供的針對(duì)Web內(nèi)容的融合發(fā)布方法包括如下步驟1)客戶端向服務(wù)端發(fā)送針對(duì)某一Web內(nèi)容的請(qǐng)求;2)服務(wù)端查找所請(qǐng)求的Web內(nèi)容,然后對(duì)該Web內(nèi)容依次進(jìn)ffConvert(轉(zhuǎn)換),Cut(剪切),Compress(壓縮),Cache(緩存),Converge(融合)處理,即進(jìn)行5C處理,得到處理后的Web內(nèi)容;3)服務(wù)端將處理后的Web內(nèi)容返回給客戶端。上述步驟2)中,通過以下步驟,處理原始的Web內(nèi)容,轉(zhuǎn)化成可以適合不同的網(wǎng)絡(luò),不同的終端的內(nèi)容。步驟一轉(zhuǎn)換(Convert)此步驟是一個(gè)把HTML轉(zhuǎn)化到XML的過程,可以理解成信息識(shí)別、信息提取的過程;在這一領(lǐng)域,國內(nèi)國際都有深入的研究,有著數(shù)目眾多,品種繁多的算法和解決方案。本發(fā)明中的Convert主要是利用HTMLParser解析HTML源代碼,生成XML格式文本;Convert步驟內(nèi)部的處理流程是1.獲取客戶端瀏覽器的User-Agent參數(shù),通過服務(wù)器上的UA(User-Agent)庫,得到終端設(shè)備的相應(yīng)軟硬件參數(shù)(DataSheet),如果HTTPHEADER中沒有UA,則取默認(rèn)的設(shè)備參數(shù)。2.獲取客戶端瀏覽器發(fā)出的HTTPPOST請(qǐng)求,其中目標(biāo)URL包含在HTTP請(qǐng)求的Body中。3.服務(wù)器調(diào)用目標(biāo)URL(統(tǒng)一資源定位符URL,英語Uniform/UniversalResourceLocator的縮寫,也被稱為網(wǎng)頁地址,是因特網(wǎng)上標(biāo)準(zhǔn)的資源的地址),獲取HTML源代碼和相應(yīng)的內(nèi)嵌對(duì)象,并且緩存起來。4.調(diào)用HTMLParser,識(shí)別HTML源代碼,把頁面解析為可識(shí)別的DOM文檔(文檔對(duì)象才莫型DOM,英語DocumentObjectModel的縮寫,是用來表示HTML和XML文檔的一種標(biāo)準(zhǔn)對(duì)象模型),本發(fā)明中稱該可識(shí)別的DOM文檔為ODD。步驟二剪切(Cut)此步驟利用步驟一得到的設(shè)備DataSheet和源代碼DOM文檔,遍歷整個(gè)DOM文檔,刪除步驟一所得的設(shè)備DataSheet中不支持的對(duì)象,得到新的DOM文檔,稱其為NDD。比如說原始DOM文檔為<channel><itemsrc=,../xx.gif,>thereisapic</item><itemsrc=,../xx.mp3,〉thereisaaudio</item></channel>如果設(shè)備不支持Mp3對(duì)象,則刪除掉DOM中的mp3對(duì)象后的新D0M文檔為<channel><itemsrc=,../xx.gif,〉thereisapic</item></charmel〉15步驟三壓縮(Compress)HTML文檔是一個(gè)豐富的多媒體展示器,除了簡(jiǎn)單的文字信息,多媒體信息是更重要的一部分,多媒體信息處理的好壞,直接關(guān)系到用戶在終端上的體驗(yàn)。此步驟利用步驟一得到的設(shè)備DataSheet和步驟二得到的新DOM文檔,遍歷整個(gè)DOM樹,生成成一個(gè)線性映射表LMT,如表才各l所示,下面舉例說明該表格內(nèi)容這一個(gè)步驟中,我們利用統(tǒng)計(jì)學(xué)原理來計(jì)算目標(biāo)對(duì)象,SIZE,以圖像為例,計(jì)算方法如下計(jì)算Size的/>式&=M/"(Wm/1024,Hm/768)*&其巾S:新對(duì)象Size,S。原始對(duì)象Size,W^移動(dòng)終端屏幕寬度,H^移動(dòng)終端屏幕高度計(jì)算寬度的公式W=(Wm/1024)*W其中W":新對(duì)象寬度,W。原始對(duì)象寬度,Wm:移動(dòng)終端屏幕寬度計(jì)算高度的公式H=(Hm〃68"H。其中H":新對(duì)象高度,H。原始對(duì)象寬度,Hm:移動(dòng)終端屏幕高度表格l:LMT表格示意圖原始對(duì)象MIMEImage/Jpeg…原始對(duì)象SIZE150*150;120K…原始對(duì)象URL(0URL)/Yahoo!_files/eva_kerryl39x119.jpg…新對(duì)象MIMEImage/Jpeg…新對(duì)象SIZE27*28;20K…新對(duì)象URL(腿L)http://www.5cmobile.com/yahool0202020/eva—kerryl39xll9-30格式化URL(FURL)http://www.5cmobile.com/1…(MIME介紹MIME/S-MIME:MultipurposeInternetMailExtensionsandSecureMIME,說明了如何安排消息格式使消息在不同的郵件系統(tǒng)內(nèi)進(jìn)行交換。MIME的格式靈活,允許郵件中包含任意類型的文件。MIME消息可以包含文本、圖象、聲音、視頻及其它應(yīng)用程序的特定數(shù)據(jù)。每個(gè)M頂E類型由兩部分組成,前面是數(shù)據(jù)的大類別,例如聲音audio、圖象image等,后面定義具體的種類。常見的MIME類型超文本標(biāo)記語言文本.html,,htmltext/html普通文本.txttext/plainRTF文本.rtfapplication/rtfGIF圖開j.gifimage/gifJPEG圖開j.ipeg,.jpgima.ge/jpegau聲音文件.auaudio/basicMIDI音樂文件mid,.midiaudio/midi,audio/x-midiRealAudio音樂文件.ra,.ramaudio/x_pn-realaudioMPEG文件.mpg,.mpegvideo/mpegAVI文件.avivideo/x-msvideoGZIP文件.gzapplication/x-gzipTAR文件.tarapplication/x-tar)LMT表中的格式化URL是為了統(tǒng)一URL的表現(xiàn)格式和URL的長(zhǎng)度,可以有效地降低不必要的URL信息載荷。該格式化URL通過統(tǒng)計(jì)的唯一ID來累加計(jì)算。得到映射表LMT后,調(diào)用步驟一緩存的多媒體對(duì)象,根據(jù)LMT表中的計(jì)算結(jié)果,調(diào)用相應(yīng)的處理it塊來壓縮處理。步驟四緩存(Cache)把步驟二得到的一系列壓縮結(jié)果保存到最終需要顯示的URL,也就是FURL的位置。遍歷步驟二得到的NDD,利用步驟三生成的LMT表中的FURL(最終需要顯示的URL)替換NDD中相應(yīng)的OURL(原始的URL),生成最終的DOM文檔,筒稱FDD。1步驟五融合(Converge)此步驟根據(jù)第一步得到的設(shè)備DataSheet,調(diào)用XHTML生成器,或者是麗L生成器,利用以及第四步的FDD,生成新的XHTML頁面(簡(jiǎn)稱nXHTML)或者是新的WML頁面(簡(jiǎn)稱n麗L)通過HTTPRESPONSE返回給請(qǐng)求設(shè)備。XHTML生成器和WML生成器的主要作用是根據(jù)HTML,XHTML,麗L的語法,把HTML文檔中的相應(yīng)標(biāo)簽,屬性等參數(shù)轉(zhuǎn)化成XHTML或者麗L的表現(xiàn)形式;本示例實(shí)施中的XHTML生成器采用了開源的轉(zhuǎn)化器(http:〃www.it.uc3m.es/jaf/html2xhtm1/),麗L生成器采用了開源的轉(zhuǎn)化器(http://www.xmlmind.com/foconverter/1icense—pe.html);為了驗(yàn)證本實(shí)施例算法的可行性,隨機(jī)選取Yahoo英文首頁(http://www.yahoo.com),Yahoo—貝寸殺斤聞(hup://news,yahoo,com/s/ap/20071121/ap-on—go—pr—wh/cia—leak—mcclellan),CNN首頁(http:〃edition,cnn.com/WORLD/),CNN新聞(http://money,cnn.com//2007/11/2O/news/companies/stem—cel1/index.htmcnn=yes)這四個(gè)頁面進(jìn)行實(shí)驗(yàn)。表2是一些對(duì)原始頁面特征的統(tǒng)計(jì)設(shè)定原始頁面文本部分Size為S,原始頁面嵌入式對(duì)象部分總體Size為&,經(jīng)過處理以后的文本部分Size為&',經(jīng)過處理以后的嵌入式對(duì)象Size為&,則壓縮率計(jì)算公式如下所示19nSS;&《根據(jù)本文第一部分的分析,假設(shè)文本部分最大壓縮比為50%,以屏幕大小為176*144,支持麗L瀏覽器的移動(dòng)終端為例,理論上的最大壓縮率計(jì)算公式如下所示d,176x144S?!禔0/S=-x——2~+50%x-^~1024x768S+S。S定義實(shí)際壓縮率和理論最大壓縮率的相似程度如下公式所示C=i')/及']定義實(shí)際壓縮率和理論最大壓縮率的偏移程度如下公式所示£=|C_l|表2:原始頁面特征表網(wǎng)頁屬性文本Size嵌入式對(duì)象SizeYahoo首頁166,431Bytes149,812Bytesc麗首頁43,318Bytes626,718BytesYahoo新聞57,287Bytes650,690BytesC麗新聞55,750Bytes274,564Bytes結(jié)果圖表與分析程序運(yùn)行結(jié)果如表3所示。對(duì)四個(gè)頁面的運(yùn)行結(jié)果,分別計(jì)算出i和i'。表3:程序運(yùn)行結(jié)果運(yùn)行YahooC麗YahooCNN20<table>tableseeoriginaldocumentpage21</column></row><table>把仿真結(jié)果和OperaMini4瀏覽器對(duì)比,結(jié)果如下(本表中下載量指經(jīng)過壓縮的下載量)表4運(yùn)行結(jié)果比較表<table>tableseeoriginaldocumentpage21</column></row><table>C麗新聞31KBytes43KBytes本系統(tǒng)的處理結(jié)果和OperaMini瀏覽器不相上下;然而,由于OperaMini4利用自有軟件對(duì)JavaScript和對(duì)頁面布局用戶體驗(yàn)支持的比較好,但是缺點(diǎn)是要求用戶必須安裝特殊的軟件,然而按照本發(fā)明方法實(shí)施的系統(tǒng)不需要特殊的軟件支持,也能達(dá)到相同的效果'2權(quán)利要求1.一種針對(duì)Web內(nèi)容的融合發(fā)布方法,包括如下步驟1)客戶端向服務(wù)端發(fā)送針對(duì)某一Web內(nèi)容的請(qǐng)求;2)服務(wù)端查找所請(qǐng)求的Web內(nèi)容,將該Web內(nèi)容轉(zhuǎn)換為XML文檔;3)刪除所述Web內(nèi)容中所述客戶端設(shè)備不支持的對(duì)象并根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息對(duì)剩余對(duì)象進(jìn)行壓縮;4)將XML文檔和處理后的對(duì)象組合,得到新的Web內(nèi)容;5)將新的Web內(nèi)容返回給客戶端。2.根據(jù)權(quán)利要求1所述的針對(duì)Web內(nèi)容的融合發(fā)布方法,其特征在于,所述步驟2)中,還包括對(duì)Web內(nèi)容進(jìn)行信息識(shí)別和信息提??;所述Web內(nèi)容是從HTML文檔轉(zhuǎn)化為XML文檔。3.根據(jù)權(quán)利要求2所述的針對(duì)Web內(nèi)容的融合發(fā)布方法,其特征在于,所述步驟3)中,遍歷原HTML文檔的DOM樹,刪除所述客戶端設(shè)備所不支持的對(duì)象節(jié)點(diǎn)。4.根據(jù)權(quán)利要求3所述的針對(duì)Web內(nèi)容的融合發(fā)布方法,其特征在于,所述步驟3)中,根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息,對(duì)原HTML文檔中的多J某體對(duì)象進(jìn)行壓縮。5.根據(jù)權(quán)利要求4所述的針對(duì)Web內(nèi)容的融合發(fā)布方法,其特征在于,所述步驟3)中,還包括對(duì)原HTML文檔中的URL進(jìn)行才各式化,得到格式化URL。6.根據(jù)權(quán)利要求5所述的針對(duì)Web內(nèi)容的融合發(fā)布方法,其特征在于,所述步驟4)是將壓縮后的多媒體對(duì)象保存到所述格式化URL所指定的位置,得到最終的DOM文檔;然后根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息,將XML文檔和最終的DOM文檔融合成新的Web內(nèi)容。7.—種針對(duì)Web內(nèi)容的融合發(fā)布裝置,包括接收模塊,用于接收客戶端向服務(wù)端發(fā)送的針對(duì)某一Web內(nèi)容的請(qǐng)求;格式轉(zhuǎn)換才莫塊,用于查找所請(qǐng)求的Web內(nèi)容,并將該Web內(nèi)容轉(zhuǎn)換為XML文檔;剪切壓縮模塊,用于刪除所述Web內(nèi)容中所述客戶端"i殳備不支持的對(duì)象并根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息對(duì)剩余對(duì)象進(jìn)行壓縮;組合模塊,用于將XML文檔和處理后的對(duì)象組合,得到新的Web內(nèi)容;發(fā)送模塊,用于把新的Web內(nèi)容發(fā)送給客戶端。8.根據(jù)權(quán)利要求7所述的針對(duì)Web內(nèi)容的融合發(fā)布裝置,其特征在于,所述格式轉(zhuǎn)換模塊用于將Web內(nèi)容是從HTML文檔轉(zhuǎn)化為XML文檔,還用于對(duì)Web內(nèi)容進(jìn)行信息識(shí)別和信息提??;。9.根據(jù)權(quán)利要求7所述的針對(duì)Web內(nèi)容的融合發(fā)布裝置,其特征在于,所述剪切壓縮模塊還用于對(duì)原HTML文檔中的URL進(jìn)行格式化,得到格式化URL。10.根據(jù)權(quán)利要求9所述的針對(duì)Web內(nèi)容的融合發(fā)布裝置,其特征在于,所述組合模塊還用于將壓縮后的多媒體對(duì)象保存到所述格式化URL所指定的位置。全文摘要本發(fā)明提供一種針對(duì)Web內(nèi)容的融合發(fā)布方法及裝置,其中方法包括客戶端向服務(wù)端發(fā)送針對(duì)某一Web內(nèi)容的請(qǐng)求;服務(wù)端查找所請(qǐng)求的Web內(nèi)容,然后根據(jù)客戶端的網(wǎng)絡(luò)環(huán)境和該客戶端的設(shè)備參數(shù)信息進(jìn)行格式轉(zhuǎn)換、對(duì)象剪切壓縮以及緩存融合處理,得到新的Web內(nèi)容;最后將新的Web內(nèi)容返回給客戶端。本發(fā)明具有很強(qiáng)的普適性、穩(wěn)定性和可擴(kuò)展性,并且本發(fā)明不需要終端安裝定制的客戶端軟件,只需采用終端自帶的瀏覽器,能夠有效地?cái)U(kuò)大使用范圍。文檔編號(hào)H04L29/06GK101500002SQ20081005696公開日2009年8月5日申請(qǐng)日期2008年1月28日優(yōu)先權(quán)日2008年1月28日發(fā)明者曄李,王勁林,鶴白申請(qǐng)人:中國科學(xué)院聲學(xué)研究所