一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法及系統(tǒng),根據(jù)接收的含格式的html富文本數(shù)據(jù),把它轉換成不含格式的純文本,然后通過業(yè)務處理,消除文本中的攻擊代碼、不規(guī)范的書寫、以及敏感詞等不合法、違禁的不安全因素,然后把處理后的純文本按照相似度匹配最佳效果的方式重新恢復到原有的格式,轉換成正確并安全的含格式的html富文本數(shù)據(jù),在網(wǎng)站上展示,提高了網(wǎng)站的安全性和內容的質量。
【專利說明】一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明應用在web互聯(lián)網(wǎng)領域,具體涉及一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法及系統(tǒng)。
【背景技術】
[0002]互聯(lián)網(wǎng)中需要處理大量用戶提交的數(shù)據(jù),大多數(shù)情況下,用戶提交的數(shù)據(jù)都是由純文字組成,但很多情況下,用戶提交的信息是含有格式標簽的富文本數(shù)據(jù),例如博客中具有豐富多樣展現(xiàn)形式的信息,用戶使用的自主建站服務以及電子商務賣家都具備多樣化展示的功能。
[0003]因為在很多領域用戶能編輯定制化的html富文本數(shù)據(jù),這些富文本數(shù)據(jù)都含有格式標簽。但是用戶提交的html富文本數(shù)據(jù)中包含有很多不可靠因素,它們會產(chǎn)生一些負面因素,影響網(wǎng)站內容,以及網(wǎng)站運行的質量和安全,總結起來,這些負面因素主要包括以下幾類:
[0004](I)不安全的因素,例如攻擊代碼等。
[0005]( 2 )提交的內容不規(guī)范,影響網(wǎng)站內容的質量。
[0006](3)提交的內容含有不健康、違禁的內容。
[0007]例如,提交的html富文本數(shù)據(jù)包含有“<strong>pass〈/strong>word”,這段含有格式的文本中,其中“pass”顯示為粗體,“word”為正常字體,在頁面顯示效果類似“password”,其中“〈strongX/strong〉”為格式標簽。假設其中的“pass”和“word”都是可被網(wǎng)站允許的正常單詞,但是組合起來的“password”是敏感詞,是需要被禁止的。在這種情況下,由于“password”在提交的HTML富文本數(shù)據(jù)是表現(xiàn)為“<strong>pass〈/strong>word”, “password” 被格式標簽“〈/strong〉” 分離成“pass” 和“word”,而系統(tǒng)認為“pass”和“word”是合法的單詞,都是允許通過。在類似這種情況下,如果含有格式的富文本數(shù)據(jù)不進行跨標簽處理,將會把不健康、違禁的、以及不合法的內容顯示出來。
[0008]從處理方法來看,google的網(wǎng)頁翻譯工具涉及到類似情況的處理,但在html網(wǎng)頁翻譯的處理上,google目前還只是實現(xiàn)對各個標簽內部文本數(shù)據(jù)的處理,并沒有涉及到跨標簽的富文本數(shù)據(jù)的處理。
[0009]類似這種跨標簽的處理需求有很多,跨標簽的處理存在兩種情況,一種是只做分析,這種情況下對html富文本數(shù)據(jù)進行解析,提取其中實際有效的文字,然后做分析。另一種是不僅做分析,還要做處理,然后再返回處理過后信息內容,例如對于上述中“password”識別后,將“password”單詞轉換為“Pasword”,并在轉換后,并恢復既定的富文本格式,并且在恢復處理中,使最終結果為最佳效果:“〈strong>Pas〈/strong>word”,而不是“<strong>Pasw〈/strong>ord” 或其他結果。
[0010]目前有一些方法處理這種跨標簽問題,其中占位還原法用的比較普遍,這種方法通常對html富文本數(shù)據(jù)進行逐字分析,找到其中的標簽,并用特定標志進行標識,對整個富文本數(shù)據(jù)作完標識后,再根據(jù)業(yè)務對標識處進行處理。這種方法一般只能用來處理一種業(yè)務,通用性不強,而互聯(lián)網(wǎng)處理方面情況眾多,業(yè)務復雜,需要處理方法具有一定的通用性。
[0011]為了防止用戶提交的html富文本數(shù)據(jù)不會破壞整個網(wǎng)站的安全性,以及網(wǎng)站整體協(xié)調性,需要作大量的分析處理,有時候還需要對拼寫不規(guī)范的文本做自動化規(guī)范處理,這個過程不僅需要對html富文本數(shù)據(jù)做細致的分析,而且要進行跨標簽的文本處理工作,這些工作對網(wǎng)站整體的質量來說都是非常必要的。
【發(fā)明內容】
[0012]針對以上的問題,本發(fā)明提出一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法及系統(tǒng),根據(jù)接收的含格式的html富文本數(shù)據(jù),把它轉換成不含格式的純文本,然后通過業(yè)務處理,消除文本中的攻擊代碼、不規(guī)范的書寫、以及敏感詞等不合法、違禁的不安全因素,然后把處理后的純文本按照相似度匹配最佳效果的方式重新恢復到原有的格式,轉換成安全的含格式的html富文本數(shù)據(jù),在網(wǎng)站上展示,提高了網(wǎng)站的安全性和內容的質量。
[0013]本發(fā)明技術方案如下
[0014]一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法,包括:
[0015]首先,采用parse機制,將html富文本數(shù)據(jù)作為parse分析器的輸入,轉換為類似DOM的樹結構對象,html富文本數(shù)據(jù)中的純文本數(shù)據(jù)將填寫到樹結構對象節(jié)點中,形成了多個節(jié)點純字符串片段。
[0016]其中,DOM是以面向對象方式描述的文檔模型,定義了表示和修改文檔所需的對象、對象的行為和屬性,以及這些對象之間的關系,可以把DOM認為是頁面上數(shù)據(jù)和結構的一個樹形表示,DOM模型是在客戶端的瀏覽器上使用。
[0017]對于parse機制,一般來說,將一組字符串作為輸入,進行解析轉換成特定對象結構的機制,特定對象結構指計算機程序領域的一組數(shù)據(jù)結構對象,在本發(fā)明中指的是類似DOM的樹結構對象。
[0018]上述的樹結構對象采用與DOM的相似的樹形結構,與DOM不同的是,它可以在服務
器上使用。
[0019]在樹結構對象中,根據(jù)各個節(jié)點中包含的純字符串片段,按順序拼接這些文本數(shù)據(jù),與parse分析器的輸入(即html富文本)對應,形成不包含格式標簽的純文本字符串數(shù)據(jù)。
[0020]對該純文本字符串數(shù)據(jù)進行校驗、具體業(yè)務處理,包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化等等一系列字符串處理。最后,生成修正后的純文本字符串數(shù)據(jù)。
[0021 ] 將修正后的純文本字符串數(shù)據(jù)與樹結構對象中各個節(jié)點的純字符串片段進行相似度匹配計算,逐個計算出純文本字符串數(shù)據(jù)中單詞與節(jié)點中純字符片段內容之間的距離。根據(jù)局部最優(yōu)的原則,選出距離局部最小的純文本字符串,將其替換填入相應的節(jié)點純字符串片段內。其中,相似度匹配算法默認采取了一種字符最短路徑算法的改進算法,在最短路徑的基礎上,通過距離計算和最佳整體距離匹配來計算最佳匹配。
[0022]將所有的節(jié)點純字符串片段與修正后的字符串數(shù)據(jù)匹配完成后,形成了新的樹結構對象,再對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數(shù)據(jù)。[0023]這時形成的html富文本數(shù)據(jù)是含有格式標簽的,能夠在客戶端瀏覽器上顯示各種豐富的效果。
[0024]進一步,在以上各個處理階段中,各個階段分工明確,各個階段之間獨立性強,可以對各個階段進行調整、取舍,進一步實現(xiàn)對相關的含格式富文本數(shù)據(jù)糾錯和安全性過濾等功能。
[0025]一種含格式的html富文本數(shù)據(jù)的跨標簽處理系統(tǒng),包括:
[0026]本系統(tǒng)由Parse分析器、節(jié)點分析器、純文本處理器、相似度匹配處理器、文本轉換器組成。Parse分析器、節(jié)點分析器、純文本處理器、相似度匹配處理器、文本轉換器順次連接。
[0027]Parse分析器,用于對接收到的html富文本數(shù)據(jù)進行分析,并轉換成類似DOM的樹結構對象,html富文本數(shù)據(jù)中的純文本數(shù)據(jù)將填寫到樹結構對象節(jié)點中,形成了多個節(jié)點純字符串片段,并且樹結構對象可以正在服務器上使用。
[0028]節(jié)點分析器,用于根據(jù)樹結構對象中的各個節(jié)點中包含的純字符串片段,按順序拼接這些純字符串,形成與parse分析器的輸入(即html富文本)對應的不包含格式標簽的純文本字符串數(shù)據(jù)。
[0029]純文本處理器,用于處理節(jié)點分析器形成的純文本字符串數(shù)據(jù),對他們進行校驗以及具體業(yè)務處理,包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化等一系列字符串處理操作。
[0030]相似度匹配處理器,用于接收純文本處理器處理后形成的修正后的純文本字符串數(shù)據(jù),將修正后的字符串數(shù)據(jù)與樹結構對象中各個節(jié)點的純字符片段進行相似度匹配,根據(jù)局部最優(yōu)原則,選出距離局部最小的純文本字符串,替換填入相應的節(jié)點純字符片段內,并輸出新的樹結構對象。
[0031]文本轉換器,用于對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數(shù)據(jù)。
[0032]本發(fā)明中包含的一種相似度匹配的方法,包括:
[0033]基于Levenshtein_distance算法,計算兩個字符的距離:
【權利要求】
1.一種含格式的html富文本數(shù)據(jù)的跨標簽處理方法,其特征在于包括以下步驟: 步驟一、采用parse機制,將html富文本數(shù)據(jù)作為parse分析器的輸入,轉換為類似DOM的樹結構對象,html富文本數(shù)據(jù)中的純文本數(shù)據(jù)將填寫到樹結構對象節(jié)點中,形成了多個節(jié)點純字符串片段; 步驟二、在樹結構對象中,根據(jù)各個節(jié)點中包含的純字符串片段,按順序拼接這些文本數(shù)據(jù),與parse分析器的輸入(即html富文本)對應,形成不包含格式標簽的純文本字符串數(shù)據(jù)。 步驟三、對該純文本字符串數(shù)據(jù)進行校驗、具體業(yè)務處理,生成修正后的純文本字符串數(shù)據(jù); 步驟四、將修正后的純 文本字符串數(shù)據(jù)與樹結構對象中各個節(jié)點的純字符串片段進行相似度匹配計算,逐個計算出純文本字符串數(shù)據(jù)中單詞與節(jié)點中純字符片段內容之間的距離; 步驟五、將所有的節(jié)點純字符串片段與修正后的字符串數(shù)據(jù)匹配完成后,形成了新的樹結構對象,再對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數(shù)據(jù)。
2.根據(jù)權利要求1所述的跨標簽處理方法,其特征在于:步驟一中,所述DOM是以面向對象方式描述的文檔模型,定義了表示和修改文檔所需的對象、對象的行為和屬性,以及這些對象之間的關系,DOM是頁面上數(shù)據(jù)和結構的一個樹形表示,DOM模型是在客戶端的瀏覽器上使用; 所述parse機制,是將一組字符串作為輸入,進行解析轉換成特定對象結構的機制;所述特定對象結構指計算機程序領域的一組數(shù)據(jù)結構對象,即類似DOM的樹結構對象。 所述樹結構對象采用與DOM的相似的樹形結構,與DOM不同的是,它可以在服務器上使用。
3.根據(jù)權利要求1所述的跨標簽處理方法,其特征在于:步驟三中,所述處理包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化一系列字符串處理,生成修正后的純文本字符串數(shù)據(jù)。
4.根據(jù)權利要求1所述的跨標簽處理方法,其特征在于:步驟四中,根據(jù)局部最優(yōu)的原貝U,選出距離局部最小的純文本字符串,將其替換填入相應的節(jié)點純字符串片段內。其中,相似度匹配算法默認采取了一種字符最短路徑算法的改進算法,在最短路徑的基礎上,通過距離計算和最佳整體距離匹配來計算最佳匹配。
5.一種含格式的html富文本數(shù)據(jù)的跨標簽處理系統(tǒng),其特征在于:它由Parse分析器、節(jié)點分析器、純文本處理器、相似度匹配處理器、文本轉換器組成。Parse分析器、節(jié)點分析器、純文本處理器、相似度匹配處理器、文本轉換器順次連接; 所述Parse分析器,用于對接收到的html富文本數(shù)據(jù)進行分析,并轉換成類似DOM的樹結構對象,html富文本數(shù)據(jù)中的純文本數(shù)據(jù)將填寫到樹結構對象節(jié)點中,形成了多個節(jié)點純字符串片段,并且樹結構對象可以正在服務器上使用; 所述節(jié)點分析器,用于根據(jù)樹結構對象中的各個節(jié)點中包含的純字符串片段,按順序拼接這些純字符串,形成與parse分析器的輸入(即html富文本)對應的不包含格式標簽的純文本字符串數(shù)據(jù);所述純文本處理器,用于處理節(jié)點分析器形成的純文本字符串數(shù)據(jù),對他們進行校驗以及具體業(yè)務處理,包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化一系列字符串處理操作; 所述相似度匹配處理器,用于接收純文本處理器處理后形成的修正后的純文本字符串數(shù)據(jù),將修正后的字符串數(shù)據(jù)與樹結構對象中各個節(jié)點的純字符片段進行相似度匹配,根據(jù)局部最優(yōu)原則,選出距離局部最小的純文本字符串,替換填入相應的節(jié)點純字符片段內,并輸出新的樹結構對象; 所述文本轉換器,用于對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數(shù)據(jù)。
6.一種相似度匹配的方法,其特征在于,它包括: 基于Levenshtein_distance算法,計算兩個字符的距離:
7.根據(jù)權利要求6所述的相似度匹配的方法,其特征在于:在Levenshtein_distance算法上增加緩存處理以提高距離計算速度。
8.根據(jù)權利要求6所述的相似度匹配的方法,其特征在于,具體步驟為: 當處于修正后純文本字符串的開始位置時,首先從樹結構對象中第一個節(jié)點,取得包含其中的純字符串片段,作為第一輸入量,并計算此字符串片段的長度,然后在修正后的純文本字符串中,從開始位置起,取得相同長度的字符串,作為第二輸入量;通過Levenshtein_distance算法,計算這2個輸入量的距離; 如果計算的距離結果為0,則以第二輸入量最后I個字符在修正后純文本字符串中的位置標記為結束位,并把第二輸入量替換填入對應的節(jié)點純字符片段內,完成I次匹配;然后在樹結構對象中,按序從下一節(jié)點中取得其中的純文本字符串片段,作為新的第一輸入量,并計算此文本片段的長度,在修正后的純文本字符串中,把標記的結束位開始作為新的起始位置,向后取得相同長度的字符串,作為第二輸入量,開始新一輪的距離計算; 如果計算的距離結果不為0,在修正后純文本字符串中的當前位置上,向右增加一個字符,補入第二輸入量,作為新的第二輸入量,再次計算這2個計算輸入量的距離,進行向右探尋;如果新的距離結果小于等于上一次的距離結果,則第二輸入量在修正后純文本字符串的當前位置中,再次向右增加一個字符,補入第二輸入量,作為新的第二輸入量,計算這2個計算輸入量的距離;如果距離結果大于上一次的計算結果,則停止向右探尋,開始向左探尋;在最初第二輸入量的基礎上,減少其最右的一個字符,作為新的第二輸入量,計算2個計算輸入量的距離,如果計算的結果小于等于最初的距離結果,則第二輸入量繼續(xù)減少其最右的一個字符,作為新的第二輸入量,再次計算這2個計算輸入量的距離;如果計算的結果大于原來的計算結果,則停止向左探尋,本次計算結束; 從上述計算的一組距離結果中,按照局部最優(yōu)的原則,選擇結果最小的距離值,作為待選對象;如果待選對象只有I個,則把這個待選對象作為最優(yōu)結果,其對應的第二輸入量替換填入對應的節(jié)點純字符串片段內,則以第二輸入量最后字符在純文本字符串中的位置為結束位; 如果待選對象有多個,則需要與相鄰的下一組第一輸入量、第二輸入量的距離結果結合來綜合考慮; 對于待選對象有多個的情況,在修正后純文本字符串中,他們的位置是連續(xù)排在一起的;標出所有待選對象最后一個字符在修正后純文本字符串中的位置作為待選位置;首先把最右的待選位置作為新的匹配計算的起始位置,然后在樹結構對象中,按序從下一節(jié)點中取得其中的純字符串片段,作為第一輸入量,并計算此文本片段的長度,然后在修正后的純文本字符串中,從標記的起始位置起,取得相同長度的字符串,作為第二輸入量;開始新一輪的距離計算,并進行左右探尋,得出一組距離結果; 然后,從連續(xù)多個待選位置中,向左移一位,作為新的起始位置,開始新一輪的距離計算,得出一組距離結果;直到把所有待選對象對應的待選位置都完成了距離的計算,最后得到多組距離結果; 綜合多組距離結果,計算出其中最小距離值,作為待選對象,如果待選對象只有I個,則作為局部最優(yōu)結果,根據(jù)對應的第二輸入量,確定其在純文本字符串中的最終的起始和結束位置,并且把這個最終起始位置作為與樹結構對象中上一個節(jié)點匹配的第二輸入量的結束位置,確定了上一個第二輸入量的值;同時把這個最終結束位置作為下一次匹配計算的起始位置; 把上一個第二輸入量和這次計算得出的最優(yōu)第二輸入量替換填入對應的節(jié)點純字符片段內。
9.根據(jù)權利要求8所述的相似度匹配的方法,其特征在于: 把修正后純文本字符串的結束位置作為下一次匹配計算的起始位置,開始新一輪的距離計算; 每次進行下一輪匹配時,將之前匹配的多個待選對象作為一個重要考量因子,根據(jù)上輪得到的多個待選對象對此輪的匹配結果進行優(yōu)化調整,得到整體的最優(yōu)結果,并記錄最新產(chǎn)生的最優(yōu)匹配位置,依次直到所有文本找到最合適的匹配位置; 如此循環(huán),直到最后把純文本字符串中所有的內容都替換填入樹結構對象的對應的節(jié)點純字符片段內。
【文檔編號】G06F17/30GK103530430SQ201310545888
【公開日】2014年1月22日 申請日期:2013年11月6日 優(yōu)先權日:2013年11月6日
【發(fā)明者】邢世康 申請人:焦點科技股份有限公司