專利名稱:用于對網(wǎng)頁圖片進(jìn)行字符切分的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁瀏覽領(lǐng)域,并且更為具體地,涉及一種用于對網(wǎng)頁圖片進(jìn)行字符 切分的方法及裝置。
背景技術(shù):
隨著通信技術(shù)的不斷發(fā)展,利用移動終端登錄小說網(wǎng)站來瀏覽小說內(nèi)容逐漸成為 一種趨勢。為了對小說網(wǎng)站上發(fā)表的小說進(jìn)行版權(quán)保護(hù),許多小說網(wǎng)站通常采用圖片格式 顯示小說內(nèi)容,尤其是小說的一些VIP章節(jié),從而防止這些內(nèi)容被閱讀者復(fù)制。由于小說網(wǎng)站的內(nèi)容通常是在個人計算機(jī)(PC)上顯示的,所以這些小說網(wǎng)站上 顯示的圖片格式基本上都是針對PC的顯示屏幕來設(shè)計的。當(dāng)利用移動終端登錄小說網(wǎng)站 進(jìn)行網(wǎng)頁瀏覽時,由于這種圖片格式通常都比較大,難以在移動終端的小屏幕上如PC —樣 進(jìn)行網(wǎng)頁展示。在這種情況下,如果將小說圖片縮小到移動終端的屏幕大小,則會導(dǎo)致文字 縮小到很小,從而導(dǎo)致無法閱讀。如果按照原來的圖片格式進(jìn)行展示,則用戶在閱讀過程中 需要反復(fù)地左右移動窗口,從而造成閱讀非常不方便?;谏鲜鰡栴},在利用移動終端瀏覽小說網(wǎng)站上的小說內(nèi)容時,需要針對移動終 端顯示屏幕的尺寸,對網(wǎng)頁圖片內(nèi)容進(jìn)行適配處理,例如對網(wǎng)頁圖片內(nèi)容進(jìn)行重新排版。由于對小說內(nèi)容進(jìn)行排版處理是以字符為基本單位,所以在對網(wǎng)頁圖片內(nèi)容進(jìn)行 重新排版之前,需要對網(wǎng)頁圖片的字符進(jìn)行切分。
發(fā)明內(nèi)容
鑒于上述,本發(fā)明提供了一種用于對網(wǎng)頁圖片進(jìn)行字符切分的方法和裝置,利用 上述字符切分方法和裝置,可以將網(wǎng)頁圖片切分為單個字符,然后利用所切分出的單個字 符,根據(jù)移動終端的屏幕尺寸對小說內(nèi)容進(jìn)行重新排版,以適合于在移動終端的屏幕上顯
7J\ ο根據(jù)本發(fā)明的一個方面,提供了一種對網(wǎng)頁圖片進(jìn)行字符切分的方法,包括對所 獲取的網(wǎng)頁圖片的像素進(jìn)行逐行掃描,以行為單位將該網(wǎng)頁圖片劃分為由連續(xù)空白像素行 組成的第一空白區(qū)域和由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域;從所獲取的網(wǎng)頁圖片中切 分出所劃分出的第一內(nèi)容區(qū)域;針對每個所切分出的第一內(nèi)容區(qū)域的像素進(jìn)行逐列掃描, 以列為單位將該第一內(nèi)容區(qū)域劃分為由連續(xù)空白像素列組成的第二空白區(qū)域和由連續(xù)內(nèi) 容像素列組成的第二內(nèi)容區(qū)域;以及根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將第二內(nèi)容區(qū)域 與第二空白區(qū)域切分開,以將切分出的各個第二內(nèi)容區(qū)域作為各個第一內(nèi)容區(qū)域中的各個 單個字符。此外,在一個或多個實施例中,從所獲取的網(wǎng)頁圖片中切分出所劃分的第一內(nèi)容 區(qū)域的步驟還可以包括根據(jù)所劃分出的各個第一內(nèi)容區(qū)域的高度和和小說圖片文字行的 高度特征,判斷該第一內(nèi)容區(qū)域是否是小說圖片;以及在該第一內(nèi)容區(qū)域是小說圖片時,以 與該第一內(nèi)容區(qū)域相鄰的兩個空白區(qū)域的中心為界,從所獲取的網(wǎng)頁圖片中切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域。此外,在一個或多個實施例中,判斷第一內(nèi)容區(qū)域是否是小說圖片的步驟還包括 計算該第一內(nèi)容區(qū)域的高度平均值;以及在所計算出的第一內(nèi)容區(qū)域的高度平均值落在第 一閾值范圍時,判斷該第一內(nèi)容區(qū)域是小說圖片。此外,在一個或多個實施例中,判斷第一內(nèi)容區(qū)域是否是小說圖片的步驟還可以 包括計算該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差,只有在該第一內(nèi)容區(qū)域的高度平均值落在第一 閾值范圍內(nèi)且該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差與高度平均值的比值不超過第二閾值時,才判 斷該第一內(nèi)容區(qū)域是小說圖片。 此外,根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將所述第二內(nèi)容區(qū)域與所述第二空白 區(qū)域分割開的步驟還可以包括根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),確定第二 內(nèi)容區(qū)域的最大寬度;利用所確定出的第二內(nèi)容區(qū)域的最大寬度和各個第二空白區(qū)域的端 坐標(biāo),確定第二內(nèi)容區(qū)域的字符切分點;以及利用所確定出的第二內(nèi)容區(qū)域的各個字符切 分點,將所述第二內(nèi)容區(qū)域與所述第二空白區(qū)域分割開,以將切分出的各個第二內(nèi)容區(qū)域 作為被判斷為小說圖片的各個第一內(nèi)容區(qū)域中的各個單個字符。此外,在對所獲取的網(wǎng)頁圖片中的像素進(jìn)行逐行掃描或逐列掃描時,還可以根據(jù) 所掃描到的網(wǎng)頁圖片中的像素灰度值,對所述網(wǎng)頁圖片進(jìn)行防水印處理。根據(jù)本發(fā)明的另一方面,提供了一種對網(wǎng)頁圖片進(jìn)行字符切分的裝置,包括第一 劃分單元,用于對所獲取的網(wǎng)頁圖片的像素進(jìn)行逐行掃描,以行為單位將該網(wǎng)頁圖片劃分 為由連續(xù)空白像素行組成的第一空白區(qū)域和多個由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域; 第一切分單元,用于從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū)域;第二劃分單 元,用于針對每個所切分出的第一內(nèi)容區(qū)域的像素進(jìn)行逐列掃描,以列為單位將該第一內(nèi) 容區(qū)域劃分為由連續(xù)空白像素列組成的第二空白區(qū)域和由連續(xù)內(nèi)容像素列組成的第二內(nèi) 容區(qū)域;以及第二切分單元,用于根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將第二內(nèi)容區(qū)域與第 二空白區(qū)域切分開,以將切分出的各個第二內(nèi)容區(qū)域作為各個第一內(nèi)容區(qū)域中的各個單個 字符。此外,在一個或多個實施例中,所述第一切分單元還可以包括第一判斷單元,用 于根據(jù)所劃分出的各個第一內(nèi)容區(qū)域的高度和小說圖片文字行的高度特征,判斷該第一內(nèi) 容區(qū)域是否是小說圖片;以及第一分割單元,用于在該第一內(nèi)容區(qū)域是小說圖片時,以與該 第一內(nèi)容區(qū)域相鄰的兩個空白區(qū)域的中心為界,從所獲取的網(wǎng)頁圖片中切分出所有被判斷 為是小說圖片的第一內(nèi)容區(qū)域。此外,在一個示例中,所述第一判斷單元還可以包括計算單元,用于計算該第一內(nèi) 容區(qū)域的高度平均值,在所計算出的第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)時, 所述第一判斷單元判斷該第一內(nèi)容區(qū)域是小說圖片。此外,在另一示例中,所述計算單元還可以計算該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差,只 有在該第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)且該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差 與高度平均值的比值不超過第二閾值時,所述第一判斷單元才判斷該第一內(nèi)容區(qū)域是小說 圖片。此外,在一個或多個實施例中,所述第二切分單元還可以包括第一確定單元,用 于根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),確定第二內(nèi)容區(qū)域的最大寬度;第二確定單元,用于利用所確定出的第二內(nèi)容區(qū)域的最大寬度和各個第二空白區(qū)域的端坐標(biāo),確 定第二內(nèi)容區(qū)域的字符切分點;及第二分割單元,用于利用所確定出的第二內(nèi)容區(qū)域的各 個字符切分點,將所述第二內(nèi)容區(qū)域與所述第二空白區(qū)域分割開,以將切分出的各個第二 內(nèi)容區(qū)域作為被判斷為小說圖片的各個第一內(nèi)容區(qū)域中的各個單個字符。此外,所述裝置還可以包括防水印處理單元,用于在對網(wǎng)頁圖片的像素進(jìn)行逐行 掃描或逐列掃描時,根據(jù)所掃描到的網(wǎng)頁圖片中的像素灰度值,對所述網(wǎng)頁圖片進(jìn)行防水 印處理。根據(jù)本發(fā)明的另一方面,提供了一種包括如上所述的裝置的移動終端。根據(jù)本發(fā)明的另一方面,提供了一種包括如上所述的裝置的服務(wù)器。利用上述字符切分方法和裝置,可以將網(wǎng)頁圖片切分為單個字符,然后利用所切 分出的單個字符,根據(jù)移動終端的屏幕尺寸對小說內(nèi)容進(jìn)行重新排版,以適合于在移動終 端的屏幕上顯示。此外,通過對網(wǎng)頁圖片進(jìn)行防水印處理,可以提高劃分空白區(qū)域和內(nèi)容區(qū)域的準(zhǔn) 確性,從而提高字符切分的準(zhǔn)確性。為了實現(xiàn)上述以及相關(guān)目的,本發(fā)明的一個或多個方面包括后面將詳細(xì)說明并在 權(quán)利要求中特別指出的特征。下面的說明以及附圖詳細(xì)說明了本發(fā)明的某些示例性方面。 然而,這些方面指示的僅僅是可使用本發(fā)明的原理的各種方式中的一些方式。此外,本發(fā)明 旨在包括所有這些方面以及它們的等同物。
通過參考以下結(jié)合附圖的說明及權(quán)利要求書的內(nèi)容,并且隨著對本發(fā)明的更全面 理解,本發(fā)明的其它目的及結(jié)果將更加明白及易于理解。在附圖中圖1示出了根據(jù)本發(fā)明實施例的對網(wǎng)頁圖片進(jìn)行字符切分的方法的流程圖;圖2示出了圖1中所示出的切分出第一內(nèi)容區(qū)域的過程的一個示例的流程圖;圖3示出了圖1中所示出的切分出第二內(nèi)容區(qū)域的過程的一個示例的流程圖;圖4示出了根據(jù)本發(fā)明實施例的對網(wǎng)頁圖片進(jìn)行字符切分的字符切分裝置的方 框示意圖;圖5示出了圖4中包括的第一切分單元的結(jié)構(gòu)的一個示例的方框示意圖;圖6示出了圖4中包括的第二切分單元的結(jié)構(gòu)的一個示例的方框示意圖;圖7示出了包括根據(jù)本發(fā)明的字符切分裝置的移動終端的方框示意圖;和圖8示出了包括根據(jù)本發(fā)明的字符切分裝置的服務(wù)器的方框示意圖。在所有附圖中相同的標(biāo)號指示相似或相應(yīng)的特征或功能。
具體實施例在下面的描述中,出于說明的目的,為了提供對一個或多個實施例的全面理解,闡 述了許多具體細(xì)節(jié)。然而,很明顯,也可以在沒有這些具體細(xì)節(jié)的情況下實現(xiàn)這些實施例。 在其它例子中,為了便于描述一個或多個實施例,公知的結(jié)構(gòu)和設(shè)備以方框圖的形式示出。下面將參照附圖來對根據(jù)本發(fā)明的各個實施例進(jìn)行詳細(xì)描述。圖1示出了根據(jù)本發(fā)明實施例的對網(wǎng)頁圖片進(jìn)行字符切分的方法的流程圖。
如圖1所示,首先,在步驟SllO中,對從目標(biāo)網(wǎng)站(例如,小說網(wǎng)站)獲取的網(wǎng)頁 圖片的像素進(jìn)行逐行掃描,以行為單位將網(wǎng)頁圖片劃分為相互間隔的多個由連續(xù)空白像素 行組成的第一空白區(qū)域和多個由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域,例如,所述第一空 白區(qū)域可以由一個或多個連續(xù)空白像素行組成,所述第一內(nèi)容區(qū)域可以由一個或多個連續(xù) 內(nèi)容像素行組成。然后,在步驟S120中,從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū)域。 具體地,小說圖片是指由一行行文字組成的網(wǎng)頁圖片,行與行之間存在一定的空白。對于一 般小說圖片而言,每行文字的高度通常會在10-30個像素之間(即,小說圖片文字行的高度 特征),其平均值也應(yīng)該落在這個范圍內(nèi)。此外,小說圖片的每行文字的高度大致相同,其標(biāo) 準(zhǔn)差和平均值的比值很小(通常小于1)。因此,優(yōu)選地,可以根據(jù)所劃分出的各個第一內(nèi)容 區(qū)域的高度,計算第一內(nèi)容區(qū)域的高度平均值(更進(jìn)一步,可以計算高度標(biāo)準(zhǔn)差和平均值 的比值),并根據(jù)所計算出的高度平均值(或高度標(biāo)準(zhǔn)差和平均值的比值)和小說圖片文字 行的高度特征,判斷和切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域。關(guān)于判斷和切分 出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域的具體過程將在下面參照圖2進(jìn)行描述。圖2示出了根據(jù)圖1中所示出的切分出第一內(nèi)容區(qū)域的過程的一個示例的流程 圖。如圖2所示,首先,在步驟S121中,計算所劃分出的各個第一內(nèi)容區(qū)域的高度平均 值。然后,在步驟S123中,判斷所計算出的各個第一內(nèi)容區(qū)域的高度平均值是否落在第一 閾值范圍內(nèi),所述第一閾值范圍例如可以是10到30個像素的范圍,該第一閾值范圍也稱為 小說圖片文字行的高度特征。當(dāng)所計算出的第一內(nèi)容區(qū)域的高度平均值沒有落在該第一閾值范圍內(nèi)時,判斷該 第一內(nèi)容區(qū)域不是小說圖片,從而不對該第一內(nèi)容區(qū)域進(jìn)行處理。當(dāng)所計算出的第一內(nèi)容 區(qū)域的高度平均值落在該第一閾值范圍內(nèi)時,進(jìn)行到步驟S125。在步驟S125中,進(jìn)一步計 算該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差,然后在步驟S127中,判斷該高度標(biāo)準(zhǔn)差與高度平均值的 比值是否不超過第二閾值,該第二閾值通常例如是1。當(dāng)該比值超過第二閾值時,判斷該第一內(nèi)容區(qū)域不是小說圖片,從而不對該第一 內(nèi)容區(qū)域進(jìn)行處理。當(dāng)該比值不超過第二閾值時,即判斷該第一內(nèi)容區(qū)域是小說圖片時,在 步驟S129中,以與該第一內(nèi)容區(qū)域相鄰的兩個空白區(qū)域的中心為界切分出該第一內(nèi)容區(qū) 域。在從所劃分的第一內(nèi)容區(qū)域中切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域 后,在步驟S130中,針對每個切分出的第一內(nèi)容區(qū)域進(jìn)行逐列掃描,以列為單位將該第一 內(nèi)容區(qū)域劃分為多個相互間隔的第二空白區(qū)域和第二內(nèi)容區(qū)域,例如,將第一內(nèi)容區(qū)域劃 分為k個第二內(nèi)容區(qū)域和k+Ι個第二空白區(qū)域,其中所述第二空白區(qū)域由一個或多個連續(xù) 空白像素列組成,所述第二內(nèi)容區(qū)域由一個或多個連續(xù)內(nèi)容像素列組成。然后,在步驟S140中,根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將各個第二內(nèi)容區(qū)域 與各個第二空白區(qū)域切分開,以將切分出的各個第二內(nèi)容區(qū)域作為被判斷為是小說圖片的 各個第一內(nèi)容區(qū)域中的各個單個字符。圖3示出了圖1中所示出的切分出第二內(nèi)容區(qū)域的 過程的一個示例的流程圖。如圖3所示,首先,在步驟S141中,根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),例如,各個第二空白區(qū)域的端坐標(biāo)或中點坐標(biāo),在本例中采用中點坐標(biāo)Si,確定第二內(nèi) 容區(qū)域的最大寬度W = MAX(Si-Sp1),其中,i是自然數(shù),且3彡i彡k。然后,利用所確定出的第二內(nèi)容區(qū)域的最大寬度W和各個第二空白區(qū)域的端坐 標(biāo),在本例中為右端坐標(biāo),確定各個第二內(nèi)容區(qū)域的字符切分點。具體過程如步驟S142到 S 147所示。在步驟S142中,將i設(shè)置為i = 0,并且以第一個空白區(qū)域的中點XO作為第 一個字符切分點。在步驟S143中,將變量d的初始值設(shè)置為d = 0。在步驟S145中,計算 作為當(dāng)前切分點的空白區(qū)域的右端坐標(biāo)Righti和最大寬度W之和,確定Righti+W-d是否落 在第j個空白區(qū)域內(nèi),其中第j個空白區(qū)域的左右坐標(biāo)可以通過手機(jī)終端系統(tǒng)獲知。如果 沒有,則在步驟S144中將變量d加1,并返回到步驟S145進(jìn)行循環(huán)判斷。如果落在第j個 空白區(qū)域內(nèi),則轉(zhuǎn)到步驟S146,取該空白區(qū)域的中點作為第i+Ι個字符的右邊切分點,即Xi =Sj,并作為當(dāng)前字符切分點,并將變量i加1。然后,在步驟S147中,判斷是否滿足j = =k+1。如果滿足,則進(jìn)行到步驟S148,在步驟S148中,利用所確定出的各個字符切分點來 將第二內(nèi)容區(qū)域和第二空白區(qū)域切分開,并將切分開的各個第二內(nèi)容區(qū)域作為被判斷為小 說圖片的各個第一內(nèi)容區(qū)域中的各個字符。否則,返回到步驟S143。此外,由于一些網(wǎng)站在圖片上通常使用水印,從而導(dǎo)致空白部分不是完全空白,由 此在將網(wǎng)頁圖片劃分為空白區(qū)域和內(nèi)容區(qū)域時,會將一些含有水印的空白區(qū)域確定為是內(nèi) 容區(qū)域,從而導(dǎo)致不能準(zhǔn)確地區(qū)分內(nèi)容區(qū)域和空白區(qū)域。因此,優(yōu)選地,在對從目標(biāo)網(wǎng)站獲 取的網(wǎng)頁圖片的像素進(jìn)行逐行掃描或逐列掃描時,還可以根據(jù)所掃描出的網(wǎng)頁圖片像素的 灰度值,對該網(wǎng)頁圖片進(jìn)行防水印處理。具體地,對于包含有水印的小說圖片而言,由于水印的灰度通常比較低,而文字 部分的灰度比較高,因此可以通過設(shè)定一個閾值(例如,50%的灰度)來進(jìn)行防水印處 理。在這種情況下,如果所掃描到的網(wǎng)頁圖片的像素的灰度大于該閾值,則認(rèn)為該像素 是內(nèi)容像素。如果所掃描到的網(wǎng)頁圖片的像素的灰度不大于該閾值,則認(rèn)為是空白像 素。這里所說的灰度Gray是亮度I的補(bǔ)數(shù),即Gray =1-1。亮度的常用計算公式為I = 0. 299*R+0. 587*G+0. 114*B。此外,在網(wǎng)站上使用彩色水印的情況下,為了更有效地去除彩色水印,可以將亮度 的計算公式變?yōu)?I = MAX(R, G,B),則灰度 Gray = I-MAX (R, G,B)。通過對網(wǎng)頁圖片進(jìn)行防水印處理,可以防止包含有水印的空白區(qū)域被確定為是內(nèi) 容區(qū)域,從而提高劃分空白區(qū)域和內(nèi)容區(qū)域的準(zhǔn)確性,由此提高字符切分的準(zhǔn)確性。這里要說明的是,上述方法可以利用移動終端的瀏覽器來實現(xiàn),也可以在服務(wù)器 端實現(xiàn)。在利用移動終端的瀏覽器實現(xiàn)時,需要該瀏覽器具有強(qiáng)大的性能。在利用服務(wù)器 實現(xiàn)時,移動終端中的瀏覽器客戶端將需要瀏覽的網(wǎng)址URL發(fā)送給服務(wù)器,然后由服務(wù)器 從該網(wǎng)址獲取網(wǎng)頁數(shù)據(jù)并進(jìn)行字符切分。在完成字符切分后,服務(wù)器將切分后的字符發(fā)送 給瀏覽器客戶端。如上參照圖1-圖3描述了根據(jù)本發(fā)明的對網(wǎng)頁圖片進(jìn)行字符切分的方法。本發(fā) 明的上述對網(wǎng)頁圖片進(jìn)行字符切分的方法,可以采用軟件實現(xiàn),也可以采用硬件實現(xiàn),或采 用軟件和硬件組合的方式實現(xiàn)。圖4示出了根據(jù)本發(fā)明實施例的對網(wǎng)頁圖片進(jìn)行字符切分的字符切分裝置400的方框示意圖。如圖4所示,所述字符切分裝置400包括第一劃分單元410、第一切分單元 420、第二劃分單元430和第二切分單元440。在從目標(biāo)網(wǎng)站(例如小說網(wǎng)站)獲取網(wǎng)頁圖片后,所述第一劃分單元410對所獲 取的網(wǎng)頁圖片的像素進(jìn)行逐行掃描,以行為單位將該網(wǎng)頁圖片劃分為多個相互間隔的由連 續(xù)空白像素行組成的第一空白區(qū)域和由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域,例如,所述 第一空白區(qū)域可以由一個或多個連續(xù)空白像素行組成,所述第一內(nèi)容區(qū)域可以由一個或多 個連續(xù)內(nèi)容像素行組成。然后,第一切分單元420從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū) 域。優(yōu)選地,第一切分單元420可以根據(jù)所劃分出的第一內(nèi)容區(qū)域的高度和小說圖片文字 行的高度特征,從所獲取的網(wǎng)頁圖片中切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域。 關(guān)于第一切分單元420的細(xì)節(jié)將在下面參照圖5進(jìn)行描述。在切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域后,第二劃分單元430針對每 個切分出的第一內(nèi)容區(qū)域的像素進(jìn)行逐列掃描,以列為單位將該第一內(nèi)容區(qū)域劃分為相互 間隔的多個由連續(xù)空白像素列組成的第二空白區(qū)域和多個由連續(xù)內(nèi)容像素列組成的第二 內(nèi)容區(qū)域,例如,所述第二空白區(qū)域可以由一個或多個連續(xù)空白像素列組成,所述第二內(nèi)容 區(qū)域可以由一個或多個連續(xù)內(nèi)容像素列組成。在劃分出多個第二內(nèi)容區(qū)域和第二空白區(qū)域后,第二切分單元440根據(jù)各個第二 空白區(qū)域的像素坐標(biāo),將第二內(nèi)容區(qū)域與第二空白區(qū)域切分開,以將切分出的各個第二內(nèi) 容區(qū)域作為被判斷為小說圖片的各個第一內(nèi)容區(qū)域中的各個單個字符。關(guān)于第二切分單元 420的細(xì)節(jié)將在下面參照圖6進(jìn)行描述。此外,優(yōu)選地,在對目標(biāo)網(wǎng)站上的網(wǎng)頁圖片進(jìn)行水印處理時,所述字符切分裝置 400還可以包括防水印處理單元(未示出),用于在對網(wǎng)頁圖片的像素進(jìn)行逐行掃描或逐列 掃描時,根據(jù)所掃描到的網(wǎng)頁圖片中的像素灰度值,對所述網(wǎng)頁圖片進(jìn)行防水印處理。圖5示出了圖4中包括的第一切分單元420的結(jié)構(gòu)的一個示例的方框示意圖。如 圖5所示,第一切分單元420包括計算單元421、第一判斷單元423和第一分割單元425。計算單元421計算各個所切分出的第一內(nèi)容區(qū)域的高度平均值。在所計算出的第 一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)時,所述第一判斷單元423判斷該第一內(nèi)容 區(qū)域是小說圖片。在該第一內(nèi)容區(qū)域是小說圖片時,第一分割單元425以與該第一內(nèi)容區(qū) 域相鄰的兩個空白區(qū)域的中心為界切分出該第一內(nèi)容區(qū)域。此外,可選地,計算單元421還可以進(jìn)一步計算各個所切分出的第一內(nèi)容區(qū)域的 高度標(biāo)準(zhǔn)差。并且,只有在所計算出的第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)且 該高度標(biāo)準(zhǔn)差與高度平均值的比值不超過第二閾值時,第一判斷單元423才判斷該第一內(nèi) 容區(qū)域是小說圖片。這里要說明的是,所述計算單元421可以在第一判斷單元423之外,也可以包含在 第一判斷單元423中。圖6示出了圖4中包括的第二切分單元440的結(jié)構(gòu)的一個示例的方框示意圖。如 圖6所示,第二切分單元440包括第一確定單元441、第二確定單元442和第二分割單元 443。第一確定單元441根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),確定第二內(nèi)容區(qū)域的最大寬度。第二確定單元利用所確定出的第二內(nèi)容區(qū)域的最大寬度和各個第二空白 區(qū)域的端坐標(biāo)(在本示例中為右端坐標(biāo)),確定第二內(nèi)容區(qū)域的字符切分點。在確定出所有 字符切分點后,第二分割單元443利用所確定出的各個字符切分點,將所述第二內(nèi)容區(qū)域 與所述第二空白區(qū)域分割開,以將切分出的各個第二內(nèi)容區(qū)域作為被判斷為小說圖片的第 一內(nèi)容區(qū)域的各個單個字符。圖7示出了包括根據(jù)本發(fā)明的字符切分裝置400的移動終端10的方框示意圖。 圖7中的移動終端所包括的字符切分裝置400可以包含根據(jù)本發(fā)明的實施例進(jìn)行的各種變型。圖8示出了包括根據(jù)本發(fā)明的字符切分裝置400的服務(wù)器20的方框示意圖。圖 8中的服務(wù)器所包括的字符切分裝置400可以包含根據(jù)本發(fā)明的實施例進(jìn)行的各種變型。本發(fā)明所述的移動終端典型地可為各種可能進(jìn)行網(wǎng)頁瀏覽的終端設(shè)備,例如手 機(jī)、個人數(shù)字助理等,因此本發(fā)明的保護(hù)范圍不應(yīng)限定為某種特定類型的移動終端。盡管前面公開的內(nèi)容示出了本發(fā)明的示例性實施例,但是應(yīng)當(dāng)注意,在不背離權(quán) 利要求限定的本發(fā)明的范圍的前提下,可以進(jìn)行多種改變和修改。根據(jù)這里描述的發(fā)明實 施例的方法權(quán)利要求的功能、步驟和/或動作不需以任何特定順序執(zhí)行。此外,盡管本發(fā)明 的元素可以以個體形式描述或要求,但是也可以設(shè)想多個,除非明確限制為單數(shù)。盡管已經(jīng)結(jié)合詳細(xì)示出并描述的優(yōu)選實施例公開了本發(fā)明,但是本領(lǐng)域技術(shù)人員 應(yīng)當(dāng)理解,對于上述本發(fā)明所提出的對網(wǎng)頁圖片進(jìn)行字符切分的方法和裝置,還可以在不 脫離本發(fā)明內(nèi)容的基礎(chǔ)上做出各種改進(jìn)。因此,本發(fā)明的保護(hù)范圍應(yīng)當(dāng)由所附的權(quán)利要求 書的內(nèi)容確定。
權(quán)利要求
一種對網(wǎng)頁圖片進(jìn)行字符切分的方法,包括對所獲取的網(wǎng)頁圖片中的像素進(jìn)行逐行掃描,以行為單位將該網(wǎng)頁圖片劃分為由連續(xù)空白像素行組成的第一空白區(qū)域和由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域;從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū)域;針對每個所切分出的第一內(nèi)容區(qū)域的像素進(jìn)行逐列掃描,以列為單位將該第一內(nèi)容區(qū)域劃分為由連續(xù)空白像素列組成的第二空白區(qū)域和由連續(xù)內(nèi)容像素列組成的第二內(nèi)容區(qū)域;以及根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將第二內(nèi)容區(qū)域與第二空白區(qū)域切分開,以將切分出的各個第二內(nèi)容區(qū)域作為各個第一內(nèi)容區(qū)域中的各個單個字符。
2.如權(quán)利要求1所述的方法,其中,從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi) 容區(qū)域的步驟還包括根據(jù)所劃分出的各個第一內(nèi)容區(qū)域的高度和小說圖片文字行的高度特征,判斷該第一 內(nèi)容區(qū)域是否是小說圖片;以及在該第一內(nèi)容區(qū)域是小說圖片時,以與該第一內(nèi)容區(qū)域相鄰的兩個空白區(qū)域的中心為 界,從所獲取的網(wǎng)頁圖片中切分出所有被判斷為是小說圖片的第一內(nèi)容區(qū)域。
3.如權(quán)利要求2所述的方法,其中,判斷第一內(nèi)容區(qū)域是否是小說圖片的步驟還包括計算該第一內(nèi)容區(qū)域的高度平均值;以及在所計算出的第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍時,判斷該第一內(nèi)容區(qū)域 是小說圖片。
4.如權(quán)利要求3所述的方法,其中,判斷第一內(nèi)容區(qū)域是否是小說圖片的步驟還包括計算該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差,只有在該第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)且該第一內(nèi)容區(qū)域的高度 標(biāo)準(zhǔn)差與高度平均值的比值不超過第二閾值時,才判斷該第一內(nèi)容區(qū)域是小說圖片。
5.如權(quán)利要求1所述的方法,其中,根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將所述第二內(nèi) 容區(qū)域與所述第二空白區(qū)域分割開的步驟還包括根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),確定第二內(nèi)容區(qū)域的最大寬度;利用所確定出的第二內(nèi)容區(qū)域的最大寬度和各個第二空白區(qū)域的端坐標(biāo),確定第二內(nèi) 容區(qū)域的字符切分點;以及利用所確定出的第二內(nèi)容區(qū)域的各個字符切分點,將所述第二內(nèi)容區(qū)域與所述第二空 白區(qū)域分割開,以將切分出的各個第二內(nèi)容區(qū)域作為被判斷為小說圖片的各個第一內(nèi)容區(qū) 域中的各個單個字符。
6.如權(quán)利要求1所述的方法,其中,在對所獲取的網(wǎng)頁圖片中的像素進(jìn)行逐行掃描或 逐列掃描時,所述方法還包括根據(jù)所掃描到的網(wǎng)頁圖片中的像素灰度值,對所述網(wǎng)頁圖片進(jìn)行防水印處理。
7.如權(quán)利要求1-6中任何一個所述的方法,其中,所述方法是利用移動終端的瀏覽器 來實現(xiàn)的。
8. —種對網(wǎng)頁圖片進(jìn)行字符切分的裝置,包括第一劃分單元,用于對所獲取的網(wǎng)頁圖片的像素進(jìn)行逐行掃描,以行為單位將該網(wǎng)頁 圖片劃分為由連續(xù)空白像素行組成的第一空白區(qū)域和由連續(xù)內(nèi)容像素行組成的第一內(nèi)容區(qū)域;第一切分單元,用于從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū)域;第二劃分單元,用于針對每個所切分出的第一內(nèi)容區(qū)域的像素進(jìn)行逐列掃描,以列為 單位將該第一內(nèi)容區(qū)域劃分為由連續(xù)空白像素列組成的第二空白區(qū)域和由連續(xù)內(nèi)容像素 列組成的第二內(nèi)容區(qū)域;以及第二切分單元,用于根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將第二內(nèi)容區(qū)域與第二空白 區(qū)域切分開,以將切分出的各個第二內(nèi)容區(qū)域作為各個第一內(nèi)容區(qū)域中的各個單個字符。
9.如權(quán)利要求8所述的裝置,其中,所述第一切分單元還包括第一判斷單元,用于根據(jù)所劃分出的各個第一內(nèi)容區(qū)域的高度和小說圖片文字行的高 度特征,判斷該第一內(nèi)容區(qū)域是否是小說圖片;以及第一分割單元,用于在該第一內(nèi)容區(qū)域是小說圖片時,以與該第一內(nèi)容區(qū)域相鄰的兩 個空白區(qū)域的中心為界,從所獲取的網(wǎng)頁圖片中切分出所有被判斷為是小說圖片的第一內(nèi) 容區(qū)域。
10.如權(quán)利要求9所述的裝置,其中,所述第一切分單元還包括計算單元,用于計算該第一內(nèi)容區(qū)域的高度平均值,在所計算出的第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)時,所述第一判斷單元 判斷該第一內(nèi)容區(qū)域是小說圖片。
11.如權(quán)利要求10所述的裝置,其中,所述計算單元還計算該第一內(nèi)容區(qū)域的高度標(biāo)準(zhǔn)差,只有在該第一內(nèi)容區(qū)域的高度平均值落在第一閾值范圍內(nèi)且該第一內(nèi)容區(qū)域的高度 標(biāo)準(zhǔn)差與高度平均值的比值不超過第二閾值時,所述第一判斷單元才判斷該第一內(nèi)容區(qū)域 是小說圖片。
12.如權(quán)利要求8所述的裝置,其中,所述第二切分單元還包括第一確定單元,用于根據(jù)所劃分出的各個第二空白區(qū)域的像素坐標(biāo),確定第二內(nèi)容區(qū) 域的最大寬度;第二確定單元,用于利用所確定出的第二內(nèi)容區(qū)域的最大寬度和各個第二空白區(qū)域的 端坐標(biāo),確定第二內(nèi)容區(qū)域的字符切分點;以及第二分割單元,用于利用所確定出的第二內(nèi)容區(qū)域的各個字符切分點,將所述第二內(nèi) 容區(qū)域與所述第二空白區(qū)域分割開,以將切分出的各個第二內(nèi)容區(qū)域作為被判斷為小說圖 片的各個第一內(nèi)容區(qū)域中的各個單個字符。
13.如權(quán)利要求8所述的裝置,還包括防水印處理單元,用于在對網(wǎng)頁圖片中的像素進(jìn)行逐行掃描或逐列掃描時,根據(jù)所掃 描到的網(wǎng)頁圖片中的像素灰度值,對所述網(wǎng)頁圖片進(jìn)行防水印處理。
14.一種移動終端,包括如權(quán)利要求8-13中任何一個所述的裝置。
15.一種服務(wù)器,包括如權(quán)利要求8-13中任何一個所述的裝置。
全文摘要
本發(fā)明提供一種對網(wǎng)頁圖片進(jìn)行字符切分的方法,包括對網(wǎng)頁圖片進(jìn)行逐行掃描,以行為單位劃分為多個相互間隔的第一空白區(qū)域和第一內(nèi)容區(qū)域;從所獲取的網(wǎng)頁圖片中切分出所劃分出的第一內(nèi)容區(qū)域;針對每個所切分出的第一內(nèi)容區(qū)域進(jìn)行逐列掃描,以列為單位將該第一內(nèi)容區(qū)域劃分為多個相互間隔的第二空白區(qū)域和第二內(nèi)容區(qū)域;以及根據(jù)各個第二空白區(qū)域的像素坐標(biāo),將各個第二內(nèi)容區(qū)域與各個第二空白區(qū)域切分開,作為被判斷為是小說圖片的各個第一內(nèi)容區(qū)域中的各個單個字符。利用上述方法,可以將網(wǎng)頁圖片切分為單個字符,然后根據(jù)移動終端的屏幕尺寸對切分出的單個字符進(jìn)行重新排版,以適于在移動終端上顯示。
文檔編號G06F17/30GK101984426SQ20101052169
公開日2011年3月9日 申請日期2010年10月21日 優(yōu)先權(quán)日2010年10月21日
發(fā)明者周志明, 梁捷 申請人:優(yōu)視科技有限公司