字幕數(shù)據(jù)融合方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種字幕數(shù)據(jù)融合方法及裝置,其中方法包括:利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息;根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息;對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。本方案方便了用戶獲取到全面、完整的字幕描述信息,提高了用戶體驗(yàn)感。
【專利說明】
字幕數(shù)據(jù)融合方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種字幕數(shù)據(jù)融合方法及裝置。
【背景技術(shù)】
[0002]隨著社會(huì)的不斷進(jìn)步,人們的精神需求也越來越多元化。例如,越來越多的人們喜歡觀看美劇、韓劇等國外影視劇。然而很多的國外影視劇并沒有中文字幕,因此給不熟悉國外語言的人們帶來了很大的不便。
[0003]為了解決這一問題,現(xiàn)有許多視頻播放器都已提供字幕播放功能,不過人們還是需要自己去尋找字幕文件。因此,也出現(xiàn)了許多可提供字幕文件的字幕網(wǎng)站,人們通過這些字幕網(wǎng)站可以獲取到字幕文件,但是由于有些字幕網(wǎng)站是由影迷愛好者共同維護(hù)的,并不是由專業(yè)字幕人員進(jìn)行維護(hù)的,因此這些字幕網(wǎng)站上所提供的字幕文件的字幕描述信息并不完整,甚至存在大量錯(cuò)誤,因此給人們?cè)诓檎疫^程中帶來了很大的不便。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種字幕數(shù)據(jù)融合方法及裝置,方便了用戶獲取到全面、完整的字幕描述信息,提高了用戶體驗(yàn)感。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種字幕數(shù)據(jù)融合方法,該方法包括:
[0006]利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息;
[0007]根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息;
[0008]對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。
[0009]進(jìn)一步,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息具體為:根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0010]進(jìn)一步,獲取重復(fù)的字幕文件的字幕描述信息包括:
[0011]對(duì)字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度;
[0012]根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0013]進(jìn)一步,得到字幕融合描述信息包括:
[0014]根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息;
[0015]根據(jù)除基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。
[0016]進(jìn)一步,該方法還包括:對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。
[0017]根據(jù)本發(fā)明的另一方面,提供了一種字幕數(shù)據(jù)融合裝置,該裝置包括:
[0018]抓取模塊,適于利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息;
[0019]選取模塊,適于根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息;
[0020]融合模塊,適于對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。
[0021 ]進(jìn)一步,抓取模塊適于:根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0022]進(jìn)一步,選取模塊適于:
[0023]對(duì)字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度;
[0024]根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0025]進(jìn)一步,融合模塊適于:
[0026]根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息;
[0027]根據(jù)除基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。
[0028]進(jìn)一步,該裝置還包括:編碼轉(zhuǎn)換模塊,適于對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。
[0029]根據(jù)本發(fā)明提供的技術(shù)方案,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息,然后對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。本發(fā)明提供的技術(shù)方案得到了更加全面、完整的字幕融合描述信息,從而方便了用戶獲取到全面、完整的字幕描述信息,提高了用戶體驗(yàn)感。
[0030]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0031]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0032]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的字幕數(shù)據(jù)融合方法的流程示意圖;
[0033]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的字幕數(shù)據(jù)融合方法的流程示意圖;
[0034]圖3為管理列表的示意圖;
[0035]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的字幕數(shù)據(jù)融合裝置的功能結(jié)構(gòu)示意圖;
[0036]圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的字幕數(shù)據(jù)融合裝置的功能結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0038]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的字幕數(shù)據(jù)融合方法的流程示意圖,如圖1所示,該方法包括如下步驟:
[0039]步驟S100,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0040]有許多例如射手字幕網(wǎng)和人人字幕網(wǎng)等字幕網(wǎng)站都可以向用戶提供免費(fèi)的字幕文件和與之相應(yīng)的字幕描述信息,在步驟SlOO中,利用爬蟲從各大字幕網(wǎng)站抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,以便后續(xù)對(duì)字幕描述信息進(jìn)行融合處理。
[0041]其中,字幕描述信息用于描述字幕文件的相關(guān)信息,字幕描述信息包括:片名信息、上映時(shí)間信息、導(dǎo)演信息、主演信息和字幕語種信息。由于有些影視劇在不同國家的片名并不完全一樣。因此,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和臺(tái)灣片名信息。
[0042]步驟SlOl,根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0043]例如,根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取出相似度高的字幕文件,即重復(fù)的字幕文件,并獲取重復(fù)的字幕文件的字幕描述信息。
[0044]步驟S102,對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述?目息O
[0045]在步驟SlOl選取出重復(fù)的字幕文件之后,步驟S102對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。該字幕融合描述信息與重復(fù)的字幕文件的字幕描述信息相比,信息更加全面、完整,從而有助于用戶獲取到全面的字幕描述信息。
[0046]根據(jù)本實(shí)施例提供的字幕數(shù)據(jù)融合方法,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息,然后對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。本發(fā)明提供的技術(shù)方案得到了更加全面、完整的字幕融合描述信息,從而方便了用戶獲取到全面、完整的字幕描述信息,提高了用戶體驗(yàn)感。
[0047]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的字幕數(shù)據(jù)融合方法的流程示意圖,如圖2所示,該方法包括如下步驟:
[0048]步驟S200,根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0049]根據(jù)抓取關(guān)鍵詞,利用爬蟲從各大字幕網(wǎng)站抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,以便后續(xù)對(duì)字幕描述信息進(jìn)行融合處理。具體地,可通過管理列表實(shí)現(xiàn)對(duì)復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息的管理。
[0050]其中,字幕描述信息用于描述字幕文件的相關(guān)信息,字幕描述信息包括:片名信息、上映時(shí)間信息、導(dǎo)演信息、主演信息和字幕語種信息。具體地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和臺(tái)灣片名信息。
[0051]圖3為管理列表的示意圖,如圖3所示,該管理列表列出了復(fù)數(shù)個(gè)字幕文件的字幕描述信息,其中,initialname信息即為原片名信息,chinesename信息即為中文片名信息,englishname信息即為英文片名信息,hongkongname信息即為香港片名信息,taiwanname即為臺(tái)灣片名信息。從圖3中還可以看出有些字幕文件的字幕描述信息并不全面,具有空字段。以圖3中所列的第二個(gè)字幕文件的字幕描述信息為例,該字幕文件的原片名信息為“Jessabelle”,中文片名信息為“杰莎貝爾”,英文片名信息為空字段,臺(tái)灣片名信息為“鬼魂”,香港片名信息為“母難日”。
[0052]步驟S201,對(duì)字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度。
[0053]例如,可對(duì)字幕描述信息中的片名信息和主演信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度。
[0054]步驟S202,根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0055]在步驟S201完成相似度的計(jì)算之后,步驟S202根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取相似度高的字幕文件,即重復(fù)的字幕文件,并獲取重復(fù)的字幕文件的字幕描述信息。例如,可從復(fù)數(shù)個(gè)字幕文件中選取相似度超過80%的字幕文件,相似度超過80%的字幕文件可以作為重復(fù)的字幕文件。本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,選取相似度在其他范圍內(nèi)的字幕文件作為重復(fù)的字幕文件。
[0056]步驟S203,根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息。
[0057]在步驟S202從復(fù)數(shù)個(gè)字幕文件中選取出重復(fù)的字幕文件之后,步驟S203根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息。例如,步驟S202從復(fù)數(shù)個(gè)字幕文件中選取出重復(fù)的字幕文件分別為字幕文件
1、字幕文件2和字幕文件3,而字幕文件I的字幕描述信息的非空字段的個(gè)數(shù)為6個(gè),字幕文件2的字幕描述信息的非空字段的個(gè)數(shù)為5個(gè),字幕文件3的字幕描述信息的非空字段的個(gè)數(shù)為7個(gè),則在步驟S203中,可從字幕文件I的字幕描述信息、字幕文件2的字幕描述信息和字幕文件3的字幕描述信息中選取非空字段的個(gè)數(shù)最多的字幕描述信息,即字幕文件3的字幕描述信息作為基準(zhǔn)字幕描述信息。
[0058]步驟S204,根據(jù)除基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。
[0059]例如,重復(fù)的字幕文件分別為字幕文件1、字幕文件2和字幕文件3,在步驟S203中所選取的基準(zhǔn)字幕描述信息為字幕文件3的字幕描述信息,則在步驟S204中分別根據(jù)字幕文件I的基準(zhǔn)字幕描述信息和字幕文件2的基準(zhǔn)字幕描述信息,補(bǔ)充字幕文件3的字幕描述信息的所有字段,從而得到更加全面、完整的字幕融合描述信息,進(jìn)而有助于用戶獲取到全面的字幕描述信息。
[0060]雖然在步驟S204中對(duì)字幕文件3的字幕描述信息的所有字段進(jìn)行補(bǔ)充,得到了字幕融合描述信息,但是字幕融合描述信息相對(duì)應(yīng)的字幕文件即字幕文件3的編碼方式并不一定是現(xiàn)有視頻播放器所支持的字幕文件的編碼方式,所以為了便于用戶使用字幕文件,還需對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。具體地,可通過步驟S205至步驟S207進(jìn)行實(shí)現(xiàn)。
[0061 ]步驟S205,分析字幕融合描述信息相對(duì)應(yīng)的字幕文件的編碼方式。
[0062]步驟S206,根據(jù)編碼方式,將字幕融合描述信息相對(duì)應(yīng)的字幕文件解碼成Unicode格式的文件。
[0063]步驟S207,對(duì)文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件。
[0064]為了對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,在步驟S205中需要分析其編碼方式。完成編碼方式的分析之后,步驟S206可根據(jù)編碼方式,將字幕融合描述信息相對(duì)應(yīng)的字幕文件解碼成Unicode格式的文件。然后在步驟S207中對(duì)文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件。其中,UTF-8編碼方式和GBK編碼方式均為常用的編碼方式,大多提供字幕播放功能的視頻播放器都支持UTF-8編碼方式的字幕分享文件和GBK編碼方式的字幕分享文件。
[0065]在步驟S207中,將Unicode格式的文件轉(zhuǎn)換成UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件,不僅方便了用戶的使用,也避免了在使用過程中出現(xiàn)字幕亂碼,進(jìn)一步提高了用戶體驗(yàn)感。
[0066]為了便于用戶獲取字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息,該字幕數(shù)據(jù)融合方法還可包括將字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息上傳至內(nèi)容分發(fā)網(wǎng)絡(luò)的步驟。
[0067]步驟S208,將字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息上傳至內(nèi)容分發(fā)網(wǎng)絡(luò),以供用戶下載。
[0068]根據(jù)本實(shí)施例提供的字幕數(shù)據(jù)融合方法,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息,然后根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息,并補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息,對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件,最后將字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息上傳至內(nèi)容分發(fā)網(wǎng)絡(luò),以供用戶下載。本發(fā)明提供的技術(shù)方案不僅得到了更加全面、完整的字幕融合描述信息,而且還得到了符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件,從而方便了用戶獲取到全面、完整的字幕描述信息,也避免了在使用字幕分享文件的過程中出現(xiàn)字幕亂碼,提高了用戶體驗(yàn)感。另外,由于現(xiàn)有的字幕網(wǎng)站上存在多個(gè)重復(fù)的字幕文件,非常不利于用戶快速獲取到所需要的字幕文件,本發(fā)明提供的技術(shù)方案將字幕分享文件上傳至內(nèi)容分發(fā)網(wǎng)絡(luò),可使用戶從內(nèi)容分發(fā)網(wǎng)絡(luò)中快速地查找到所需要的字幕分享文件,節(jié)省了用戶的查找時(shí)間。
[0069]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的字幕數(shù)據(jù)融合裝置的功能結(jié)構(gòu)示意圖,如圖4所示,該字幕數(shù)據(jù)融合裝置包括:抓取模塊410、選取模塊420和融合模塊430。
[0070]抓取模塊410,適于利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0071]抓取模塊410利用爬蟲從各大字幕網(wǎng)站抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,以便后續(xù)對(duì)字幕描述信息進(jìn)行融合處理。其中,字幕描述信息用于描述字幕文件的相關(guān)信息,字幕描述信息包括:片名信息、上映時(shí)間信息、導(dǎo)演信息、主演信息和字幕語種信息。具體地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和臺(tái)灣片名信息。
[0072]選取模塊420,適于根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0073]例如,選取模塊420根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取出相似度高的字幕文件,即重復(fù)的字幕文件,并獲取重復(fù)的字幕文件的字幕描述信息。
[0074]融合模塊430,適于對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。
[0075]在選取模塊420選取出重復(fù)的字幕文件之后,融合模塊430對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。該字幕融合描述信息與重復(fù)的字幕文件的字幕描述信息相比,信息更加全面、完整,從而有助于用戶獲取到全面的字幕描述信息。
[0076]根據(jù)本實(shí)施例提供的字幕數(shù)據(jù)融合裝置,通過抓取模塊抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并通過選取模塊根據(jù)字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息,然后通過融合模塊對(duì)重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。本發(fā)明提供的技術(shù)方案得到了更加全面、完整的字幕融合描述信息,從而方便了用戶獲取到全面、完整的字幕描述信息,提高了用戶體驗(yàn)感。
[0077]圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的字幕數(shù)據(jù)融合裝置的功能結(jié)構(gòu)示意圖,如圖5所示,該字幕數(shù)據(jù)融合裝置包括:抓取模塊510、選取模塊520融合模塊530、編碼轉(zhuǎn)換模塊540和上傳模塊550。
[0078]抓取模塊510,適于根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息。
[0079]抓取模塊510根據(jù)抓取關(guān)鍵詞,利用爬蟲從各大字幕網(wǎng)站抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并保存復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,以便后續(xù)對(duì)字幕描述信息進(jìn)行融合處理。其中,字幕描述信息用于描述字幕文件的相關(guān)信息,字幕描述信息包括:片名信息、上映時(shí)間信息、導(dǎo)演信息、主演信息和字幕語種信息。具體地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和臺(tái)灣片名信息。
[0080]選取模塊520,適于對(duì)字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度;根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息。
[0081]例如,選取模塊520可對(duì)字幕描述信息中的片名信息和主演信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度。在完成相似度的計(jì)算之后,選取模塊520根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取相似度高的字幕文件,即重復(fù)的字幕文件,并獲取重復(fù)的字幕文件的字幕描述信息。例如,可從復(fù)數(shù)個(gè)字幕文件中選取相似度超過80%的字幕文件,相似度超過80%的字幕文件可以作為重復(fù)的字幕文件。本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,選取相似度在其他范圍內(nèi)的字幕文件作為重復(fù)的字幕文件。
[0082]融合模塊530,適于根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息;根據(jù)除基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。
[0083]在選取模塊520從復(fù)數(shù)個(gè)字幕文件中選取出重復(fù)的字幕文件之后,融合模塊530根據(jù)重復(fù)的字幕文件的字幕描述信息的非空字段,從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息。假設(shè),選取模塊520從復(fù)數(shù)個(gè)字幕文件中選取出重復(fù)的字幕文件分別為字幕文件1、字幕文件2和字幕文件3,而字幕文件I的字幕描述信息的非空字段的個(gè)數(shù)為6個(gè),字幕文件2的字幕描述信息的非空字段的個(gè)數(shù)為5個(gè),字幕文件3的字幕描述信息的非空字段的個(gè)數(shù)為7個(gè),則融合模塊530可從字幕文件I的字幕描述信息、字幕文件2的字幕描述信息和字幕文件3的字幕描述信息中選取非空字段的個(gè)數(shù)最多的字幕描述信息,即字幕文件3的字幕描述信息作為基準(zhǔn)字幕描述信息,然后根據(jù)字幕文件I的基準(zhǔn)字幕描述信息和字幕文件2的基準(zhǔn)字幕描述信息,補(bǔ)充字幕文件3的字幕描述信息的所有字段,從而得到更加全面、完整的字幕融合描述信息,進(jìn)而有助于用戶獲取到全面的字幕描述信息。
[0084]編碼轉(zhuǎn)換模塊540,適于對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。
[0085]編碼轉(zhuǎn)換模塊540進(jìn)一步適于:分析字幕融合描述信息相對(duì)應(yīng)的字幕文件的編碼方式;根據(jù)編碼方式,將字幕融合描述信息相對(duì)應(yīng)的字幕文件解碼成Unicode格式的文件;對(duì)文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件。
[0086]雖然融合模塊530已對(duì)字幕文件3的字幕描述信息的所有字段進(jìn)行補(bǔ)充,得到了字幕融合描述信息,但是字幕融合描述信息相對(duì)應(yīng)的字幕文件即字幕文件3的編碼方式并不一定是現(xiàn)有視頻播放器所支持的字幕文件的編碼方式,所以為了便于用戶使用字幕文件,還需編碼轉(zhuǎn)換模塊540將字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件。
[0087]為了便于用戶獲取字幕分享文件,該字幕數(shù)據(jù)融合裝置還可包括上傳模塊550,適于將字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息上傳至內(nèi)容分發(fā)網(wǎng)絡(luò),以供用戶下載。
[0088]根據(jù)本實(shí)施例提供的字幕數(shù)據(jù)融合裝置,通過抓取模塊抓取復(fù)數(shù)個(gè)字幕文件和字幕文件的字幕描述信息,并通過選取模塊根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息,然后通過融合模塊從重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息,并補(bǔ)充基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息,通過編碼轉(zhuǎn)換模塊對(duì)字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合UTF-8編碼方式的字幕分享文件和/或GBK編碼方式的字幕分享文件,最后通過上傳模塊將字幕分享文件及字幕分享文件相對(duì)應(yīng)的字幕融合描述信息上傳至內(nèi)容分發(fā)網(wǎng)絡(luò),以供用戶下載。本發(fā)明提供的技術(shù)方案不僅得到了更加全面、完整的字幕融合描述信息,而且還得到了符合至少一種預(yù)設(shè)編碼方式的字幕分享文件,從而使用戶可從內(nèi)容分發(fā)網(wǎng)絡(luò)中方便地、快捷地獲取到全面、完整的字幕融合描述信息和與之相應(yīng)的字幕分享文件,也避免了在使用字幕分享文件的過程中出現(xiàn)字幕亂碼,提高了用戶體驗(yàn)感。
[0089]上述說明示出并描述了本申請(qǐng)的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本申請(qǐng)并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本申請(qǐng)的精神和范圍,則都應(yīng)在本申請(qǐng)所附權(quán)利要求的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種字幕數(shù)據(jù)融合方法,其特征在于,所述方法包括: 利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息,保存所述復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息; 根據(jù)所述字幕描述信息的相似度,從所述復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息; 對(duì)所述重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息具體為:根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取重復(fù)的字幕文件的字幕描述信息包括: 對(duì)所述字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度; 根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從所述復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取所述重復(fù)的字幕文件的字幕描述信息。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述得到字幕融合描述信息包括: 根據(jù)所述重復(fù)的字幕文件的字幕描述信息的非空字段,從所述重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息; 根據(jù)除所述基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充所述基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述方法還包括:對(duì)所述字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。6.一種字幕數(shù)據(jù)融合裝置,其特征在于,所述裝置包括: 抓取模塊,適于利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息,保存所述復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息; 選取模塊,適于根據(jù)所述字幕描述信息的相似度,從所述復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取重復(fù)的字幕文件的字幕描述信息; 融合模塊,適于對(duì)所述重復(fù)的字幕文件的字幕描述信息進(jìn)行融合處理,得到字幕融合描述信息。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述抓取模塊適于:根據(jù)抓取關(guān)鍵詞,利用爬蟲抓取復(fù)數(shù)個(gè)字幕文件和所述字幕文件的字幕描述信息。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述選取模塊適于: 對(duì)所述字幕描述信息進(jìn)行分詞處理,計(jì)算經(jīng)分詞處理后的字幕描述信息的相似度; 根據(jù)經(jīng)分詞處理后的字幕描述信息的相似度,從所述復(fù)數(shù)個(gè)字幕文件中選取重復(fù)的字幕文件,獲取所述重復(fù)的字幕文件的字幕描述信息。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述融合模塊適于: 根據(jù)所述重復(fù)的字幕文件的字幕描述信息的非空字段,從所述重復(fù)的字幕文件的字幕描述信息中選取基準(zhǔn)字幕描述信息; 根據(jù)除所述基準(zhǔn)字幕描述信息之外的重復(fù)的字幕文件的字幕描述信息,補(bǔ)充所述基準(zhǔn)字幕描述信息的所有字段,得到字幕融合描述信息。10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括:編碼轉(zhuǎn)換模塊,適于對(duì)所述字幕融合描述信息相對(duì)應(yīng)的字幕文件進(jìn)行編碼轉(zhuǎn)換,得到符合至少一種預(yù)設(shè)編碼方式的字幕分享文件。
【文檔編號(hào)】H04N21/435GK105872730SQ201510813471
【公開日】2016年8月17日
【申請(qǐng)日】2015年11月23日
【發(fā)明人】薛偉
【申請(qǐng)人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司