專利名稱:Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
該發(fā)明涉及信息抽取領(lǐng)域,尤其涉及Web視頻頁面的復(fù)雜命名實(shí)體的抽 取方法。
背景技術(shù):
隨著網(wǎng)絡(luò)帶寬的增長和Web2. 0技術(shù)的應(yīng)用,YouTube、優(yōu)酷、土豆等視 頻分享網(wǎng)站在國內(nèi)外得到了快速的發(fā)展,互聯(lián)網(wǎng)視頻數(shù)量和用戶規(guī)模大規(guī)模 增長。目前國內(nèi)互聯(lián)網(wǎng)共有超過300家視頻站點(diǎn),其中優(yōu)酷、土豆網(wǎng)等網(wǎng)站 的視頻數(shù)量已突破千萬。如何從Web視頻頁面中準(zhǔn)確有效的提取文本信息已 經(jīng)成為信息抽取領(lǐng)域的重要問題,從網(wǎng)頁中提取文本實(shí)質(zhì)上是一種從半結(jié)構(gòu) 化的文本中提取信息的過程。
Web視頻頁面中包含了大量的文本信息,如電影名、電視劇名、音樂名、 熱點(diǎn)事件名等,若能從Web視頻中抽取出該些信息,不僅能為用戶提供準(zhǔn)確、 全面的信息資訊,還能對視頻的分類、內(nèi)容聚合和個(gè)性推薦進(jìn)行指導(dǎo)。該些 文本共有的重要特征是詞都較長且普通詞典中并不包含這些名稱,因此被稱 之為復(fù)雜命名實(shí)體(Complex Named Entities)。
復(fù)雜命名實(shí)體是指人名、地名等之外的更加具體、字面特征不明顯、與 人們?nèi)粘I詈托蓍e娛樂活動(dòng)密切相關(guān)的實(shí)體名。把能夠標(biāo)識(shí)一個(gè)具體對象 或特殊現(xiàn)象的字符串稱為一個(gè)實(shí)體詞,比如"汶川地震"、"北京奧運(yùn)"等 都認(rèn)為是事件名;"隱形的翅膀"、"北京歡迎你"都認(rèn)為是音樂名。
現(xiàn)有的命名實(shí)體抽取多數(shù)是在普通文本上進(jìn)行,其識(shí)別對象多是MUC(請 Message Understanding Conference,消息理解會(huì)議)定義的七個(gè)類別,尤其 以人名、地名、機(jī)構(gòu)名為主。命名實(shí)體識(shí)別分為兩種方法, 一種是基于規(guī)則 的方法,另一種是基于統(tǒng)計(jì)的方法?;谝?guī)則的方法準(zhǔn)確率較高,但是需要 耗費(fèi)大量的人力物力,且規(guī)則都是基于一定應(yīng)用領(lǐng)域制定,應(yīng)用領(lǐng)域變化就 需重新制定規(guī)則與詞典,因此系統(tǒng)的可移植性差;基于統(tǒng)計(jì)的方法的健壯性和靈活性更好,且不需要太多的人為干預(yù),但它需要大規(guī)模的語料庫訓(xùn)練。 現(xiàn)有的命名實(shí)體抽取算法主要利用命名實(shí)體在文本中的上下文信息和命
名實(shí)體本身的組成特征。但是在Web視頻頁面中,命名實(shí)體缺乏豐富的上下 文信息;同時(shí)現(xiàn)有技術(shù)中算法需要大規(guī)模的數(shù)據(jù)集合并進(jìn)行長時(shí)間運(yùn)算,不 適用于及時(shí)發(fā)現(xiàn)新出現(xiàn)的復(fù)雜命名實(shí)體。普通的命名實(shí)體與復(fù)雜命名實(shí)體在 概念和表現(xiàn)形式上都有很大差異,導(dǎo)致現(xiàn)有技術(shù)的算法無法直接應(yīng)用到復(fù)雜 命名識(shí)別抽取中;同時(shí)現(xiàn)有技術(shù)中的算法也沒有對命名實(shí)體做精細(xì)的類別劃 分。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了 Web視頻頁面的復(fù)雜命名實(shí)體的抽取方 法及其系統(tǒng),能夠不需要經(jīng)過長時(shí)間的模型訓(xùn)練而從Web視頻頁面中提取復(fù) 雜命名實(shí)體。
本發(fā)明公開了一種Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,
步驟l,對于Web視頻頁面集合中的每個(gè)Web視頻頁面,從所述Web視
頻頁面中抽取有效文本信息,所述有效文本信息組成視頻文本,所有視頻文
本組成訓(xùn)練集合;
步驟2,對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè)被選的類別設(shè) 置引導(dǎo)詞,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分布在類 別間集中分布的詞為特征詞;
步驟3,從訓(xùn)練集合中提取出同所述特征詞相關(guān)的詞為候選復(fù)雜命名實(shí) 體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度,為各個(gè)被選類別從所述 候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。
所述步驟l進(jìn)一步為,
步驟21,為每個(gè)站點(diǎn)設(shè)置信息抽取模板;
步驟22,對于Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi) 容構(gòu)建D0M樹;
步驟23,由所述Web視頻頁面所屬站點(diǎn)的信息抽取模板和所述Web視頻 頁面的DOM樹,從所述Web視頻頁面中抽取有效文本信息;
步驟24,所述有效文本信息組成視頻文本,所有視頻文本組成所述訓(xùn)練隹A 朱n o
所述有效文本信息包括視頻的類別;
所述步驟2中對Web視頻頁面進(jìn)行歸類進(jìn)一歩為,
歩驟31,設(shè)置站點(diǎn)的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面 的視頻的類別映射為標(biāo)準(zhǔn)類別;
步驟32,根據(jù)所述Web視頻頁面的標(biāo)準(zhǔn)類別對所述Web視頻頁面進(jìn)行歸類。
所述步驟2中選擇類別進(jìn)一步為,
步驟41,從劃分的類別中選擇包含的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值 的類別為選擇的類別。
所述有效文本信息包括視頻的標(biāo)簽,
所述步驟2中對于每個(gè)被選的類別設(shè)置引導(dǎo)詞進(jìn)一步為,
步驟51,從訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的詞 作為引導(dǎo)詞,所述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。
所述步驟2中從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分 布在類別間集中分布的詞為特征詞進(jìn)一步為,
步驟51,對于每個(gè)標(biāo)簽,如果所述標(biāo)簽包含引導(dǎo)詞,則所述標(biāo)簽包含的 其他詞為候選特征詞;
步驟52,依據(jù)候選特征詞在類別內(nèi)的分布和類別間的分布計(jì)算所述候選 特征詞對應(yīng)于每個(gè)類別的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他 類別越多,并且在類別中分布越均勻,則所述候選特征詞對應(yīng)于所述類別的 得分越高;
步驟53,對于每個(gè)候選特征詞,以候選特征詞的最高得分作為所述候選 特征詞的權(quán)重值,從候選特征詞中選擇權(quán)重值高的候選特征詞作為特征詞。 所述步驟3進(jìn)一步為,
步驟71,從訓(xùn)練集合中提取出在標(biāo)簽中同特征詞共同出現(xiàn)過的詞作為候 選復(fù)雜命名實(shí)體,候選復(fù)雜命名實(shí)體和同所述候選復(fù)雜命名實(shí)體相關(guān)的特征 詞組成文檔;
步驟72,文檔中特征詞對應(yīng)于類別的得分為所述特征詞同類別的關(guān)聯(lián) 度,由所述關(guān)聯(lián)度計(jì)算文檔中候選復(fù)雜命名實(shí)體對應(yīng)于類別的得分,特征詞對應(yīng)于類別的得分的值越高,所述候選復(fù)雜命名實(shí)體對應(yīng)于類別的得分的值 越高;
歩驟73,對于每個(gè)類別,將在所述類別的得分超過第三預(yù)設(shè)值或按得分 排序在所述類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為所述類別的復(fù)雜命名 實(shí)體,其中,n為第四預(yù)設(shè)值。
本發(fā)明還公開了一種Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),包括
有效信息抽取模塊,用于對于Web視頻頁面集合中的每個(gè)Web視頻頁面, 從所述Web視頻頁面中抽取有效文本信息,所述有效文本信息組成視頻文本, 所有視頻文本組成訓(xùn)練集合;
特征詞選取模塊,用于對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè) 被選的類別設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi) 均勻分布在類別間集中分布的詞為特征詞;
復(fù)雜命名實(shí)體抽取模塊,用于從訓(xùn)練集合中提取出同所述特征詞相關(guān)的 詞為候選復(fù)雜命名實(shí)體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度,為 各個(gè)被選類別從所述候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。
所述有效信息抽取模塊進(jìn)一步用于為每個(gè)站點(diǎn)設(shè)置信息抽取模板;對于 Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi)容構(gòu)建DOM樹;由所 述Web視頻頁面所屬站點(diǎn)的信息抽取模板和所述Web視頻頁面的DOM樹,從 所述Web視頻頁面中抽取有效文本信息;所述有效文本信息組成視頻文本, 所有視頻文本組成所述訓(xùn)練集合。
所述有效文本信息包括視頻的類別;
所述特征詞選取模塊在對Web視頻頁面進(jìn)行歸類時(shí)進(jìn)一步用于設(shè)置站點(diǎn) 的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面的視頻的類別映射為標(biāo) 準(zhǔn)類別;根據(jù)所述Web視頻頁面的標(biāo)準(zhǔn)類別對所述Web視頻頁面進(jìn)行歸類。
所述特征詞選取模塊在選擇類別時(shí)進(jìn)一步用于從劃分的類別中選擇包含 的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值的類別為選擇的類別。
所述有效文本信息包括視頻的標(biāo)簽,
所述特征詞選取模塊在對于每個(gè)被選的類別設(shè)置引導(dǎo)詞時(shí)進(jìn)一步用于從 訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的詞作為引導(dǎo)詞,所 述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。所述特征詞選取模塊在從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別 內(nèi)均勻分布在類別間集中分布的詞為特征詞時(shí)進(jìn)一步用于對于每個(gè)標(biāo)簽,如 果所述標(biāo)簽包含引導(dǎo)詞,則所述標(biāo)簽包含的其他詞為候選特征詞;依據(jù)候選 特征詞在類別內(nèi)的分布和類別間的分布計(jì)算所述候選特征詞對應(yīng)于每個(gè)類別 的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他類別越多,并且在類別 中分布越均勻,則所述候選特征詞對應(yīng)于所述類別的得分越高;對于每個(gè)候 選特征詞,以候選特征詞的最高得分作為所述候選特征詞的權(quán)重值,從候選 特征詞中選擇權(quán)重值高的候選特征詞作為特征詞。
所述復(fù)雜命名實(shí)體抽取模塊進(jìn)一步用于從訓(xùn)練集合中提取出在標(biāo)簽中同 特征詞共同出現(xiàn)過的詞作為候選復(fù)雜命名實(shí)體,候選復(fù)雜命名實(shí)體和同所述 候選復(fù)雜命名實(shí)體相關(guān)的特征詞組成文檔;文檔中特征詞對應(yīng)于類別的得分 為所述特征詞同類別的關(guān)聯(lián)度,由所述關(guān)聯(lián)度計(jì)算文檔中候選復(fù)雜命名實(shí)體 對應(yīng)于類別的得分,特征詞對應(yīng)于類別的得分的值越高,所述候選復(fù)雜命名 實(shí)體對應(yīng)于類別的得分的值越高;對于每個(gè)類別,將在所述類別的得分超過 第三預(yù)設(shè)值或按得分排序在所述類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為 所述類別的復(fù)雜命名實(shí)體,其中,n為第四預(yù)設(shè)值。
本發(fā)明的有益效果在于,通過采用基于抽取模板的信息抽取方法,精確 提取Web視頻頁面中的文本信息;通過進(jìn)行文本分類,能夠抽取出各個(gè)類別 中的復(fù)雜命名實(shí)體,為用戶推薦最新最熱門的各類信息;通過特征詞方法抽 取復(fù)雜命名實(shí)體,能夠不需要經(jīng)過長時(shí)間的模型訓(xùn)練,并且能隨Web視頻頁 面的變化發(fā)現(xiàn)新的復(fù)雜命名實(shí)體,具有及時(shí)、快速、準(zhǔn)確的技術(shù)效果;通過 從候選特征詞中選擇出在類別內(nèi)均勻分布在類別間集中分布的詞為特征詞, 去除存在干擾的特征詞,提高抽取準(zhǔn)確性。
圖1是本發(fā)明Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法的流程圖; 圖2是本發(fā)明Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面結(jié)合附圖,對本發(fā)明做進(jìn)一步的詳細(xì)描述。
10本發(fā)明方法如圖l所示。
步驟S100,對于Web視頻頁面集合中的每個(gè)Web視頻頁面,從該Web視 頻頁面中抽取有效文本信息,有效文本信息組成視頻文本,所有視頻文本組 成訓(xùn)練集合。
步驟S100的具體實(shí)現(xiàn)方式如下所述。
步驟IIO,為每個(gè)站點(diǎn)設(shè)置信息抽取模板。
對于絕大多數(shù)視頻網(wǎng)站,其網(wǎng)頁大多數(shù)是由腳本或程序從數(shù)據(jù)庫提供的 接口中讀出數(shù)據(jù),然后以固定的格式生成HTML頁面的,因此在同一網(wǎng)站中, 具有相同或相似語義內(nèi)容的網(wǎng)頁通常也具有相同或相似HTML語法結(jié)構(gòu)。
由于HTML網(wǎng)頁的特殊性,提取網(wǎng)頁文本可以采用預(yù)設(shè)提取規(guī)則,然后根 據(jù)該提取規(guī)則來提取文本的方法。提取規(guī)則是一系列規(guī)定的語法和標(biāo)簽,該 些語法和標(biāo)簽表述如何在一系列結(jié)構(gòu)相似有相同語義內(nèi)容的網(wǎng)頁中找到指定 的文本資源,然后根據(jù)該些描述進(jìn)行文本信息提取。
上述提取規(guī)則為所述的信息抽取模板。
步驟120,對于Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi) 容構(gòu)建D0M樹。
步驟130,由Web視頻頁面所屬站點(diǎn)的信息抽取模板和該Web視頻頁面 的DOM樹,從該Web視頻頁面中抽取有效文本信息。
將DOM樹與信息抽取模板匹配,抽取Web視頻網(wǎng)頁中有效的文本內(nèi)容, 如標(biāo)題、標(biāo)簽、描述、類別;從而去除無關(guān)信息,如廣告、導(dǎo)航鏈接。
步驟140,有效文本信息組成視頻文本,所有視頻文本組成訓(xùn)練集合。 步驟S200,對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè)被選的類別
設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分布在類別
間集中分布的詞為特征詞。
所述步驟S200的具體實(shí)施方式
如下。
步驟S200中涉及術(shù)語定義如下。
復(fù)雜命名實(shí)體(NE),是指人名、地名等之外的更加具體、字面特征不明 顯、與人們?nèi)粘I詈托蓍e娛樂活動(dòng)密切相關(guān)的實(shí)體名,如電影名、電視劇 名、音樂名、熱點(diǎn)事件名等。
引導(dǎo)詞(Seed),為每一個(gè)類別選取的屬于該類別的復(fù)雜命名實(shí)體,用以提取對該類別有標(biāo)識(shí)意義的特征詞。
特征詞(Feature),用以表達(dá)用戶對該命名實(shí)體的信息需求的詞。 步驟210,對Web視頻頁面進(jìn)行歸類。
設(shè)置站點(diǎn)的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面的視頻的 類別映射為標(biāo)準(zhǔn)類別;根據(jù)Web視頻頁面的標(biāo)準(zhǔn)類別對該Web視頻頁面進(jìn)行 歸類。
由于各個(gè)視頻站點(diǎn)標(biāo)注的類別信息并不一致,例如同一視頻在不同網(wǎng)站 分別被標(biāo)注為"新聞"類和"資訊"類,在本發(fā)明中利用ODP (Open Directory Project,開放目錄項(xiàng)目)的層次結(jié)構(gòu)選擇了類別和每個(gè)類別下的子類,并建 立了各站點(diǎn)視頻類別到標(biāo)準(zhǔn)類別的映射關(guān)系。如"電影"類別包括"大陸電 影"、"港臺(tái)電影"等子類。
步驟220,選擇類別。
從劃分的類別中選擇包含的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值的類別為 選擇的類別。
選擇類別的原則還包括覆蓋一定的視頻集合;跟人們的需求密切相關(guān); 以及同其他類別比較邊界清晰的類別。
關(guān)于邊界清晰,"音樂"類與"電影"類特征差異明顯,而"電影"與 "電視"類特征差異較小,如"DVD版"都是它們的特征詞。因此,選擇時(shí), 選擇"音樂"和"電影",而不會(huì)同時(shí)選擇"電影"和"電視"類。
步驟230,對于每個(gè)被選的類別設(shè)置引導(dǎo)詞。
所述步驟230具體實(shí)施方式
如下所述。
歩驟231,從訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的 詞作為引導(dǎo)詞,所述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。 實(shí)施例中為只在同一個(gè)類別的Web視頻頁面的標(biāo)簽中出現(xiàn)的詞為引導(dǎo)詞,也 就是第二預(yù)設(shè)值為2。
各類別中引導(dǎo)詞的選擇,是從Web視頻頁面的標(biāo)簽組成的標(biāo)簽集合中為 各個(gè)類別選取一部分命名實(shí)體作為弓I導(dǎo)詞。
引導(dǎo)詞的選擇原則為避免兼類,否則在識(shí)別某一類別的特征詞時(shí)會(huì)引 入其他類的特征詞;覆蓋所有子類,否則會(huì)遺漏某些子類的特征詞。
步驟240,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分布
12在類別間集中分布的詞為特征詞。
所述步驟240具體實(shí)施方式
如下所述。
步驟241,對于每個(gè)視頻的標(biāo)簽,如果該標(biāo)簽包含引導(dǎo)詞,則該標(biāo)簽包
含的其他詞為候選特征詞。
步驟242,依候選特征詞在類別內(nèi)分布和類別間分布計(jì)算該候選特征詞 對應(yīng)于每個(gè)類別的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他類別越 多,在類別分布越均勻,該候選特征詞對應(yīng)于該類別的得分越高。
弓I入基于現(xiàn)有技術(shù)中分布的單類別特征選擇框架從候選特征詞中選取特 征詞。
按如下公式計(jì)算候選特征詞對應(yīng)于類別的得分。
s度e(f, c,.) = c,.) - P7C(,, c,.)
其中
c,) = A £ w.g",, c,) - 。.)), c,) - F" 。 ))2
c,) = Z 力-c, ))2
I c, I -1 rfec,
計(jì)算公式中的符號(hào)解釋如下。
t表示一個(gè)候選特征詞,C表示一個(gè)類別,d表示一個(gè)特征詞文檔。特征 詞文檔由一個(gè)引導(dǎo)詞和同它相關(guān)的候選特征詞組成。
e'是第y個(gè)選擇的類別,其中,l&、iv, N是選擇的類別個(gè)數(shù)。
"g"W是符號(hào)函數(shù)s—(力41 ,x^。 log(w(,,d) +1) x魂。)
s/ze C +1
s/ze —d + 1
其中,d表示由一個(gè)候選復(fù)雜命名實(shí)體和它周圍的特征詞組成的文檔; w"力表示某個(gè)特征詞t在文檔d中出現(xiàn)的次數(shù);
w(^')表示在步驟B中計(jì)算出的特征詞t在類別e'中的得分",(^')。
^e-e表示在類別C中去重后的特征詞個(gè)數(shù); ^e-d表示在文檔d中去重后的特征詞個(gè)數(shù)。
步驟330,對于每個(gè)類別,將在該類別的得分超過第四預(yù)設(shè)值或按得分 排列在該類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為所述類別的復(fù)雜命名實(shí) 體,其中,n為第五預(yù)設(shè)值。具體實(shí)施例中,n值為50。
通過直接計(jì)算候選復(fù)雜命名實(shí)體在每一個(gè)類別上的得分,滿足一定得分或 者得分排名在前N,實(shí)施例中N選為50,則把候選復(fù)雜命名實(shí)體劃分為該類 別的復(fù)雜命名實(shí)體;否則,候選復(fù)雜命名實(shí)體不為該類別的復(fù)雜命名實(shí)體, 最終抽取出各個(gè)類別中的復(fù)雜命名實(shí)體。
一種Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng)如圖2所示。 有效信息抽取模塊100,用于對于Web視頻頁面集合中的每個(gè)Web視頻 頁面,從所述Web視頻頁面中抽取有效文本信息,所述有效文本信息組成視 頻文本,所有視頻文本組成訓(xùn)練集合。
有效信息抽取模塊100進(jìn)一步用于為每個(gè)站點(diǎn)設(shè)置信息抽取模板;對于 Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi)容構(gòu)建DOM樹;由所 述Web視頻頁面所屬站點(diǎn)的信息抽取模板和所述Web視頻頁面的DOM樹,從 所述Web視頻頁面中抽取有效文本信息;所述有效文本信息組成視頻文本,
15所有視頻文本組成所述訓(xùn)練集合。
特征詞選取模塊200,用于對Web視頻頁面進(jìn)行歸類,選擇類別,對于 每個(gè)被選的類別設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類 別內(nèi)均勻分布在類別間集中分布的詞為特征詞。
所述有效文本信息包括視頻的類別;
特征詞選取模塊200在對Web視頻頁面進(jìn)行歸類時(shí)進(jìn)一步用于設(shè)置站點(diǎn) 的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面的視頻的類別映射為標(biāo) 準(zhǔn)類別;根據(jù)所述Web視頻頁面的標(biāo)準(zhǔn)類別對所述Web視頻頁面進(jìn)行歸類。
特征詞選取模塊200在選擇類別時(shí)進(jìn)一步用于從劃分的類別中選擇包含 的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值的類別為選擇的類別。
所述有效文本信息包括視頻的標(biāo)簽,
特征詞選取模塊200在對于每個(gè)被選的類別設(shè)置引導(dǎo)詞時(shí)進(jìn)一步用于從 訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的詞作為引導(dǎo)詞,所 述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。
特征詞選取模塊200在從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別 內(nèi)均勻分布在類別間集中分布的詞為特征詞時(shí)進(jìn)一步用于對于每個(gè)標(biāo)簽,如 果所述標(biāo)簽包含引導(dǎo)詞,則所述標(biāo)簽包含的其他詞為候選特征詞;依據(jù)候選 特征詞在類別內(nèi)的分布和類別間的分布計(jì)算所述候選特征詞對應(yīng)于每個(gè)類別 的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他類別越多,并且在類別 中分布越均勻,則所述候選特征詞對應(yīng)于所述類別的得分越高;對于每個(gè)候 選特征詞,以候選特征詞的最高得分作為所述候選特征詞的權(quán)重值,從候選 特征詞中選擇權(quán)重值高的候選特征詞作為特征詞。
復(fù)雜命名實(shí)體抽取模塊300,用于從訓(xùn)練集合中提取出同所述特征詞相 關(guān)的詞為候選復(fù)雜命名實(shí)體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度, 為各個(gè)被選類別從所述候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。
復(fù)雜命名實(shí)體抽取模塊300進(jìn)一步用于從訓(xùn)練集合中提取出在標(biāo)簽中同 特征詞共同出現(xiàn)過的詞作為候選復(fù)雜命名實(shí)體,候選復(fù)雜命名實(shí)體和同所述 候選復(fù)雜命名實(shí)體相關(guān)的特征詞組成文檔;文檔中特征詞對應(yīng)于類別的得分 為所述特征詞同類別的關(guān)聯(lián)度,由所述關(guān)聯(lián)度計(jì)算文檔中候選復(fù)雜命名實(shí)體 對應(yīng)于類別的得分,特征詞對應(yīng)于類別的得分的值越高,所述候選復(fù)雜命名實(shí)體對應(yīng)于類別的得分的值越高;對于每個(gè)類別,將在所述類別的得分超過
第三預(yù)設(shè)值或按得分排序在所述類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為 所述類別的復(fù)雜命名實(shí)體,其中,n為第四預(yù)設(shè)值。
本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書確定的本發(fā)明的精神和范圍的條 件下,還可以對以上內(nèi)容進(jìn)行各種各樣的修改。因此本發(fā)明的范圍并不僅限 于以上的說明,而是由權(quán)利要求書的范圍來確定的。
權(quán)利要求
1.一種Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特征在于,步驟1,對于Web視頻頁面集合中的每個(gè)Web視頻頁面,從所述Web視頻頁面中抽取有效文本信息,所述有效文本信息組成視頻文本,所有視頻文本組成訓(xùn)練集合;步驟2,對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè)被選的類別設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分布在類別間集中分布的詞為特征詞;步驟3,從訓(xùn)練集合中提取出同所述特征詞相關(guān)的詞為候選復(fù)雜命名實(shí)體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度,為各個(gè)被選類別從所述候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。
2. 如權(quán)利要求l所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述步驟l進(jìn)一步為,步驟21,為每個(gè)站點(diǎn)設(shè)置信息抽取模板;步驟22,對于Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi) 容構(gòu)建D0M樹;步驟23,由所述Web視頻頁面所屬站點(diǎn)的信息抽取模板和所述Web視頻 頁面的DOM樹,從所述Web視頻頁面中抽取有效文本信息;步驟24,所述有效文本信息組成視頻文本,所有視頻文本組成所述訓(xùn)練魚厶朱口 o
3. 如權(quán)利要求1所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述有效文本信息包括視頻的類別;所述步驟2中對Web視頻頁面進(jìn)行歸類進(jìn)一步為,步驟31,設(shè)置站點(diǎn)的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面 的視頻的類別映射為標(biāo)準(zhǔn)類別;步驟32,根據(jù)所述Web視頻頁面的標(biāo)準(zhǔn)類別對所述Web視頻頁面進(jìn)行歸類。2
4. 如權(quán)利要求1所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述步驟2中選擇類別進(jìn)一步為,歩驟41,從劃分的類別中選擇包含的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值 的類別為選擇的類別。
5. 如權(quán)利要求1所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述有效文本信息包括視頻的標(biāo)簽, 所述步驟2中對于每個(gè)被選的類別設(shè)置引導(dǎo)詞進(jìn)一步為, 步驟51,從訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的詞 作為引導(dǎo)詞,所述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。
6. 如權(quán)利要求5所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述步驟2中從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分 布在類別間集中分布的詞為特征詞進(jìn)一步為,步驟51,對于每個(gè)標(biāo)簽,如果所述標(biāo)簽包含引導(dǎo)詞,則所述標(biāo)簽包含的 其他詞為候選特征詞;步驟52,依據(jù)候選特征詞在類別內(nèi)的分布和類別間的分布計(jì)算所述候選 特征詞對應(yīng)于每個(gè)類別的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他 類別越多,并且在類別中分布越均勻,則所述候選特征詞對應(yīng)于所述類別的 得分越高;步驟53,對于每個(gè)候選特征詞,以候選特征詞的最高得分作為所述候選 特征詞的權(quán)重值,從候選特征詞中選擇權(quán)重值高的候選特征詞作為特征詞。
7. 如權(quán)利要求6所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法,其特 征在于,所述步驟3進(jìn)一步為,步驟71,從訓(xùn)練集合中提取出在標(biāo)簽中同特征詞共同出現(xiàn)過的詞作為候 選復(fù)雜命名實(shí)體,候選復(fù)雜命名實(shí)體和同所述候選復(fù)雜命名實(shí)體相關(guān)的特征 詞組成文檔;步驟72,文檔中特征詞對應(yīng)于類別的得分為所述特征詞同類別的關(guān)聯(lián) 度,由所述關(guān)聯(lián)度計(jì)算文檔中候選復(fù)雜命名實(shí)體對應(yīng)于類別的得分,特征詞對應(yīng)于類別的得分的值越高,所述候選復(fù)雜命名實(shí)體對應(yīng)于類別的得分的值 越高;步驟73,對于每個(gè)類別,將在所述類別的得分超過第三預(yù)設(shè)值或按得分 排序在所述類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為所述類別的復(fù)雜命名 實(shí)體,其中,n為第四預(yù)設(shè)值。
8. —種Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其特征在于,包括 有效信息抽取模塊,用于對于Web視頻頁面集合中的每個(gè)Web視頻頁面,從所述Web視頻頁面中抽取有效文本信息,所述有效文本信息組成視頻文本, 所有視頻文本組成訓(xùn)練集合;特征詞選取模塊,用于對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè) 被選的類別設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別內(nèi) 均勻分布在類別間集中分布的詞為特征詞;復(fù)雜命名實(shí)體抽取模塊,用于從訓(xùn)練集合中提取出同所述特征詞相關(guān)的 詞為候選復(fù)雜命名實(shí)體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度,為 各個(gè)被選類別從所述候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。
9. 如權(quán)利要求8所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其特征在于,所述有效信息抽取模塊進(jìn)一步用于為每個(gè)站點(diǎn)設(shè)置信息抽取模板;對于 Web視頻頁面集合中的每個(gè)Web視頻頁面的HTML文本內(nèi)容構(gòu)建DOM樹;由所 述Web視頻頁面所屬站點(diǎn)的信息抽取模板和所述Web視頻頁面的DOM樹,從 所述Web視頻頁面中抽取有效文本信息;所述有效文本信息組成視頻文本, 所有視頻文本組成所述訓(xùn)練集合。
10. 如權(quán)利要求8所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其 特征在于,所述有效文本信息包括視頻的類別;所述特征詞選取模塊在對Web視頻頁面進(jìn)行歸類時(shí)進(jìn)一步用于設(shè)置站點(diǎn) 的視頻類別到標(biāo)準(zhǔn)類別的映射,將所述Web視頻頁面的視頻的類別映射為標(biāo) 準(zhǔn)類別;根據(jù)所述Web視頻頁面的標(biāo)準(zhǔn)類別對所述Web視頻頁面進(jìn)行歸類。
11. 如權(quán)利要求8所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其 特征在于,所述特征詞選取模塊在選擇類別時(shí)進(jìn)一步用于從劃分的類別中選擇包含的Web視頻頁面數(shù)量大于第一預(yù)設(shè)值的類別為選擇的類別。
12. 如權(quán)利要求8所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其 特征在于,所述有效文本信息包括視頻的標(biāo)簽,所述特征詞選取模塊在對于每個(gè)被選的類別設(shè)置引導(dǎo)詞時(shí)進(jìn)一步用于從 訓(xùn)練集合中被選類別的視頻文本的標(biāo)簽中選擇滿足條件的詞作為引導(dǎo)詞,所 述條件為標(biāo)簽中包含該詞的類別的數(shù)量小于第二預(yù)設(shè)值。
13. 如權(quán)利要求12所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其特征在于,所述特征詞選取模塊在從訓(xùn)練集合中選擇同所述引導(dǎo)詞相關(guān)并且在類別 內(nèi)均勻分布在類別間集中分布的詞為特征詞時(shí)進(jìn)一步用于對于每個(gè)標(biāo)簽,如 果所述標(biāo)簽包含引導(dǎo)詞,則所述標(biāo)簽包含的其他詞為候選特征詞;依據(jù)候選 特征詞在類別內(nèi)的分布和類別間的分布計(jì)算所述候選特征詞對應(yīng)于每個(gè)類別 的得分,候選特征詞在類別中出現(xiàn)的次數(shù)相對于其他類別越多,并且在類別 中分布越均勻,則所述候選特征詞對應(yīng)于所述類別的得分越高;對于每個(gè)候 選特征詞,以候選特征詞的最高得分作為所述候選特征詞的權(quán)重值,從候選 特征詞中選擇權(quán)重值高的候選特征詞作為特征詞。
14. 如權(quán)利要求13所述的Web視頻頁面的復(fù)雜命名實(shí)體的抽取系統(tǒng),其 特征在于,所述復(fù)雜命名實(shí)體抽取模塊進(jìn)一步用于從訓(xùn)練集合中提取出在標(biāo)簽中同 特征詞共同出現(xiàn)過的詞作為候選復(fù)雜命名實(shí)體,候選復(fù)雜命名實(shí)體和同所述 候選復(fù)雜命名實(shí)體相關(guān)的特征詞組成文檔;文檔中特征詞對應(yīng)于類別的得分 為所述特征詞同類別的關(guān)聯(lián)度,由所述關(guān)聯(lián)度計(jì)算文檔中候選復(fù)雜命名實(shí)體 對應(yīng)于類別的得分,特征詞對應(yīng)于類別的得分的值越高,所述候選復(fù)雜命名 實(shí)體對應(yīng)于類別的得分的值越高;對于每個(gè)類別,將在所述類別的得分超過 第三預(yù)設(shè)值或按得分排序在所述類別中排在前n項(xiàng)的候選復(fù)雜命名實(shí)體作為 所述類別的復(fù)雜命名實(shí)體,其中,n為第四預(yù)設(shè)值。
全文摘要
本發(fā)明涉及Web視頻頁面的復(fù)雜命名實(shí)體的抽取方法及系統(tǒng),方法包括步驟1,對于Web視頻頁面集合中的每個(gè)Web視頻頁面,從Web視頻頁面中抽取有效文本信息,有效文本信息組成視頻文本,所有視頻文本組成訓(xùn)練集合;步驟2,對Web視頻頁面進(jìn)行歸類,選擇類別,對于每個(gè)被選的類別設(shè)置引導(dǎo)詞,從訓(xùn)練集合中選擇同引導(dǎo)詞相關(guān)并且在類別內(nèi)均勻分布在類別間集中分布的詞為特征詞;步驟3,從訓(xùn)練集合中提取出同特征詞相關(guān)的詞為候選復(fù)雜命名實(shí)體,按候選命名實(shí)體相關(guān)的特征詞同類別的關(guān)聯(lián)度,為各個(gè)被選類別從候選命名實(shí)體中選擇對應(yīng)的復(fù)雜命名實(shí)體。本發(fā)明能夠不需要經(jīng)過長時(shí)間的模型訓(xùn)練而從Web視頻頁面中提取復(fù)雜命名實(shí)體。
文檔編號(hào)G06F17/30GK101625695SQ20091009137
公開日2010年1月13日 申請日期2009年8月20日 優(yōu)先權(quán)日2009年8月20日
發(fā)明者張勇東, 剛 鄭, 郭俊波 申請人:中國科學(xué)院計(jì)算技術(shù)研究所