專利名稱:一種基于智能標引的文件語音化處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息處理技術(shù)領(lǐng)域,尤其涉及一種基于智能標引的文件語音化處理方法和系統(tǒng)。
背景技術(shù):
隨著語音技術(shù)的發(fā)展,語音朗讀已經(jīng)成為各種終端設(shè)備上一種重要的功能,為終端用戶提供聽覺享受,帶來全新的閱讀體驗。但是,目前市面上的語音朗讀軟件和已公布的文件語音朗讀方法,基本上都是逐頁朗讀,不對內(nèi)容進行識別區(qū)分,方式單一。即使是某些支持拖放朗讀的語音軟件,也必須在人工的干預(yù)下才能夠?qū)崿F(xiàn)。比如,隨讀語音朗讀(Free Read)軟件,需要使用者手工選中部分文字來實現(xiàn)拖放朗讀。這對于使用者而言,靈活性差, 方式單一。在申請?zhí)枮?0091015U84. 3的中國專利申請“一種提供文本信息朗讀服務(wù)的系統(tǒng)和方法”中,提供了一種能夠?qū)崟r主動地為用戶提供文本的朗讀服務(wù)的方法。在該方法中,首先制作含有控制標識符的文本文件,其中,控制標識符用于根據(jù)語義標識不同類型的文本內(nèi)容,包括用于標識普通文本的控制標識符、用于標識作者注的控制標識符和用于標識重點內(nèi)容的控制標識符;接著,根據(jù)用戶的訂閱請求將文本文件對應(yīng)的文本流按照預(yù)定的順序發(fā)送到無線朗讀終端,該發(fā)送過程支持斷點傳輸;最后,無線朗讀終端將該文本流合成為語音文件并播放。此外,為了滿足使用者的高級聽覺享受,所制作的文本文件中還可包括用于控制語音合成效果的合成效果標識符,無線朗讀終端根據(jù)該合成效果標識符將文本流合成為富有豐富表現(xiàn)力的語音文件。該方法存在如下問題1、僅根據(jù)語義區(qū)分不同文本內(nèi)容的屬性,不能有效地、正確地識別版面復(fù)雜的數(shù)字文件中的文本內(nèi)容的屬性;2、由于不涉及對圖片與其圖說的關(guān)聯(lián)關(guān)系的識別,因此,不能適用于包含圖片的數(shù)字文件的語音朗讀,尤其是對于圖片表達豐富的信息的數(shù)字文件,圖片的缺失必然導(dǎo)致大量信息的缺失,從而導(dǎo)致朗讀內(nèi)容不連貫或者錯誤;3、該方法可允許用戶訂閱文本文件中的不同文本內(nèi)容, 但是不能夠?qū)崿F(xiàn)朗讀過程中的段落跳轉(zhuǎn),而且用戶不能根據(jù)自己的需要為不同內(nèi)容設(shè)置不同的朗讀方式和閱讀順序,使用靈活性差。
發(fā)明內(nèi)容
為了解決以上問題,本發(fā)明提供一種基于智能標引的文件語音化處理方法和系統(tǒng),以增加文件語音化的靈活性和多樣性。對于文本內(nèi)容的語音化,本發(fā)明提供的基于智能標引的文件語音化處理方法包括以下步驟a.解析文件,提取原始文字塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息中的至少一種;b.對原始文字塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性和構(gòu)建文章;c.建立文本信息列表,該列表描述不同文章之間和 /或同一文章中的文本內(nèi)容之間的數(shù)據(jù)關(guān)系及閱讀順序;d.將文本信息列表中的信息傳入語音庫中,以按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀,其中輸出順序與閱讀順序相同或基于閱讀順序修改而成。優(yōu)選地,標引步驟包括根據(jù)原始文字塊信息對原始文字塊進行合并,得到合并文字塊;根據(jù)合并文字塊的樣式信息標定合并文字塊的內(nèi)容屬性;對合并文字塊進行再合并,構(gòu)建文章。為了實現(xiàn)以上方法,本發(fā)明相應(yīng)地提供了一種基于智能標引的語音化處理系統(tǒng), 該系統(tǒng)包括文件解析單元、文字塊標引單元、文本信息列表建立單元和語音庫。優(yōu)選地,還可包括用戶交互界面,通過該界面,用戶可根據(jù)自己的需要調(diào)整閱讀順序和配置語音庫的處理參數(shù)。對于包括文字內(nèi)容和圖片及其圖說的文件,本發(fā)明提供的基于智能標引的文件語音化處理方法進一步包括以下步驟在步驟a中,進一步包括提取圖片塊信息,所述圖片塊信息包括圖片塊的位置信息;在步驟b中,進一步包括對圖片塊進行標引,以關(guān)聯(lián)圖片塊與原始文字塊中的圖說文字塊;在步驟c中,在所建立的文本信息列表中,還包括圖片塊與相應(yīng)的圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息,所述閱讀順序中還包括圖說文字塊和圖片塊的閱讀順序;在步驟d中,還將文本信息列表中的圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息傳入語音庫中。優(yōu)選地,標引步驟包括根據(jù)原始文字塊信息對原始文字塊進行合并,得到合并文字塊;根據(jù)合并文字塊的樣式信息標定合并文字塊的內(nèi)容屬性;將每個選定圖片塊與相應(yīng)的圖說文字塊進行關(guān)聯(lián);合并文字塊和圖片塊,從而構(gòu)建文章。為了實現(xiàn)以上方法,本發(fā)明相應(yīng)地提供了一種基于智能標引的語音化處理系統(tǒng), 該系統(tǒng)包括文件解析單元、文字塊標引單元、圖片關(guān)聯(lián)單元、文本信息列表建立單元和語音庫。優(yōu)選地,還可包括用戶交互界面,通過該界面,用戶可根據(jù)自己的需要調(diào)整閱讀順序和配置語音庫的處理參數(shù)。本發(fā)明通過對待語音化文件進行智能標引,根據(jù)文本內(nèi)容、位置、字體、字號等樣式信息將文本內(nèi)容識別為多個內(nèi)容屬性不同的文本塊,并建立文本塊之間的閱讀順序和配置語音庫的處理參數(shù),從而實現(xiàn)不同文本塊、不同段落的不同語音化方式以及語音化過程中的段落跳轉(zhuǎn),增加了文件語音化的靈活性和多樣性,提高了閱讀的趣味性。對于包含圖片的文件,將圖片與圖說文本塊相關(guān)聯(lián),并將這些關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息語音化。 此外,通過用戶交互界面,實現(xiàn)了用戶定制功能,進一步增加了文件語音化的靈活性。
圖1是根據(jù)本發(fā)明的第一實施例的基于智能標引的文件語音化處理方法的流程圖;圖2是根據(jù)本發(fā)明的第一實施例的基于智能標引的文件語音化處理系統(tǒng)的框圖;圖3是根據(jù)本發(fā)明的第二實施例的基于智能標引的文件語音化處理方法的流程圖;圖4是根據(jù)本發(fā)明的第二實施例的基于智能標引的文件語音化處理系統(tǒng)的框圖;圖5是根據(jù)本發(fā)明的示例的基于智能標引的文件語音朗讀方法的流程圖;圖6是原始文字塊經(jīng)過聚類分析形成多個原始文字塊集合的效果圖;圖7是經(jīng)過排序的合并文字塊的效果圖8是語音朗讀參數(shù)配置交互界面的示意圖。
具體實施例方式本發(fā)明提供一種數(shù)字文件的語音化功能,主要應(yīng)用于滿足以下條件的數(shù)字文件 能夠自動提取其中的原始文字塊信息和圖片塊信息,從而能夠按照內(nèi)容屬性或者其它可以區(qū)分文本身份的屬性對文本內(nèi)容進行劃分,比如PDF文件、CEBX文件。以下,將結(jié)合附圖和實施例對本發(fā)明進行詳細描述。(第一實施例)在本實施例中,語音化對象為滿足上述條件的數(shù)字文件中所包含的文本內(nèi)容。圖 1是根據(jù)本實施例的基于智能標引的文件語音化處理方法的流程圖。參照圖1,該方法包括以下步驟步驟Sl 1、文件解析步驟在該步驟中,對待語音化文件進行解析,提取原始文字塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息,樣式信息包括字體、字號、序號等 fn息ο步驟S12、文字塊標引步驟在該步驟中,對原始文字塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性和構(gòu)建文章。在本發(fā)明中,為了能夠?qū)崿F(xiàn)文本內(nèi)容的正確識別,優(yōu)選根據(jù)原始文字塊信息中所包含的位置、字體、字號等信息利用相近、相似等原則對原始文字塊進行標引,例如可采用申請?zhí)枮?00710179938. 4的中國專利申請“一種基于PDF的復(fù)雜版面的標引方法”中所公開的文字塊標引方法來對PDF等滿足上述條件的數(shù)字文件進行標引。步驟S13、文本信息列表建立步驟在該步驟中,建立文本信息列表,在該列表中,描述不同文章之間和/或同一文章的文本內(nèi)容之間的數(shù)據(jù)關(guān)系及閱讀順序,這里,閱讀順序是指正被語音化處理的文件原有的閱讀順序,該閱讀順序通過以上標引步驟確定。步驟S15、語音化步驟在該步驟中,將文本信息列表中的文本內(nèi)容傳入語音庫中,以按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀,這里,輸出順序可與閱讀順序相同,或者基于閱讀順序修改而成。在優(yōu)選實施例中,用戶可從文件中選取特定文件內(nèi)容,并基于閱讀順序而生成有關(guān)這些特定文件內(nèi)容的輸出順序。優(yōu)選地,該方法還可包括用戶交互步驟,在該步驟中,向用戶提供文本信息列表中的信息,用戶根據(jù)這些信息基于閱讀順序獲得輸出順序、和/或配置語音庫的處理參數(shù)、和 /或選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀。然后,可將用戶設(shè)置的輸出順序傳送到語音庫中,語音庫根據(jù)該輸出順序按照默認的或用戶配置的語音庫處理參數(shù)生成語音記錄文件或產(chǎn)品或者進行語音朗讀。優(yōu)選地,在語音化步驟中,可按閱讀順序建立待朗讀文件的章節(jié)目錄,用于生成語音記錄文件或產(chǎn)品或者進行語音朗讀。此時,可提供視頻或音頻的用戶交互界面,供用戶從這些章節(jié)目錄中選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀的起始點和/或中斷點(例如結(jié)束點),以從起始點進行語音朗讀,和/或,至中斷點中斷語音朗讀。優(yōu)選地,可緩存記錄章節(jié)目錄和/或朗讀起始點和/或朗讀中斷點(例如結(jié)束點),從而有利于例如分多次為用戶朗讀。優(yōu)選地,可以在將所生成的語音記錄文件或產(chǎn)品緩存在用戶終端中,實現(xiàn)斷點續(xù)讀,即,當由于用戶自行中斷朗讀或者其它原因?qū)е吕首x中斷時,可記錄中斷的文本內(nèi)容的位置,并在下次開始朗讀時,從該中斷位置繼續(xù)朗讀,而不必重復(fù)已經(jīng)朗讀過的內(nèi)容。圖2是實現(xiàn)圖1所示方法的文件語音化處理系統(tǒng)。參照圖2,該系統(tǒng)包括文件解析單元11,用于對待語音化文件進行解析,提取原始文字塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息,其中樣式信息可為以下中的至少一種字體、字號、序號;文字塊標引單元12,用于對原始文字塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性和構(gòu)建文章;文本信息列表建立單元13,用于建立文本信息列表,并將文本信息列表中的信息傳入語音庫14中,其中,所述文本信息列表描述不同文章之間和/或同一文章中的文本內(nèi)容之間的數(shù)據(jù)關(guān)系及閱讀順序;語音庫14,用于將文本信息列表中的信息按照輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀。優(yōu)選地,該系統(tǒng)還可包括用戶交互界面15。在該界面中,默認顯示文本信息列表中的信息,用戶可根據(jù)這些信息基于閱讀順序獲得輸出順序、和/或配置語音庫的處理參數(shù)、 和/或選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀。然后,用戶交互界面15將用戶設(shè)置的輸出順序和/或語音庫處理參數(shù)發(fā)送給語音庫14,語音庫14根據(jù)該輸出順序按照語音庫默認的處理參數(shù)或者用戶設(shè)置的語音庫處理參數(shù)生成語音記錄文件或產(chǎn)品或者進行語音朗讀。此時,可提供視頻或音頻的用戶交互界面。基于閱讀順序通過用戶交互界面確定的輸出順序可經(jīng)由文本信息列表建立單元13發(fā)送到語音庫14或者直接發(fā)送到語音庫14。優(yōu)選地,語音庫14可按閱讀順序建立待朗讀文件的章節(jié)目錄,用于生成語音記錄文件或產(chǎn)品或者進行語音朗讀。此時,通過用戶交互界面,用戶根據(jù)這些章節(jié)目錄選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀的起始點以從該起始點進行語音朗讀,和/或確定如前所述的輸出順序。優(yōu)選地,在存在緩存器18時,可將所生成的語音記錄文件或產(chǎn)品緩存在緩存器18 中,實現(xiàn)斷點續(xù)讀,即,當由于用戶自行中斷朗讀或者其它原因?qū)е吕首x中斷時,可記錄中斷的文本內(nèi)容的位置,并在下次開始朗讀時,從該中斷位置開始朗讀,而不必重復(fù)已經(jīng)朗讀過的內(nèi)容。該用戶交互界面可與圖2中所示用戶交互界面15融合或者可單獨提供?;蛘撸?也可由單獨的模塊來建立待朗讀文件的章節(jié)目錄。從以上描述可看出,本發(fā)明通過智能標引將文本內(nèi)容識別為多個內(nèi)容屬性不同的文本塊,并建立文本塊之間的閱讀順序和配置語音庫的處理參數(shù),從而實現(xiàn)不同文本塊、不同段落的不同語音化方式以及語音化過程中的段落跳轉(zhuǎn),增加了語音化的靈活性和多樣性,提高了閱讀的趣味性。此外,通過用戶交互界面,實現(xiàn)了用戶定制功能,進一步增加了語音化的靈活性。(第二實施例)
在本實施例中,語音化對象包括滿足上述條件的數(shù)字文件中所包含的文本內(nèi)容和圖片信息。圖3是根據(jù)本發(fā)明的第二實施例的基于智能標引的文件語音化處理方法的流程圖。參照圖3,該方法包括以下步驟步驟S31、文件解析步驟在該步驟中,解析待語音化文件,提取原始文字塊信息和圖片塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息中的至少一種,圖片塊信息包括圖片塊的位置信息。步驟S32、文字塊和圖片塊標引步驟在該步驟中,對原始文字塊和圖片塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性、關(guān)聯(lián)圖片塊與圖說文字塊和構(gòu)建文章,其中,文字塊的標引步驟,即,合并、標定、 再合并等步驟與圖1中的步驟S12相同。該步驟與步驟S12的不同之處在于,增加了關(guān)聯(lián)圖片塊與圖說文字塊(S卩,內(nèi)容屬性為圖說的文字塊)的步驟,并且在構(gòu)建文章時對合并文字塊和圖片塊進行再合并,即,除了對合并文字塊進行再合并之外,還將圖片塊附加到相應(yīng)圖說文字塊處。在具體實現(xiàn)該步驟時,遍歷每個選定圖片塊(例如文件中的每個圖片塊),并將每個選定圖片塊與相應(yīng)圖說文字塊進行關(guān)聯(lián),其中,例如可利用申請?zhí)枮?00810239369. 2的中國專利申請“一種版式文件圖文自動關(guān)聯(lián)的方法與系統(tǒng)”中的圖片關(guān)聯(lián)方法來實現(xiàn)該步驟。步驟S33、文本信息列表建立步驟在該步驟中,建立文本信息列表,該列表描述不同文章之間和/或同一文章的文本內(nèi)容之間的數(shù)據(jù)關(guān)系、圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息以及閱讀順序,這里,閱讀順序不僅包括不同文章之間的閱讀順序和/或同一文章中的不同文本內(nèi)容之間的閱讀順序,而且還包括與圖說文字塊和圖片塊的閱讀順序,圖片信息可包括對圖片內(nèi)容的描述、圖片的大小等內(nèi)容。步驟S34、語音化步驟在該步驟中,配置語音庫的參數(shù),并將文本信息列表中的信息(包括文本內(nèi)容、圖片塊與相應(yīng)圖說文本塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息)傳入語音庫中,以按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀。與第一實施例相同,優(yōu)選地,還可包括用戶交互步驟。當然,用戶可根據(jù)需要通過交互步驟選擇是否輸出文件中的圖片內(nèi)容。圖4是實現(xiàn)圖3所示方法的文件語音化處理系統(tǒng)。參照圖4,該系統(tǒng)與圖2所示系統(tǒng)的區(qū)別在于,還包括圖片關(guān)聯(lián)單元16。圖片關(guān)聯(lián)單元16用于遍歷每個選定圖片塊(例如文件中的每個圖片塊),并將每個選定圖片塊與從文字塊標引單元12接收的相應(yīng)圖說文字塊進行關(guān)聯(lián)。在該系統(tǒng)中,文件解析單元11不僅提取原始文字塊信息,而且還提取圖片塊信息。文字塊標引單元12根據(jù)從圖片關(guān)聯(lián)單元16接收的圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系對原始文字塊和圖片塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性、關(guān)聯(lián)圖片塊與圖說文字塊和構(gòu)建文章,并將建立文本信息列表所需的標引信息發(fā)送給文本信息列表建立單元13。文本信息列表建立單元13在建立文本信息列表時將圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息并入到文本信息列表中,然后將文本信息列表中的信息(包括文本內(nèi)容、圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息)傳入語音庫14中。語音庫14將文本信息列表中的信息(包括文本內(nèi)容、圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息)按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀。從以上描述可看出,第二實施例可將圖片信息語音化,從而實現(xiàn)了復(fù)雜版面中文本內(nèi)容和圖片信息的自動語音化。以下,將通過一個具體的示例來對第二實施例的具體實現(xiàn)進行詳細描述。在本示例中,可采用申請?zhí)枮?00710179938.4的中國專利申請“一種基于PDF的復(fù)雜版面的標引方法”中所公開的文字塊標引方法來對PDF文件進行標引。圖5是該示例的方法流程圖。參照圖5,具體流程如下步驟S51:文件解析步驟在本示例中,導(dǎo)入PDF文件,并對該PDF文件進行解析,以獲得版面上的全部的文字內(nèi)容、文字的位置、字體、字號、序號等樣式信息,從而得到一個原始文字塊的列表和圖片塊列表。通過原始文字塊列表和圖片塊列表可形成文本信息列表,例如通過下述步驟 S52-S57獲得文本信息列表。對于原始文字塊列表,由于PDF排版軟件對文字進行了位置控制,因此,從PDF文件中提取到的是很多個小的文字塊,基本上是每個字符對應(yīng)一個小的文字塊。關(guān)于原始文字塊列表的詳細內(nèi)容,例如可參見上述申請?zhí)枮?00710179938. 4的中國專利申請。對于圖片塊列表,主要是用于遍歷圖片塊。步驟S52、文字塊聚類步驟在該步驟中,根據(jù)原始文字塊的位置關(guān)系和樣式信息,比如,距離、字體、字號等信息,對原始文字塊進行聚類分析,得到多個原始文字塊的集合。該步驟也可以理解為將單個字符的文字塊連接形成獨立成句或獨立成段的文字塊。在本示例中,經(jīng)過步驟S51和S52之后,得到多個文字塊集合,如圖6所示。在圖 6中,每個文字塊集合均用方框標出,文字塊集合左前的數(shù)字表示該文字塊集合的序號。步驟S53、文字塊合并步驟在該步驟中,根據(jù)排版類型對每個集合中的原始文字塊按位置進行排序,并對該集合內(nèi)的所有原始文字塊的文本內(nèi)容、區(qū)域、字號、字體等進行合并,得到合并文字塊。此時,已經(jīng)將文字塊(獨立成句的文字塊或獨立成段的文字塊)按照排版類型的自然順序排序。本示例中,經(jīng)過步驟S53之后,原始文字塊合并后的效果如圖7所示。在圖7中, 其中雙邊框文字塊與單邊框文字塊內(nèi)容屬性不相同;雙邊框文字塊為子標題,例如序號為 1、4的文字塊;單邊框文字塊為段落正文,例如,序號為2、3、5、6的文字塊。步驟S54、文字塊標定步驟在該步驟中,按合并文字塊的樣式信息(比如字號)標定合并文字塊的內(nèi)容屬性, 例如指明文字塊為標題、正文或圖說。此步驟實際上是對每個文字塊添加身份識別的屬性。步驟S55、圖片關(guān)聯(lián)步驟在該步驟中,遍歷圖片塊列表,計算圖說文字塊與圖片塊之間的位置關(guān)系,然后根據(jù)所計算的位置關(guān)系判定圖片塊與圖說文字塊的近鄰關(guān)系,并將判定為最近鄰的圖說文字塊與該圖片塊關(guān)聯(lián)對圖片與圖說進行自動關(guān)聯(lián)。在一個實施例中,步驟S55也可在步驟S53 之前執(zhí)行,從而在步驟S53中將文字塊和圖片塊合并為圖文塊。步驟S56、文字塊和圖片塊成文步驟在該步驟中,對多個合并文字塊、圖片塊進行再合并,比如,可采用人工干預(yù)的方法或者可根據(jù)文字塊的位置、排版類型、樣式信息、語義和詞性信息以及圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系中的至少一種智能判定閱讀順序后再對合并文字塊和圖片塊進行再合并,從而構(gòu)建文章。在人工干預(yù)的情況下,根據(jù)本發(fā)明的文件語音化處理系統(tǒng)還應(yīng)包括用于用戶手工合并文字塊的交互界面。步驟S57、文本信息列表建立步驟在該步驟中,根據(jù)文章之間的位置關(guān)系、單篇文章的文本內(nèi)容之間的內(nèi)容屬性、圖片塊與圖說文字塊的關(guān)聯(lián)關(guān)系形成文本信息列表??苫谖谋拘畔⒘斜碇械母鞣N信息確定文件語音化的處理參數(shù),從而實現(xiàn)所希望的語音輸出方式。例如,在一個實施例中,可按所希望的輸出順序朗讀文件內(nèi)容。例如,針對文章之間,第一篇文章結(jié)束后跳轉(zhuǎn)到最后一篇文章,最后一篇文章結(jié)束后對第二篇文章進行朗讀;針對單篇文章的內(nèi)容,對文章標題進行重讀,正文進行輕讀,文章第一段內(nèi)容朗讀結(jié)束后,對第二段內(nèi)容進行重復(fù)朗讀,第四段內(nèi)容朗讀結(jié)束后直接跳到最后一段,對最后一段進行朗讀時要放慢語速等。步驟S58、語音朗讀步驟在該步驟中,配置語音庫的各種參數(shù),將在步驟S57中建立的文本信息列表中的信息(包括文本內(nèi)容、圖片塊與圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息)傳入語音庫中,進行語音朗讀。此外,如上所述,用戶可根據(jù)自己的需要提前對文本信息列表中的信息進行預(yù)制, 例如提前設(shè)置好文章之間的輸出順序。在本示例中,用戶可通過圖8所示的用戶交互界面來配置文本信息列表的描述參數(shù)。圖8所示交互界面由“閱讀順序”、“重讀”和“語音特點” 三部分組成。首先,對“閱讀順序”進行說明。導(dǎo)入PDF文件后,根據(jù)標引結(jié)果,“文章閱讀順序” 列表中列出版面中解析出的所有文章標題,選中列表中的某篇文章后,“內(nèi)容閱讀順序”列表中加載解析出的該篇文章的標題及所有段落,段落名稱由“段落”二字和當前的段落序號組成;選中“文章閱讀順序”或“內(nèi)容閱讀順序”列表中的某一項,鼠標按下,拖動,放開,即可改變選中項在列表中的位置。此時,輸出順序即為列表項目的排列順序,這些列表項目構(gòu)成了按輸出順序建立的待朗讀文件的章節(jié)目錄。然后,在“重讀”部分中預(yù)制當前文章或當前段落朗讀的重復(fù)次數(shù)?!靶枰刈x的文章”指的是“文章閱讀順序”列表中選中的文章,“需要重讀的內(nèi)容”指的是“內(nèi)容閱讀順序”列表中選中的段落或標題。最后,“語音特點”部分包括語速和發(fā)聲方式兩項。語速分快、中、慢三個等級,發(fā)生方式分為男聲和女聲。用戶設(shè)置好輸出順序和語音庫參數(shù)之后,點擊“確定”按鈕時,可開始進行語音朗讀。
以上示例以“語音朗讀”為例說明本發(fā)明的技術(shù)方案。不過,應(yīng)該理解,語音朗讀僅為語音化的一種實施方式,本發(fā)明所述“語音化”還包括將文件生成語音記錄文件或產(chǎn)品。 同樣,如上所述,在將文本信息列表中的信息(包括文本內(nèi)容和圖片內(nèi)容)按照輸出順序生成語音記錄文件或產(chǎn)品的情況下,可將所生成的語音記錄文件或產(chǎn)品緩存在緩存器中。當朗讀中斷時,還可將斷點緩存在緩存器中,下次進行朗讀時,從該斷點開始進行朗讀。同樣,如上所述,本發(fā)明方法并不局限于PDF文件,若文件的內(nèi)容可以按照內(nèi)容屬性(或是其它可以區(qū)分身份的屬性)進行劃分,則根據(jù)配置頁面預(yù)制文本信息列表的描述參數(shù),同樣可以實現(xiàn)多樣化的語音朗讀。應(yīng)該理解,圖8所示用戶交互界面僅僅是用于示例性目的,任何可根據(jù)以上信息基于閱讀順序定制輸出順序的界面形式都應(yīng)包括在本發(fā)明的保護范圍內(nèi)。比如,還可通過拖放條的形式來設(shè)置語音朗讀的起始點?;蛘?,可將“閱讀順序”部分中的選項設(shè)置為單選項或復(fù)選項,這樣用戶可僅選擇部分內(nèi)容建立實際輸出順序,以生成語音記錄文件或產(chǎn)品或者進行語音朗讀。以上已參照附圖和實施例對本發(fā)明進行了詳細描述,但是,應(yīng)該理解,本發(fā)明并不限于以上所公開的具體實施例,任何本領(lǐng)域的技術(shù)人員在此基礎(chǔ)之上容易想到的修改和變型都應(yīng)包括在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.一種基于智能標引的文件語音化處理方法,包括以下步驟a.解析文件,提取原始文字塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息中的至少一種;b.對原始文字塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性和構(gòu)建文章;c.建立文本信息列表,該列表描述不同文章之間和/或同一文章中的文本內(nèi)容之間的數(shù)據(jù)關(guān)系及閱讀順序;d.將文本信息列表中的信息傳入語音庫中,以按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀,其中輸出順序與閱讀順序相同或基于閱讀順序修改而成。
2.根據(jù)權(quán)利要求1所述的文件語音化處理方法,其特征在于,進一步包括 在步驟a中,進一步包括提取圖片塊信息,所述圖片塊信息包括圖片塊的位置信息; 在步驟b中,進一步包括對圖片塊進行標引,以關(guān)聯(lián)圖片塊與原始文字塊中的圖說文字塊;在步驟c中,在所建立的文本信息列表中,還包括圖片塊與相應(yīng)的圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息,所述閱讀順序中還包括圖說文字塊和圖片塊的閱讀順序;在步驟d中,還將文本信息列表中的圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息傳入語音庫中。
3.根據(jù)權(quán)利要求1或2所述的文件語音化處理方法,其特征在于,步驟b包括以下步驟根據(jù)原始文字塊信息對原始文字塊進行合并,得到合并文字塊; 根據(jù)合并文字塊的樣式信息標定合并文字塊的內(nèi)容屬性; 對合并文字塊進行再合并,構(gòu)建文章;如果執(zhí)行提取圖像塊信息的步驟,則進一步包括將每個選定圖片塊與相應(yīng)的圖說文字塊進行關(guān)聯(lián);合并文字塊和圖片塊,從而構(gòu)建文章。
4.根據(jù)權(quán)利要求3所述的文件語音化處理方法,其特征在于,在對原始文字塊進行合并時,首先根據(jù)原始文字塊的位置關(guān)系和/或樣式信息對原始文字塊進行聚類分析,得到多個原始文字塊的集合;然后根據(jù)排版類型對每個集合中的原始文字塊按位置進行排序,并根據(jù)所述集合內(nèi)的原始文字塊的文本內(nèi)容、區(qū)域、字號、字體中的至少一種進行文字塊合并,得到合并文字塊;和/或在對合并文字塊進行再合并時,采用人工干預(yù)的方法或者根據(jù)文字塊的位置、排版類型、樣式信息、語義和詞性信息中的至少一種智能判定閱讀順序后再對合并文字塊進行再合并;如果執(zhí)行提取圖像塊信息的步驟,則在對圖片塊與圖說文字塊進行關(guān)聯(lián)時,首先計算圖片塊與圖說文字塊之間的位置關(guān)系;然后根據(jù)所計算的位置關(guān)系判定圖片塊與圖說文字塊的近鄰關(guān)系,并將判定為最近鄰的圖說文字塊與該圖片塊關(guān)聯(lián);在對合并文字塊和圖片塊進行再合并時,優(yōu)選地采用人工干預(yù)的方法或者根據(jù)文字塊的位置、排版類型、樣式信息、語義和詞性信息以及圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系中的至少一種智能判定閱讀順序后再對合并文字塊和圖片塊進行再合并。
5.根據(jù)權(quán)利要求1或2所述的文件語音化處理方法,其特征在于,所述語音庫的處理參數(shù)包括朗讀速度、重讀參數(shù)、發(fā)聲方式中的至少一種。
6.根據(jù)權(quán)利要求1或2所述的文件語音化處理方法,其特征在于,進一步包括用戶交互步驟,在該步驟中,向用戶提供文本信息列表中的信息,用戶根據(jù)這些信息基于閱讀順序獲得輸出順序、和/或配置語音庫的處理參數(shù)、和/或選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀。
7.根據(jù)權(quán)利要求1或2所述的文件語音化處理方法,其特征在于,進一步包括按閱讀順序建立所述文件的章節(jié)目錄,用于生成語音記錄文件或產(chǎn)品或者進行語音朗讀。
8.根據(jù)權(quán)利要求7所述的文件語音化處理方法,其特征在于,進一步包括提供視頻或音頻的用戶交互界面,供用戶根據(jù)所述章節(jié)目錄選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀的起始點和/或中斷點,優(yōu)選地緩存記錄章節(jié)目錄和/或由用戶選擇的起始點和/ 或中斷點。
9.一種基于智能標引的文件語音化處理系統(tǒng),包括文件解析單元,用于對文件進行解析,提取原始文字塊信息,其中,原始文字塊信息包括原始文字塊的文本內(nèi)容、位置信息和樣式信息中的至少一種;文字塊標引單元,用于對原始文字塊進行標引,以合并文字塊、標定合并文字塊的內(nèi)容屬性和構(gòu)建文章;文本信息列表建立單元,用于建立文本信息列表,并將文本信息列表中的信息傳入語音庫中,其中,所述文本信息列表描述不同文章之間和/或同一文章中的文本內(nèi)容之間的數(shù)據(jù)關(guān)系及閱讀順序;語音庫,用于根據(jù)文本信息列表中的信息按輸出順序生成語音記錄文件或產(chǎn)品或者進行語音朗讀,其中輸出順序與閱讀順序相同或基于閱讀順序修改而成。
10.根據(jù)權(quán)利要求9所述的文件語音化處理系統(tǒng),其特征在于,還包括圖片關(guān)聯(lián)單元, 其用于將每個選定圖片塊與原始文字塊中的相應(yīng)的圖說文字塊進行關(guān)聯(lián);其中,文件解析單元還提取圖片塊信息,所述圖片塊信息包括圖片塊的位置信息;文字塊標引單元根據(jù)從圖片關(guān)聯(lián)單元接收的圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系對圖片塊進行標引;文本信息列表建立單元在建立文本信息列表時將圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息并入到文本信息列表中,所述閱讀順序中還包括圖說文字塊和圖片塊的閱讀順序,文本信息列表建立單元將文本信息列表中的文本內(nèi)容和圖片塊與相應(yīng)圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片塊的圖片信息傳入語音庫中。
11.根據(jù)權(quán)利要求9或10所述的文件語音化處理系統(tǒng),其特征在于,所述文字塊標引單元執(zhí)行以下標引步驟根據(jù)原始文字塊信息對原始文字塊進行合并,得到合并文字塊;根據(jù)合并文字塊的樣式信息標定合并文字塊的內(nèi)容屬性;對合并文字塊進行再合并,構(gòu)建文章;在所述系統(tǒng)包括圖片關(guān)聯(lián)單元的情況下,圖片關(guān)聯(lián)單元將每個選定圖片塊與相應(yīng)的圖說文字塊進行關(guān)聯(lián);文字塊標引單元合并文字塊和圖片塊,從而構(gòu)建文章。
12.根據(jù)權(quán)利要求9或10所述的文件語音化處理系統(tǒng),其特征在于,還包括用戶交互界面,在該界面中,默認顯示文本信息列表中的信息,用戶根據(jù)這些信息基于閱讀順序獲得輸出順序、和/或配置語音庫的處理參數(shù)、和/或選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀。
13.根據(jù)權(quán)利要求9或10所述的文件語音化處理系統(tǒng),其特征在于,所述語音庫按閱讀順序建立所述文件的章節(jié)目錄,用于生成語音記錄文件或產(chǎn)品或者進行語音朗讀。
14.根據(jù)權(quán)利要求13所述的文件語音化處理系統(tǒng),其特征在于,進一步包括視頻或音頻的用戶交互界面,供用戶根據(jù)所述章節(jié)目錄選擇生成語音記錄文件或產(chǎn)品或者進行語音朗讀的起始點和/或中斷點,優(yōu)選地緩存記錄章節(jié)目錄和/或由用戶選擇的起始點和/或中斷點。
15.根據(jù)權(quán)利要求9或10所述的文件語音化處理系統(tǒng),其特征在于,還包括緩存器,其用于緩存語音庫生成的語音記錄文件或產(chǎn)品和語音朗讀的起始點和/或中斷點。
全文摘要
本發(fā)明提供基于智能標引的文件語音化處理方法,包括對從數(shù)字文件中提取的原始文字塊和圖片塊進行標引,以合并文字塊、標定文字塊的內(nèi)容屬性、關(guān)聯(lián)圖片塊與圖說文字塊和構(gòu)建文章;建立描述不同文章之間和/或同一文章中的文本內(nèi)容之間的數(shù)據(jù)關(guān)系、圖片塊與圖說文字塊的關(guān)聯(lián)關(guān)系和/或圖片信息及閱讀順序的文本信息列表;將文本信息列表中的信息傳入語音庫中生成語音記錄文件或產(chǎn)品或者進行語音朗讀。相應(yīng)地,提供文件語音化處理系統(tǒng)。本發(fā)明實現(xiàn)了不同文本塊的不同語音化方式以及語音化過程中的段落跳轉(zhuǎn),增加了語音化的靈活性和多樣性,提高了閱讀的趣味性,而且,用戶可預(yù)制閱讀順序和語音庫參數(shù),使用靈活性高。
文檔編號G10L13/08GK102280104SQ20101020420
公開日2011年12月14日 申請日期2010年6月11日 優(yōu)先權(quán)日2010年6月11日
發(fā)明者張軍, 李松峰, 王長橋, 鄧姿 申請人:北京方正飛閱傳媒技術(shù)有限公司, 北大方正集團有限公司