一種音頻處理方法及裝置的制造方法

文檔序號(hào)：10472271閱讀：431來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種音頻處理方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種音頻處理方法及裝置，其中的方法可包括：對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片；采集所述至少一個(gè)音頻分片的指紋信息，并將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)；根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。本發(fā)明能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，有效提升音頻處理的效率和準(zhǔn)確度。
【專利說(shuō)明】
-種音頻處理方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，具體設(shè)及音頻技術(shù)領(lǐng)域，尤其設(shè)及一種音頻處理方法及裝置。
【背景技術(shù)】
[0002] 音頻文件可W分為兩類，一類指音樂(lè)類音頻文件，如歌曲，主要由唱片公司或者網(wǎng) 絡(luò)歌手提供;另一類指非音樂(lè)類音頻文件，包括電臺(tái)類節(jié)目或相聲類等語(yǔ)音類節(jié)目，主要由電臺(tái)主播或表演者所提供。對(duì)于音樂(lè)類音頻文件對(duì)應(yīng)的文本文件（即歌詞文件)一般已由唱片公司或網(wǎng)絡(luò)歌手提供;而對(duì)于非音樂(lè)類音頻文件，由于運(yùn)類音頻文件可能由許多音樂(lè)片斷及人聲混合交叉組合而成，而電臺(tái)主播或表演者并不會(huì)提供相對(duì)應(yīng)的文本文件，因此，針對(duì)非音樂(lè)類音頻文件對(duì)應(yīng)的文本文件的查找及輸出成為一個(gè)空白。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明實(shí)施例提供一種音頻處理方法及裝置，能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，有效提升音頻處理的效率和準(zhǔn)確度。
[0004] 本發(fā)明實(shí)施例第一方面提供一種音頻處理方法，可包括：
[0005] 對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片；
[0006] 采集所述至少一個(gè)音頻分片的指紋信息，并將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)；
[0007] 根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
[000引優(yōu)選地，所述對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，包括：
[0009] 從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片；
[0010] 依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè)音頻分片的時(shí)間屬性；
[0011] 其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。
[0012] 優(yōu)選地，所述對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片之前，還包括：
[0013] 創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，W及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。
[0014] 優(yōu)選地，所述將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)，包括：
[0015] 按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片，將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì)；
[0016] 若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，W及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄；
[0017] 對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，所述比對(duì)結(jié) 果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
[0018] 優(yōu)選地，所述對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，包括：
[0019] 如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量；
[0020] 選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)；
[0021 ]將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理；
[0022] 將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
[0023] 優(yōu)選地，所述根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件，包括：
[0024] 從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì) 應(yīng)的目標(biāo)文本文件；
[0025] 根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段；
[0026] 將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0027] 本發(fā)明實(shí)施例第二方面一種音頻處理裝置，可包括：
[0028] 處理單元，用于對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片；
[0029] 采集單元，用于采集所述至少一個(gè)音頻分片的指紋信息；
[0030] 比對(duì)單元，用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)；
[0031] 獲取單元，用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0032] 優(yōu)選地，所述處理單元包括：
[0033] 音頻分片提取單元，從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù) 置分片時(shí)長(zhǎng)的音頻分片；
[0034] 存儲(chǔ)單元，用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè)音頻分片的時(shí)間屬性；
[0035] 其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。
[0036] 優(yōu)選地，該裝置還包括：
[0037] 創(chuàng)建單元，用于創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，W及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。
[0038] 優(yōu)選地，所述比對(duì)單元包括：
[0039] 當(dāng)前選取單元，用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片；
[0040] 當(dāng)前比對(duì)單元，用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù) 中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì).
[0041] 比對(duì)記錄保存單元，用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，W及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄；
[0042] 去重處理單元，用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
[0043] 優(yōu)選地，所述去重處理單元包括：
[0044] 數(shù)量統(tǒng)計(jì)單元，用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量；
[0045] 標(biāo)識(shí)確定單元，用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)；
[0046] 拼接處理單元，用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理；
[0047] 映射位置確定單元，用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
[004引優(yōu)選地，所述獲取單元包括：
[0049] 查找單元，用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件；
[0050] 文本片段提取單元，用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段；
[0051] 文本文件確定單元，用于將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0052] 本發(fā)明實(shí)施例可W對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息，根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，無(wú)需人工干預(yù)節(jié)省人力成本，并且能夠有效地提升音頻處理的效率和準(zhǔn)確度。
【附圖說(shuō)明】
[0053] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可W 根據(jù)運(yùn)些附圖獲得其他的附圖。
[0054] 圖1為本發(fā)明實(shí)施例提供的一種音頻處理方法的流程圖；
[0055] 圖2為本發(fā)明實(shí)施例提供的另一種音頻處理方法的流程圖；
[0056] 圖3為本發(fā)明實(shí)施例提供的一種音頻處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0057] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0058] 音頻文件可W分為兩類，一類指音樂(lè)類音頻文件，如歌曲；另一類指非音樂(lè)類音頻文件，包括電臺(tái)類節(jié)目或相聲類等語(yǔ)音類節(jié)目。本發(fā)明實(shí)施例的音頻處理方案優(yōu)選適用于對(duì)非音樂(lè)類音頻文件進(jìn)行處理，為了更為準(zhǔn)確地進(jìn)行音頻處理，本發(fā)明后續(xù)各實(shí)施例中所述的音頻文件，優(yōu)選指非音樂(lè)類的、原始音頻格式的文件，即優(yōu)選為8K采樣率、16bit量化位數(shù)、單聲道wav(-種聲音文件格式)文件。若待處理音頻文件為其他音頻格式的文件，例如： MP3(Moving Pierre Experts Group Audio Layer III，動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面 3)、WMA(Windows Media Audio,數(shù)字音頻格式）、APE(-種數(shù)字音頻無(wú)損壓縮格式)等格式的音頻文件，則需要首先對(duì)其進(jìn)行格式轉(zhuǎn)換處理。
[0059] 本發(fā)明實(shí)施例可W對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息，根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，無(wú)需人工干預(yù)節(jié)省人力成本，并且能夠有效地提升音頻處理的效率和準(zhǔn)確度。
[0060] 基于上述描述，本發(fā)明實(shí)施例提供了一種音頻處理方法，請(qǐng)參見(jiàn)圖1，該方法可包括W下步驟S101-步驟S104。
[0061] S101，對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片。
[0062] 偏移分片處理是指每隔一定的偏移時(shí)間即切取一段一定時(shí)長(zhǎng)的音頻分片，例如：假設(shè)偏移時(shí)間為Is,而分片時(shí)長(zhǎng)為10s，那么，可從待處理音頻文件的開(kāi)始位置起，偏移Os時(shí) 切時(shí)長(zhǎng)為10s的第一音頻分片，該第一音頻分片的偏移時(shí)間為Os，起止時(shí)間為Os-lOs;偏移 1S時(shí)切時(shí)長(zhǎng)為10s的第二音頻分片，該第二音頻分片的偏移時(shí)間為1S，起止時(shí)間為1S-11S; 偏移2s時(shí)切時(shí)長(zhǎng)為10s的第Ξ音頻分片，該第Ξ音頻分片的偏移時(shí)間為2s，起止時(shí)間為2s- 12s; W此類推。由此可見(jiàn)，偏移處理后所獲得的至少一個(gè)音頻分片中每個(gè)音頻分片的時(shí)長(zhǎng) 相同，每個(gè)音頻分片所包含的音頻數(shù)據(jù)存在重疊，但每個(gè)音頻分片的起止時(shí)間和偏移時(shí)間均不相同。具體實(shí)現(xiàn)中，可W采用一些音頻處理工具來(lái)對(duì)待處理音頻文件進(jìn)行偏移切片處理，此處的音頻處理工具可W包括但不限于：ffmpeg(化st化rward Mpeg,用于記錄、轉(zhuǎn)換數(shù)字音頻、視頻，并將其轉(zhuǎn)化為流的開(kāi)源計(jì)算機(jī)程序)工具。優(yōu)選地，音頻分片為8K采樣率、 1化i t量化位數(shù)、單聲道wav文件。
[0063] S102,采集所述至少一個(gè)音頻分片的指紋信息。
[0064] 音頻的指紋信息是指可W代表一段音頻的重要聲學(xué)特征、基于該音頻所包含的內(nèi) 容的緊致數(shù)字簽名，具備如下主要優(yōu)點(diǎn):①魯棒性，即使音頻出現(xiàn)比較嚴(yán)重的失真、噪聲、變調(diào)等情況，指紋信息仍然能夠識(shí)別并表征該音頻的重要聲學(xué)特征;②區(qū)分性，一個(gè)指紋信息可唯一標(biāo)識(shí)一段音頻，不同音頻之間的指紋信息具有差異;③可靠性，即通過(guò)指紋信息識(shí)別音頻時(shí)其錯(cuò)誤識(shí)別的概率較低。也就是說(shuō)，音頻分片的指紋信息是指可W代表該音頻分片的重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名。具體實(shí)現(xiàn)中，可W采用一些音頻指紋提取算法來(lái)采集每個(gè)音頻分片的指紋信息，此處的音頻指紋提取算法可包括但不限于:最大指紋特征算法、哈希算法、復(fù)倒譜變換算法、小波包變換算法等等。一個(gè)音頻分片對(duì)應(yīng)一個(gè)指紋信息。
[0065] S103,將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)。
[0066] 預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，W及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。具體實(shí)現(xiàn)中，可依次將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)中的各音頻文件的指紋信息進(jìn)行比對(duì)，如果某個(gè)音頻分片的指紋信息與某個(gè)音頻文件的指紋信息的相似度達(dá)到預(yù)設(shè)值(此處的預(yù)設(shè)值可根據(jù)實(shí)際需要設(shè)定，例如:85%、90%等）W上，那么可認(rèn)為該音頻分片與預(yù)置指紋信息庫(kù)中的該音頻文件相匹配。
[0067] S104,根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0068] 比對(duì)結(jié)果可包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。那么，根據(jù)目標(biāo)音頻文件的標(biāo)識(shí) 可從預(yù)置指紋信息庫(kù)中獲得目標(biāo)音頻文件對(duì)應(yīng)的文本文件，進(jìn)一步，根據(jù)待處理音頻文件在目標(biāo)音頻文件中的映射位置，那么可從目標(biāo)音頻文件對(duì)應(yīng)的文本文件中提取映射位置對(duì) 應(yīng)的文本片段，此文本片段即為待處理音頻文件對(duì)應(yīng)的文本文件。
[0069] 本發(fā)明實(shí)施例的音頻處理方法，可W對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息，根據(jù)比對(duì) 結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，無(wú)需人工干預(yù)節(jié)省人力成本，并且能夠有效地提升音頻處理的效率和準(zhǔn)確度。
[0070] 本發(fā)明實(shí)施例還提供了另一種音頻處理方法，本實(shí)施例的方法側(cè)重于描述如何定位目標(biāo)音頻文件的片頭位置的過(guò)程。請(qǐng)參見(jiàn)圖2,該方法可包括W下步驟S201-步驟S210。
[0071] S201，創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo) 識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，W及所述至少一個(gè) 音頻文件對(duì)應(yīng)的文本文件。
[0072] 本實(shí)施例中，預(yù)置指紋信息庫(kù)可W采用下述表一進(jìn)行表示：
[0073] 表一:預(yù)置指紋信息庫(kù)
[0074]
[0075] 上述表一可知，一個(gè)標(biāo)識(shí)可唯一標(biāo)識(shí)一個(gè)音頻文件，預(yù)置指紋信息庫(kù)中可包含相同名稱不同標(biāo)識(shí)的音頻文件，例如上述表一中的標(biāo)識(shí)為al的歌曲A及標(biāo)識(shí)為a2的歌曲A。預(yù) 置指紋信息庫(kù)中也可包含名稱不同、標(biāo)識(shí)不同的音頻文件，例如上述表一中的標(biāo)識(shí)為b的歌曲B及標(biāo)識(shí)為C的歌曲C。一般地，具備相同名稱不同標(biāo)識(shí)的音頻文件通?？赡苁峭灰魳?lè)的不同版本，例如:歌曲A可包含原唱版、演唱會(huì)版、網(wǎng)絡(luò)版等不同版本。
[0076] S202,從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片。
[0077] S203,依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè)音頻分片的時(shí) 間屬性。其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。
[0078] 本實(shí)施例的步驟S202-S203可W為圖1所示實(shí)施例的步驟S101的具體細(xì)化步驟。步驟S202-S203中，預(yù)置偏移時(shí)間及預(yù)置分片時(shí)長(zhǎng)均可W根據(jù)實(shí)際需要進(jìn)行設(shè)定。本實(shí)施例可假設(shè)預(yù)置偏移時(shí)間為Is,預(yù)置分片時(shí)長(zhǎng)為10s，那么假設(shè)待處理音頻文件為歌曲A，從歌曲A 的開(kāi)始位置即Os的時(shí)刻，偏移Os時(shí)切時(shí)長(zhǎng)為10s的第一音頻分片，該第一音頻分片相對(duì)歌曲 A的起始位置的偏移時(shí)間為Os，起止時(shí)間為Os-lOs;偏移Is時(shí)切時(shí)長(zhǎng)為10s的第二音頻分片，該第二音頻分片相對(duì)歌曲A的起始位置的偏移時(shí)間為1S，起止時(shí)間為1S-11S;偏移2s時(shí)切時(shí) 長(zhǎng)為10s的第Ξ音頻分片，該第Ξ音頻分片相對(duì)歌曲A的起始位置的偏移時(shí)間為2s，起止時(shí) 間為2s-12s;W此類推。所獲得的至少一個(gè)音頻分片可W采用下述表二進(jìn)行表示：
[00巧]表二:音頻分片 [0080]
[0081] S204,采集所述至少一個(gè)音頻分片的指紋信息。本步驟可參見(jiàn)圖1所示實(shí)施例的步驟S102,在此不寶述。
[0082] S205,按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片。
[0083] S206,將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè) 音頻文件的指紋信息進(jìn)行比對(duì)。
[0084] S207,若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，W及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄。
[0085] 步驟S205-S207中，按照偏移時(shí)間由小到大的順序，參照上述表二首先選取第一音頻分片為當(dāng)前音頻分片，將第一音頻分片的指紋信息與預(yù)置指紋信息庫(kù)中的各音頻文件的指紋信息進(jìn)行比對(duì)，如果存在與第一音頻分片的指紋信息相匹配的音頻文件，那么將相匹配的音頻文件的標(biāo)識(shí)和名稱，W及第一音頻分片在相匹配的音頻文件中的映射位置保存為第一音頻分片的一條比對(duì)記錄;然后再按照上述表二依次選取第二音頻分片為當(dāng)前音頻分片，重復(fù)上述步驟。如果預(yù)置指紋信息庫(kù)中不存在與第一音頻分片的指紋信息相匹配的音頻文件，那么直接按照上述表二依次選取第二音頻分片為當(dāng)前音頻分片，重復(fù)上述步驟。經(jīng) 過(guò)步驟S205-S207,可W將待處理音頻文件偏移切片得到的所有音頻分片進(jìn)行比對(duì)，得到若干條比對(duì)記錄。此處需要說(shuō)明的是，由于音頻分片是不完整的音頻數(shù)據(jù)，而預(yù)置指紋信息庫(kù) 中的音頻文件通常是完整的音頻數(shù)據(jù)，因此，音頻分片的指紋信息與音頻文件的指紋信息進(jìn)行比對(duì)的過(guò)程中，除了匹配指紋信息之間的相似度之外，同時(shí)可獲得音頻分片在相匹配的音頻文件中的映射位置，例如:第八音頻分片在歌曲B中的映射位置為第25s開(kāi)始持續(xù)7s; 或者，第九音頻分片在歌曲B中的映射位置為第26s開(kāi)始持續(xù)6s;或者，第十音頻分片在歌曲 B中的映射位置為第27s開(kāi)始持續(xù)5s;等等。
[0086] S208，對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
[0087] 由于音頻分片的數(shù)量較多且相互之間存在重疊，那么所獲得的若干條比對(duì)記錄中包含許多重復(fù)數(shù)據(jù)，為了保證音頻處理的準(zhǔn)確性，本步驟需要對(duì)若干條比對(duì)記錄進(jìn)行去重處理，得到最終的比對(duì)結(jié)果。該方法在執(zhí)行步驟S208的過(guò)程中，具體執(zhí)行如下步驟S11-S14:
[0088] sll，如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì) 與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量。
[0089] sl2,選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)。
[0090] 步驟S11-S12是針對(duì)同名音頻文件的去重步驟，例如:假設(shè)某Ξ條比對(duì)記錄中均包含歌曲A，但歌曲A在Ξ條比對(duì)記錄中的標(biāo)識(shí)不同，分別為標(biāo)識(shí)為al的歌曲A為原唱版，標(biāo)識(shí) 為曰2的歌曲A為演唱會(huì)版，標(biāo)識(shí)為曰3的歌曲A為網(wǎng)絡(luò)版;那么，本步驟則統(tǒng)計(jì)歌曲A不同版本相匹配的音頻分片的數(shù)量，進(jìn)一步假設(shè)與歌曲A的原唱版相匹配的音頻分片的數(shù)量為20片，與歌曲A的演唱會(huì)版相匹配的音頻分片的數(shù)量為18片，與歌曲A的網(wǎng)絡(luò)版相匹配的音頻分片的數(shù)量為16片，由此可見(jiàn)歌曲A的原唱版相匹配的音頻分片的數(shù)量為最多，則可認(rèn)為歌曲A 的原唱版的置信度最高；由于與歌曲A的原唱版相匹配的音頻分片均來(lái)自待處理音頻文件，因此可將歌曲A的原唱版確定為與待處理音頻文件相匹配的目標(biāo)音頻文件，其標(biāo)識(shí)為al。
[0091] sl3,將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理。
[0092] S14,將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
[0093] 步驟S13-S14是針對(duì)重復(fù)音頻分片的去重步驟;如前述例子可知，目標(biāo)音頻文件為歌曲A的原唱版，其相匹配的音頻分片的數(shù)量為20片，那么，運(yùn)20片中出現(xiàn)的連續(xù)音頻分片可W進(jìn)行拼接處理，具體是否連續(xù)可依據(jù)各音頻分片的時(shí)間屬性確定，例如:假設(shè)20片音頻分片為第一音頻分片至第二十音頻分片，其偏移時(shí)間從Os至19s，因此運(yùn)20片音頻分片即為連續(xù)音頻分片，根據(jù)比對(duì)記錄，第一音頻分片在歌曲A的原唱版中的映射位置為第11s開(kāi)始持續(xù)9s，第二音頻分片在歌曲A的原唱版中的映射位置為第12s開(kāi)始持續(xù)8s，W此類推，第二十音頻分片在歌曲A的原唱版中的映射位置為第31s開(kāi)始持續(xù)2s，則可得到拼接處理后的連續(xù)音頻分片在歌曲A的原唱版的映射位置為11S-33S，可確定待處理音頻文件在目標(biāo)音頻文件中的映射位置為11S-33S?？蒞理解的是，上述例子中，如果20片音頻分片中除了連續(xù)音頻分片之外還存在單個(gè)的音頻分片，那么待處理音頻文件在目標(biāo)音頻文件中的映射位置由拼接處理后的連續(xù)音頻分片在目標(biāo)音頻文件中的映射位置，W及單個(gè)音頻分片在目標(biāo)音頻文件中的映射位置共同組成。
[0094] 本實(shí)施例的步驟S204-S208可W為圖1所示實(shí)施例的步驟S103的具體細(xì)化步驟。 [00M] S209,從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件。
[0096] S210，根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo) 文本文件中提取所述映射位置對(duì)應(yīng)的文本片段。
[0097] S211，將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0098] 本實(shí)施例的步驟S209-S211可W為圖1所示實(shí)施例的步驟S104的具體細(xì)化步驟。步驟S209-S211中，由于比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí) W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。那么，根據(jù)目標(biāo)音頻文件的標(biāo)識(shí)可從預(yù)置指紋信息庫(kù)中獲得目標(biāo)音頻文件對(duì)應(yīng)的文本文件，進(jìn)一步，根據(jù)待處理音頻文件在目標(biāo)音頻文件中的映射位置，那么可從目標(biāo)音頻文件對(duì)應(yīng)的文本文件中提取映射位置對(duì)應(yīng)的文本片段，此文本片段即為待處理音頻文件對(duì)應(yīng)的文本文件。按照本實(shí)施例所示例子，待處理音頻文件在歌曲A的原唱版中的映射位置為11S-33S，那么，從歌曲A的原唱版的歌詞文件中提取11S-33S的歌詞片段，確定為待處理音頻文件對(duì)應(yīng)的文本文件。可W 理解的是，由于待處理音頻文件可能由許多音樂(lè)片斷及人聲混合交叉組合而成，因此通過(guò) 本發(fā)明實(shí)施例得到的待處理音頻文件對(duì)應(yīng)的文本文件也可能是由多個(gè)音樂(lè)歌詞片段及語(yǔ) 音文本片段共同構(gòu)成。
[0099] 本發(fā)明實(shí)施例的音頻處理方法，可W對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息，根據(jù)比對(duì) 結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，無(wú)需人工干預(yù)節(jié)省人力成本，并且能夠有效地提升音頻處理的效率和準(zhǔn)確度。
[0100] 基于上述方法實(shí)施例的描述，下面將結(jié)合附圖3,對(duì)本發(fā)明實(shí)施例提供的音頻處理裝置進(jìn)行詳細(xì)介紹。需要說(shuō)明的是，下述的音頻處理裝置可用于執(zhí)行上述圖1-圖2所示的音頻處理方法。具體地，本發(fā)明實(shí)施例提供了一種音頻處理裝置，請(qǐng)一并參見(jiàn)圖3,該裝置運(yùn)行如下單元：
[0101] 處理單元101，用于對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片。
[0102] 采集單元102,用于采集所述至少一個(gè)音頻分片的指紋信息。
[0103] 比對(duì)單元103,用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù) 進(jìn)行比對(duì)。
[0104] 獲取單元104,用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
[0105] 具體實(shí)現(xiàn)中，該裝置在運(yùn)行所述處理單元101的過(guò)程中，具體運(yùn)行如下單元：
[0106] 音頻分片提取單元1001，從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片。
[0107] 存儲(chǔ)單元1002,用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè) 音頻分片的時(shí)間屬性。其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。
[0108] 具體實(shí)現(xiàn)中，該裝置還運(yùn)行如下單元：
[0109] 創(chuàng)建單元105,用于創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，W及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。
[0110] 具體實(shí)現(xiàn)中，該裝置在運(yùn)行所述比對(duì)單元103的過(guò)程中，具體運(yùn)行如下單元：
[0111] 當(dāng)前選取單元2001，用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片。
[0112] 當(dāng)前比對(duì)單元2002,用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì)。
[0113] 比對(duì)記錄保存單元2003,用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，W及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄；
[0114] 去重處理單元2004,用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
[0115] 具體實(shí)現(xiàn)中，該裝置在運(yùn)行所述去重處理單元2004的過(guò)程中，具體運(yùn)行如下單元：
[0116] 數(shù)量統(tǒng)計(jì)單元2401，用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量。
[0117]標(biāo)識(shí)確定單元2402,用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)。
[0118] 拼接處理單元2403,用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理。
[0119] 映射位置確定單元2404，用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
[0120] 具體實(shí)現(xiàn)中，該裝置在運(yùn)行所述獲取單元104的過(guò)程中，具體運(yùn)行如下單元：
[0121] 查找單元3001，用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件。
[0122] 文本片段提取單元3002，用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段。
[0123] 文本文件確定單元3003，用于將所提取的文本片段確定為所述待處理音頻文件對(duì) 應(yīng)的文本文件。
[0124] 由于圖3所示的音頻處理裝置可用于執(zhí)行圖1-圖2所示實(shí)施例的方法，因此，圖3所示的各單元的功能可參見(jiàn)圖1-圖2所示方法各步驟的相關(guān)描述，在此不寶述。需要特別說(shuō)明的是，圖3所示的音頻處理裝置可W是運(yùn)行于實(shí)體設(shè)備中的一個(gè)應(yīng)用程序，并且至少存在W 下兩種可行的實(shí)施方式：
[0125] 在一種可行的實(shí)施方式中，該音頻處理裝置可W是運(yùn)行于一個(gè)實(shí)體設(shè)備中獨(dú)立工作，例如：該音頻處理裝置可W運(yùn)行于一個(gè)終端中，該終端可包括但不限于:PC(Personal Computer,個(gè)人計(jì)算機(jī)）、手機(jī)、PDA(平板電腦）、智能可穿戴設(shè)備等等，由終端獨(dú)立實(shí)現(xiàn)圖1- 圖2所示的方法流程;或者，該音頻處理裝置也可W運(yùn)行于一個(gè)服務(wù)器中，由服務(wù)器獨(dú)立實(shí) 現(xiàn)圖1-圖2所示的方法流程。
[0126] 在另一種可行的實(shí)施方式中，該音頻處理裝置可W是分布運(yùn)行于多個(gè)實(shí)體設(shè)備中，分布部分協(xié)調(diào)工作，例如:該音頻處理裝置的一部分可W運(yùn)行于一個(gè)終端中，而另一部分可W運(yùn)行于一個(gè)服務(wù)器中，由終端與服務(wù)器協(xié)調(diào)工作從而實(shí)現(xiàn)圖1-圖2所示的方法流程。在此實(shí)施方式中，圖3所示的創(chuàng)建單元105、比對(duì)單元103和獲取單元104可W位于服務(wù)器中，而處理單元101和采集單元102可W位于終端中；而對(duì)應(yīng)在執(zhí)行圖1-圖2所示的方法流程時(shí)，創(chuàng)建預(yù)置指紋信息庫(kù)的過(guò)程、比對(duì)過(guò)程W及獲得文本文件的過(guò)程可W發(fā)生于服務(wù)器中，而其他過(guò)程包括獲得至少一個(gè)音頻分片，采集至少一個(gè)音頻分片的指紋信息可W發(fā)生于終端中。具體地，終端可W將音頻分片的指紋信息發(fā)送至服務(wù)器進(jìn)行比對(duì)，服務(wù)器根據(jù)比對(duì)結(jié)果獲取待處理音頻文件對(duì)應(yīng)的文本文件并反饋給終端輸出。
[0127] 與方法同理，本發(fā)明實(shí)施例的音頻處理裝置，可W對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息，根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件，無(wú)需人工干預(yù)節(jié)省人力成本，并且能夠有效地提升音頻處理的效率和準(zhǔn)確度。
[0128] 本領(lǐng)域普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可W 通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì) 中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體（Read-Only Memoir，ROM)或隨機(jī)存儲(chǔ)記憶體（Random Access Memory，RAM)等。
[0129] W上所掲露的僅為本發(fā)明較佳實(shí)施例而已，當(dāng)然不能W此來(lái)限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。
【主權(quán)項(xiàng)】
1. 一種音頻處理方法，其特征在于，包括：對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片；采集所述至少一個(gè)音頻分片的指紋信息，并將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)；根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。2. 如權(quán)利要求1所述的方法，其特征在于，所述對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片，包括：從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片；依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè)音頻分片的時(shí)間屬性；其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。3. 如權(quán)利要求1或2所述的方法，其特征在于，所述對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片之前，還包括：創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，以及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。4. 如權(quán)利要求3所述的方法，其特征在于，所述將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)，包括：按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片，將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì)；若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，以及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄；對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié)果，所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)以及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。5. 如權(quán)利要求4所述的方法，其特征在于，所述對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn) 行去重處理，獲得比對(duì)結(jié)果，包括：如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì)與所述標(biāo) 識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量；選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)；將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理；將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。6. 如權(quán)利要求5所述的方法，其特征在于，所述根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件，包括：從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件；根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段；將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。7. -種音頻處理裝置，其特征在于，包括：處理單元，用于對(duì)待處理音頻文件進(jìn)行偏移切片處理，獲得至少一個(gè)音頻分片；采集單元，用于采集所述至少一個(gè)音頻分片的指紋信息；比對(duì)單元，用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)；獲取單元，用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。8. 如權(quán)利要求7所述的裝置，其特征在于，所述處理單元包括：音頻分片提取單元，從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片；存儲(chǔ)單元，用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片，并記錄所述至少一個(gè)音頻分片的時(shí)間屬性；其中，一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始位置的偏移時(shí)間。9. 如權(quán)利要求7或8所述的裝置，其特征在于，還包括：創(chuàng)建單元，用于創(chuàng)建預(yù)置指紋信息庫(kù)，所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息，以及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。10. 如權(quán)利要求9所述的裝置，其特征在于，所述比對(duì)單元包括：當(dāng)前選取單元，用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片；當(dāng)前比對(duì)單元，用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì)；比對(duì)記錄保存單元，用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋信息相匹配，則將相匹配的音頻文件的標(biāo)識(shí)和名稱，以及所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄；去重處理單元，用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理，獲得比對(duì)結(jié) 果，所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)以及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。11. 如權(quán)利要求10所述的裝置，其特征在于，所述去重處理單元包括：數(shù)量統(tǒng)計(jì)單元，用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件，分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量；標(biāo)識(shí)確定單元，用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)；拼接處理單元，用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理；映射位置確定單元，用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。12.如權(quán)利要求11所述的裝置，其特征在于，所述獲取單元包括：查找單元，用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件；文本片段提取單元，用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置，從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段；文本文件確定單元，用于將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
【文檔編號(hào)】G06F17/30GK105825850SQ201610286452
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】孫嘉駿, 王志豪, 趙偉峰, 楊雍, 車斌, 周旋, 許華彬
【申請(qǐng)人】騰訊科技（深圳）有限公司

完整全部詳細(xì)技術(shù)資料下載