国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種音頻處理方法及裝置的制造方法

      文檔序號(hào):10472271閱讀:431來(lái)源:國(guó)知局
      一種音頻處理方法及裝置的制造方法
      【專利摘要】本發(fā)明實(shí)施例提供一種音頻處理方法及裝置,其中的方法可包括:對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片;采集所述至少一個(gè)音頻分片的指紋信息,并將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì);根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。本發(fā)明能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件,有效提升音頻處理的效率和準(zhǔn)確度。
      【專利說(shuō)明】
      -種音頻處理方法及裝置
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體設(shè)及音頻技術(shù)領(lǐng)域,尤其設(shè)及一種音頻處理方 法及裝置。
      【背景技術(shù)】
      [0002] 音頻文件可W分為兩類,一類指音樂(lè)類音頻文件,如歌曲,主要由唱片公司或者網(wǎng) 絡(luò)歌手提供;另一類指非音樂(lè)類音頻文件,包括電臺(tái)類節(jié)目或相聲類等語(yǔ)音類節(jié)目,主要由 電臺(tái)主播或表演者所提供。對(duì)于音樂(lè)類音頻文件對(duì)應(yīng)的文本文件(即歌詞文件)一般已由唱 片公司或網(wǎng)絡(luò)歌手提供;而對(duì)于非音樂(lè)類音頻文件,由于運(yùn)類音頻文件可能由許多音樂(lè)片 斷及人聲混合交叉組合而成,而電臺(tái)主播或表演者并不會(huì)提供相對(duì)應(yīng)的文本文件,因此,針 對(duì)非音樂(lè)類音頻文件對(duì)應(yīng)的文本文件的查找及輸出成為一個(gè)空白。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明實(shí)施例提供一種音頻處理方法及裝置,能夠自動(dòng)為非音樂(lè)類音頻文件生成 對(duì)應(yīng)的歌詞、人聲等文本文件,有效提升音頻處理的效率和準(zhǔn)確度。
      [0004] 本發(fā)明實(shí)施例第一方面提供一種音頻處理方法,可包括:
      [0005] 對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片;
      [0006] 采集所述至少一個(gè)音頻分片的指紋信息,并將所述至少一個(gè)音頻分片的指紋信息 分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì);
      [0007] 根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [000引優(yōu)選地,所述對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片,包 括:
      [0009] 從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻 分片;
      [0010] 依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè)音頻分片的時(shí)間屬 性;
      [0011] 其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的 起始位置的偏移時(shí)間。
      [0012] 優(yōu)選地,所述對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片之前, 還包括:
      [0013] 創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所 述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,W及所述至少一個(gè)音頻 文件對(duì)應(yīng)的文本文件。
      [0014] 優(yōu)選地,所述將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比 對(duì),包括:
      [0015] 按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片, 將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指 紋信息進(jìn)行比對(duì);
      [0016] 若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的 指紋信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,W及所述當(dāng)前音頻分片在相匹配 的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄;
      [0017] 對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比對(duì)結(jié)果,所述比對(duì)結(jié) 果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文件在 相匹配的目標(biāo)音頻文件中的映射位置。
      [0018] 優(yōu)選地,所述對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比對(duì)結(jié)果, 包括:
      [0019] 如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件,分別統(tǒng)計(jì)與所 述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量;
      [0020] 選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音 頻文件的標(biāo)識(shí);
      [0021 ]將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理;
      [0022] 將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理 音頻文件在目標(biāo)音頻文件中的映射位置。
      [0023] 優(yōu)選地,所述根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件,包括:
      [0024] 從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì) 應(yīng)的目標(biāo)文本文件;
      [0025] 根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置,從所述目標(biāo)文本文 件中提取所述映射位置對(duì)應(yīng)的文本片段;
      [0026] 將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [0027] 本發(fā)明實(shí)施例第二方面一種音頻處理裝置,可包括:
      [0028] 處理單元,用于對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片;
      [0029] 采集單元,用于采集所述至少一個(gè)音頻分片的指紋信息;
      [0030] 比對(duì)單元,用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行 比對(duì);
      [0031] 獲取單元,用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [0032] 優(yōu)選地,所述處理單元包括:
      [0033] 音頻分片提取單元,從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù) 置分片時(shí)長(zhǎng)的音頻分片;
      [0034] 存儲(chǔ)單元,用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè)音頻 分片的時(shí)間屬性;
      [0035] 其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的 起始位置的偏移時(shí)間。
      [0036] 優(yōu)選地,該裝置還包括:
      [0037] 創(chuàng)建單元,用于創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻 文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,W及所述 至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。
      [0038] 優(yōu)選地,所述比對(duì)單元包括:
      [0039] 當(dāng)前選取單元,用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片 選取當(dāng)前音頻分片;
      [0040] 當(dāng)前比對(duì)單元,用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù) 中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì).
      [0041] 比對(duì)記錄保存單元,用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所 選取的當(dāng)前音頻分片的指紋信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,W及所述 當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記 錄;
      [0042] 去重處理單元,用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比 對(duì)結(jié)果,所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述 待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
      [0043] 優(yōu)選地,所述去重處理單元包括:
      [0044] 數(shù)量統(tǒng)計(jì)單元,用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻 文件,分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量;
      [0045] 標(biāo)識(shí)確定單元,用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文 件相匹配的目標(biāo)音頻文件的標(biāo)識(shí);
      [0046] 拼接處理單元,用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理;
      [0047] 映射位置確定單元,用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射 位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
      [004引優(yōu)選地,所述獲取單元包括:
      [0049] 查找單元,用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目 標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件;
      [0050] 文本片段提取單元,用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射 位置,從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段;
      [0051] 文本文件確定單元,用于將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的 文本文件。
      [0052] 本發(fā)明實(shí)施例可W對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分 片,采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息,根據(jù)比對(duì)結(jié)果獲取所述待 處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌 詞、人聲等文本文件,無(wú)需人工干預(yù)節(jié)省人力成本,并且能夠有效地提升音頻處理的效率和 準(zhǔn)確度。
      【附圖說(shuō)明】
      [0053] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W 根據(jù)運(yùn)些附圖獲得其他的附圖。
      [0054] 圖1為本發(fā)明實(shí)施例提供的一種音頻處理方法的流程圖;
      [0055] 圖2為本發(fā)明實(shí)施例提供的另一種音頻處理方法的流程圖;
      [0056] 圖3為本發(fā)明實(shí)施例提供的一種音頻處理裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0057] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0058] 音頻文件可W分為兩類,一類指音樂(lè)類音頻文件,如歌曲;另一類指非音樂(lè)類音頻 文件,包括電臺(tái)類節(jié)目或相聲類等語(yǔ)音類節(jié)目。本發(fā)明實(shí)施例的音頻處理方案優(yōu)選適用于 對(duì)非音樂(lè)類音頻文件進(jìn)行處理,為了更為準(zhǔn)確地進(jìn)行音頻處理,本發(fā)明后續(xù)各實(shí)施例中所 述的音頻文件,優(yōu)選指非音樂(lè)類的、原始音頻格式的文件,即優(yōu)選為8K采樣率、16bit量化位 數(shù)、單聲道wav(-種聲音文件格式)文件。若待處理音頻文件為其他音頻格式的文件,例如: MP3(Moving Pierre Experts Group Audio Layer III,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面 3)、WMA(Windows Media Audio,數(shù)字音頻格式)、APE(-種數(shù)字音頻無(wú)損壓縮格式)等格式 的音頻文件,則需要首先對(duì)其進(jìn)行格式轉(zhuǎn)換處理。
      [0059] 本發(fā)明實(shí)施例可W對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分 片,采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息,根據(jù)比對(duì)結(jié)果獲取所述待 處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文件生成對(duì)應(yīng)的歌 詞、人聲等文本文件,無(wú)需人工干預(yù)節(jié)省人力成本,并且能夠有效地提升音頻處理的效率和 準(zhǔn)確度。
      [0060] 基于上述描述,本發(fā)明實(shí)施例提供了一種音頻處理方法,請(qǐng)參見(jiàn)圖1,該方法可包 括W下步驟S101-步驟S104。
      [0061] S101,對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片。
      [0062] 偏移分片處理是指每隔一定的偏移時(shí)間即切取一段一定時(shí)長(zhǎng)的音頻分片,例如: 假設(shè)偏移時(shí)間為Is,而分片時(shí)長(zhǎng)為10s,那么,可從待處理音頻文件的開(kāi)始位置起,偏移Os時(shí) 切時(shí)長(zhǎng)為10s的第一音頻分片,該第一音頻分片的偏移時(shí)間為Os,起止時(shí)間為Os-lOs;偏移 1S時(shí)切時(shí)長(zhǎng)為10s的第二音頻分片,該第二音頻分片的偏移時(shí)間為1S,起止時(shí)間為1S-11S; 偏移2s時(shí)切時(shí)長(zhǎng)為10s的第Ξ音頻分片,該第Ξ音頻分片的偏移時(shí)間為2s,起止時(shí)間為2s- 12s; W此類推。由此可見(jiàn),偏移處理后所獲得的至少一個(gè)音頻分片中每個(gè)音頻分片的時(shí)長(zhǎng) 相同,每個(gè)音頻分片所包含的音頻數(shù)據(jù)存在重疊,但每個(gè)音頻分片的起止時(shí)間和偏移時(shí)間 均不相同。具體實(shí)現(xiàn)中,可W采用一些音頻處理工具來(lái)對(duì)待處理音頻文件進(jìn)行偏移切片處 理,此處的音頻處理工具可W包括但不限于:ffmpeg(化st化rward Mpeg,用于記錄、轉(zhuǎn)換 數(shù)字音頻、視頻,并將其轉(zhuǎn)化為流的開(kāi)源計(jì)算機(jī)程序)工具。優(yōu)選地,音頻分片為8K采樣率、 1化i t量化位數(shù)、單聲道wav文件。
      [0063] S102,采集所述至少一個(gè)音頻分片的指紋信息。
      [0064] 音頻的指紋信息是指可W代表一段音頻的重要聲學(xué)特征、基于該音頻所包含的內(nèi) 容的緊致數(shù)字簽名,具備如下主要優(yōu)點(diǎn):①魯棒性,即使音頻出現(xiàn)比較嚴(yán)重的失真、噪聲、變 調(diào)等情況,指紋信息仍然能夠識(shí)別并表征該音頻的重要聲學(xué)特征;②區(qū)分性,一個(gè)指紋信息 可唯一標(biāo)識(shí)一段音頻,不同音頻之間的指紋信息具有差異;③可靠性,即通過(guò)指紋信息識(shí)別 音頻時(shí)其錯(cuò)誤識(shí)別的概率較低。也就是說(shuō),音頻分片的指紋信息是指可W代表該音頻分片 的重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名。具體實(shí)現(xiàn)中,可W采用一些音頻指紋提取算 法來(lái)采集每個(gè)音頻分片的指紋信息,此處的音頻指紋提取算法可包括但不限于:最大指紋 特征算法、哈希算法、復(fù)倒譜變換算法、小波包變換算法等等。一個(gè)音頻分片對(duì)應(yīng)一個(gè)指紋 信息。
      [0065] S103,將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì)。
      [0066] 預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名 稱、所述至少一個(gè)音頻文件的指紋信息,W及所述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。具體 實(shí)現(xiàn)中,可依次將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)中的各音頻文 件的指紋信息進(jìn)行比對(duì),如果某個(gè)音頻分片的指紋信息與某個(gè)音頻文件的指紋信息的相似 度達(dá)到預(yù)設(shè)值(此處的預(yù)設(shè)值可根據(jù)實(shí)際需要設(shè)定,例如:85%、90%等)W上,那么可認(rèn)為 該音頻分片與預(yù)置指紋信息庫(kù)中的該音頻文件相匹配。
      [0067] S104,根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [0068] 比對(duì)結(jié)果可包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述 待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。那么,根據(jù)目標(biāo)音頻文件的標(biāo)識(shí) 可從預(yù)置指紋信息庫(kù)中獲得目標(biāo)音頻文件對(duì)應(yīng)的文本文件,進(jìn)一步,根據(jù)待處理音頻文件 在目標(biāo)音頻文件中的映射位置,那么可從目標(biāo)音頻文件對(duì)應(yīng)的文本文件中提取映射位置對(duì) 應(yīng)的文本片段,此文本片段即為待處理音頻文件對(duì)應(yīng)的文本文件。
      [0069] 本發(fā)明實(shí)施例的音頻處理方法,可W對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得 至少一個(gè)音頻分片,采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息,根據(jù)比對(duì) 結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文 件生成對(duì)應(yīng)的歌詞、人聲等文本文件,無(wú)需人工干預(yù)節(jié)省人力成本,并且能夠有效地提升音 頻處理的效率和準(zhǔn)確度。
      [0070] 本發(fā)明實(shí)施例還提供了另一種音頻處理方法,本實(shí)施例的方法側(cè)重于描述如何定 位目標(biāo)音頻文件的片頭位置的過(guò)程。請(qǐng)參見(jiàn)圖2,該方法可包括W下步驟S201-步驟S210。
      [0071] S201,創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo) 識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,W及所述至少一個(gè) 音頻文件對(duì)應(yīng)的文本文件。
      [0072] 本實(shí)施例中,預(yù)置指紋信息庫(kù)可W采用下述表一進(jìn)行表示:
      [0073] 表一:預(yù)置指紋信息庫(kù)
      [0074]
      [0075] 上述表一可知,一個(gè)標(biāo)識(shí)可唯一標(biāo)識(shí)一個(gè)音頻文件,預(yù)置指紋信息庫(kù)中可包含相 同名稱不同標(biāo)識(shí)的音頻文件,例如上述表一中的標(biāo)識(shí)為al的歌曲A及標(biāo)識(shí)為a2的歌曲A。預(yù) 置指紋信息庫(kù)中也可包含名稱不同、標(biāo)識(shí)不同的音頻文件,例如上述表一中的標(biāo)識(shí)為b的歌 曲B及標(biāo)識(shí)為C的歌曲C。一般地,具備相同名稱不同標(biāo)識(shí)的音頻文件通??赡苁峭灰魳?lè)的 不同版本,例如:歌曲A可包含原唱版、演唱會(huì)版、網(wǎng)絡(luò)版等不同版本。
      [0076] S202,從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的 音頻分片。
      [0077] S203,依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè)音頻分片的時(shí) 間屬性。其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起 始位置的偏移時(shí)間。
      [0078] 本實(shí)施例的步驟S202-S203可W為圖1所示實(shí)施例的步驟S101的具體細(xì)化步驟。步 驟S202-S203中,預(yù)置偏移時(shí)間及預(yù)置分片時(shí)長(zhǎng)均可W根據(jù)實(shí)際需要進(jìn)行設(shè)定。本實(shí)施例可 假設(shè)預(yù)置偏移時(shí)間為Is,預(yù)置分片時(shí)長(zhǎng)為10s,那么假設(shè)待處理音頻文件為歌曲A,從歌曲A 的開(kāi)始位置即Os的時(shí)刻,偏移Os時(shí)切時(shí)長(zhǎng)為10s的第一音頻分片,該第一音頻分片相對(duì)歌曲 A的起始位置的偏移時(shí)間為Os,起止時(shí)間為Os-lOs;偏移Is時(shí)切時(shí)長(zhǎng)為10s的第二音頻分片, 該第二音頻分片相對(duì)歌曲A的起始位置的偏移時(shí)間為1S,起止時(shí)間為1S-11S;偏移2s時(shí)切時(shí) 長(zhǎng)為10s的第Ξ音頻分片,該第Ξ音頻分片相對(duì)歌曲A的起始位置的偏移時(shí)間為2s,起止時(shí) 間為2s-12s;W此類推。所獲得的至少一個(gè)音頻分片可W采用下述表二進(jìn)行表示:
      [00巧]表二:音頻分片 [0080]
      [0081] S204,采集所述至少一個(gè)音頻分片的指紋信息。本步驟可參見(jiàn)圖1所示實(shí)施例的步 驟S102,在此不寶述。
      [0082] S205,按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻 分片。
      [0083] S206,將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè) 音頻文件的指紋信息進(jìn)行比對(duì)。
      [0084] S207,若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分 片的指紋信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,W及所述當(dāng)前音頻分片在相 匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄。
      [0085] 步驟S205-S207中,按照偏移時(shí)間由小到大的順序,參照上述表二首先選取第一音 頻分片為當(dāng)前音頻分片,將第一音頻分片的指紋信息與預(yù)置指紋信息庫(kù)中的各音頻文件的 指紋信息進(jìn)行比對(duì),如果存在與第一音頻分片的指紋信息相匹配的音頻文件,那么將相匹 配的音頻文件的標(biāo)識(shí)和名稱,W及第一音頻分片在相匹配的音頻文件中的映射位置保存為 第一音頻分片的一條比對(duì)記錄;然后再按照上述表二依次選取第二音頻分片為當(dāng)前音頻分 片,重復(fù)上述步驟。如果預(yù)置指紋信息庫(kù)中不存在與第一音頻分片的指紋信息相匹配的音 頻文件,那么直接按照上述表二依次選取第二音頻分片為當(dāng)前音頻分片,重復(fù)上述步驟。經(jīng) 過(guò)步驟S205-S207,可W將待處理音頻文件偏移切片得到的所有音頻分片進(jìn)行比對(duì),得到若 干條比對(duì)記錄。此處需要說(shuō)明的是,由于音頻分片是不完整的音頻數(shù)據(jù),而預(yù)置指紋信息庫(kù) 中的音頻文件通常是完整的音頻數(shù)據(jù),因此,音頻分片的指紋信息與音頻文件的指紋信息 進(jìn)行比對(duì)的過(guò)程中,除了匹配指紋信息之間的相似度之外,同時(shí)可獲得音頻分片在相匹配 的音頻文件中的映射位置,例如:第八音頻分片在歌曲B中的映射位置為第25s開(kāi)始持續(xù)7s; 或者,第九音頻分片在歌曲B中的映射位置為第26s開(kāi)始持續(xù)6s;或者,第十音頻分片在歌曲 B中的映射位置為第27s開(kāi)始持續(xù)5s;等等。
      [0086] S208,對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比對(duì)結(jié)果,所述比 對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及所述待處理音頻文 件在相匹配的目標(biāo)音頻文件中的映射位置。
      [0087] 由于音頻分片的數(shù)量較多且相互之間存在重疊,那么所獲得的若干條比對(duì)記錄中 包含許多重復(fù)數(shù)據(jù),為了保證音頻處理的準(zhǔn)確性,本步驟需要對(duì)若干條比對(duì)記錄進(jìn)行去重 處理,得到最終的比對(duì)結(jié)果。該方法在執(zhí)行步驟S208的過(guò)程中,具體執(zhí)行如下步驟S11-S14:
      [0088] sll,如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件,分別統(tǒng)計(jì) 與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量。
      [0089] sl2,選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目 標(biāo)音頻文件的標(biāo)識(shí)。
      [0090] 步驟S11-S12是針對(duì)同名音頻文件的去重步驟,例如:假設(shè)某Ξ條比對(duì)記錄中均包 含歌曲A,但歌曲A在Ξ條比對(duì)記錄中的標(biāo)識(shí)不同,分別為標(biāo)識(shí)為al的歌曲A為原唱版,標(biāo)識(shí) 為曰2的歌曲A為演唱會(huì)版,標(biāo)識(shí)為曰3的歌曲A為網(wǎng)絡(luò)版;那么,本步驟則統(tǒng)計(jì)歌曲A不同版本 相匹配的音頻分片的數(shù)量,進(jìn)一步假設(shè)與歌曲A的原唱版相匹配的音頻分片的數(shù)量為20片, 與歌曲A的演唱會(huì)版相匹配的音頻分片的數(shù)量為18片,與歌曲A的網(wǎng)絡(luò)版相匹配的音頻分片 的數(shù)量為16片,由此可見(jiàn)歌曲A的原唱版相匹配的音頻分片的數(shù)量為最多,則可認(rèn)為歌曲A 的原唱版的置信度最高;由于與歌曲A的原唱版相匹配的音頻分片均來(lái)自待處理音頻文件, 因此可將歌曲A的原唱版確定為與待處理音頻文件相匹配的目標(biāo)音頻文件,其標(biāo)識(shí)為al。
      [0091] sl3,將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理。
      [0092] S14,將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待 處理音頻文件在目標(biāo)音頻文件中的映射位置。
      [0093] 步驟S13-S14是針對(duì)重復(fù)音頻分片的去重步驟;如前述例子可知,目標(biāo)音頻文件為 歌曲A的原唱版,其相匹配的音頻分片的數(shù)量為20片,那么,運(yùn)20片中出現(xiàn)的連續(xù)音頻分片 可W進(jìn)行拼接處理,具體是否連續(xù)可依據(jù)各音頻分片的時(shí)間屬性確定,例如:假設(shè)20片音頻 分片為第一音頻分片至第二十音頻分片,其偏移時(shí)間從Os至19s,因此運(yùn)20片音頻分片即為 連續(xù)音頻分片,根據(jù)比對(duì)記錄,第一音頻分片在歌曲A的原唱版中的映射位置為第11s開(kāi)始 持續(xù)9s,第二音頻分片在歌曲A的原唱版中的映射位置為第12s開(kāi)始持續(xù)8s,W此類推,第二 十音頻分片在歌曲A的原唱版中的映射位置為第31s開(kāi)始持續(xù)2s,則可得到拼接處理后的連 續(xù)音頻分片在歌曲A的原唱版的映射位置為11S-33S,可確定待處理音頻文件在目標(biāo)音頻文 件中的映射位置為11S-33S??蒞理解的是,上述例子中,如果20片音頻分片中除了連續(xù)音 頻分片之外還存在單個(gè)的音頻分片,那么待處理音頻文件在目標(biāo)音頻文件中的映射位置由 拼接處理后的連續(xù)音頻分片在目標(biāo)音頻文件中的映射位置,W及單個(gè)音頻分片在目標(biāo)音頻 文件中的映射位置共同組成。
      [0094] 本實(shí)施例的步驟S204-S208可W為圖1所示實(shí)施例的步驟S103的具體細(xì)化步驟。 [00M] S209,從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文 件對(duì)應(yīng)的目標(biāo)文本文件。
      [0096] S210,根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置,從所述目標(biāo) 文本文件中提取所述映射位置對(duì)應(yīng)的文本片段。
      [0097] S211,將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [0098] 本實(shí)施例的步驟S209-S211可W為圖1所示實(shí)施例的步驟S104的具體細(xì)化步驟。步 驟S209-S211中,由于比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí) W及所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。那么,根據(jù)目標(biāo)音頻文 件的標(biāo)識(shí)可從預(yù)置指紋信息庫(kù)中獲得目標(biāo)音頻文件對(duì)應(yīng)的文本文件,進(jìn)一步,根據(jù)待處理 音頻文件在目標(biāo)音頻文件中的映射位置,那么可從目標(biāo)音頻文件對(duì)應(yīng)的文本文件中提取映 射位置對(duì)應(yīng)的文本片段,此文本片段即為待處理音頻文件對(duì)應(yīng)的文本文件。按照本實(shí)施例 所示例子,待處理音頻文件在歌曲A的原唱版中的映射位置為11S-33S,那么,從歌曲A的原 唱版的歌詞文件中提取11S-33S的歌詞片段,確定為待處理音頻文件對(duì)應(yīng)的文本文件。可W 理解的是,由于待處理音頻文件可能由許多音樂(lè)片斷及人聲混合交叉組合而成,因此通過(guò) 本發(fā)明實(shí)施例得到的待處理音頻文件對(duì)應(yīng)的文本文件也可能是由多個(gè)音樂(lè)歌詞片段及語(yǔ) 音文本片段共同構(gòu)成。
      [0099] 本發(fā)明實(shí)施例的音頻處理方法,可W對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得 至少一個(gè)音頻分片,采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信息,根據(jù)比對(duì) 結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非音樂(lè)類音頻文 件生成對(duì)應(yīng)的歌詞、人聲等文本文件,無(wú)需人工干預(yù)節(jié)省人力成本,并且能夠有效地提升音 頻處理的效率和準(zhǔn)確度。
      [0100] 基于上述方法實(shí)施例的描述,下面將結(jié)合附圖3,對(duì)本發(fā)明實(shí)施例提供的音頻處理 裝置進(jìn)行詳細(xì)介紹。需要說(shuō)明的是,下述的音頻處理裝置可用于執(zhí)行上述圖1-圖2所示的音 頻處理方法。具體地,本發(fā)明實(shí)施例提供了一種音頻處理裝置,請(qǐng)一并參見(jiàn)圖3,該裝置運(yùn)行 如下單元:
      [0101] 處理單元101,用于對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分 片。
      [0102] 采集單元102,用于采集所述至少一個(gè)音頻分片的指紋信息。
      [0103] 比對(duì)單元103,用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù) 進(jìn)行比對(duì)。
      [0104] 獲取單元104,用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。
      [0105] 具體實(shí)現(xiàn)中,該裝置在運(yùn)行所述處理單元101的過(guò)程中,具體運(yùn)行如下單元:
      [0106] 音頻分片提取單元1001,從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一 段預(yù)置分片時(shí)長(zhǎng)的音頻分片。
      [0107] 存儲(chǔ)單元1002,用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè) 音頻分片的時(shí)間屬性。其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理 音頻文件的起始位置的偏移時(shí)間。
      [0108] 具體實(shí)現(xiàn)中,該裝置還運(yùn)行如下單元:
      [0109] 創(chuàng)建單元105,用于創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音 頻文件的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,W及所 述至少一個(gè)音頻文件對(duì)應(yīng)的文本文件。
      [0110] 具體實(shí)現(xiàn)中,該裝置在運(yùn)行所述比對(duì)單元103的過(guò)程中,具體運(yùn)行如下單元:
      [0111] 當(dāng)前選取單元2001,用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻 分片選取當(dāng)前音頻分片。
      [0112] 當(dāng)前比對(duì)單元2002,用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信 息庫(kù)中的至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì)。
      [0113] 比對(duì)記錄保存單元2003,用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息 與所選取的當(dāng)前音頻分片的指紋信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,W及 所述當(dāng)前音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比 對(duì)記錄;
      [0114] 去重處理單元2004,用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲 得比對(duì)結(jié)果,所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)W及 所述待處理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。
      [0115] 具體實(shí)現(xiàn)中,該裝置在運(yùn)行所述去重處理單元2004的過(guò)程中,具體運(yùn)行如下單元:
      [0116] 數(shù)量統(tǒng)計(jì)單元2401,用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的 音頻文件,分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量。
      [0117]標(biāo)識(shí)確定單元2402,用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音 頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)。
      [0118] 拼接處理單元2403,用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處 理。
      [0119] 映射位置確定單元2404,用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的 映射位置確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。
      [0120] 具體實(shí)現(xiàn)中,該裝置在運(yùn)行所述獲取單元104的過(guò)程中,具體運(yùn)行如下單元:
      [0121] 查找單元3001,用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配 的目標(biāo)音頻文件對(duì)應(yīng)的目標(biāo)文本文件。
      [0122] 文本片段提取單元3002,用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的 映射位置,從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段。
      [0123] 文本文件確定單元3003,用于將所提取的文本片段確定為所述待處理音頻文件對(duì) 應(yīng)的文本文件。
      [0124] 由于圖3所示的音頻處理裝置可用于執(zhí)行圖1-圖2所示實(shí)施例的方法,因此,圖3所 示的各單元的功能可參見(jiàn)圖1-圖2所示方法各步驟的相關(guān)描述,在此不寶述。需要特別說(shuō)明 的是,圖3所示的音頻處理裝置可W是運(yùn)行于實(shí)體設(shè)備中的一個(gè)應(yīng)用程序,并且至少存在W 下兩種可行的實(shí)施方式:
      [0125] 在一種可行的實(shí)施方式中,該音頻處理裝置可W是運(yùn)行于一個(gè)實(shí)體設(shè)備中獨(dú)立工 作,例如:該音頻處理裝置可W運(yùn)行于一個(gè)終端中,該終端可包括但不限于:PC(Personal Computer,個(gè)人計(jì)算機(jī))、手機(jī)、PDA(平板電腦)、智能可穿戴設(shè)備等等,由終端獨(dú)立實(shí)現(xiàn)圖1- 圖2所示的方法流程;或者,該音頻處理裝置也可W運(yùn)行于一個(gè)服務(wù)器中,由服務(wù)器獨(dú)立實(shí) 現(xiàn)圖1-圖2所示的方法流程。
      [0126] 在另一種可行的實(shí)施方式中,該音頻處理裝置可W是分布運(yùn)行于多個(gè)實(shí)體設(shè)備 中,分布部分協(xié)調(diào)工作,例如:該音頻處理裝置的一部分可W運(yùn)行于一個(gè)終端中,而另一部 分可W運(yùn)行于一個(gè)服務(wù)器中,由終端與服務(wù)器協(xié)調(diào)工作從而實(shí)現(xiàn)圖1-圖2所示的方法流程。 在此實(shí)施方式中,圖3所示的創(chuàng)建單元105、比對(duì)單元103和獲取單元104可W位于服務(wù)器中, 而處理單元101和采集單元102可W位于終端中;而對(duì)應(yīng)在執(zhí)行圖1-圖2所示的方法流程時(shí), 創(chuàng)建預(yù)置指紋信息庫(kù)的過(guò)程、比對(duì)過(guò)程W及獲得文本文件的過(guò)程可W發(fā)生于服務(wù)器中,而 其他過(guò)程包括獲得至少一個(gè)音頻分片,采集至少一個(gè)音頻分片的指紋信息可W發(fā)生于終端 中。具體地,終端可W將音頻分片的指紋信息發(fā)送至服務(wù)器進(jìn)行比對(duì),服務(wù)器根據(jù)比對(duì)結(jié)果 獲取待處理音頻文件對(duì)應(yīng)的文本文件并反饋給終端輸出。
      [0127] 與方法同理,本發(fā)明實(shí)施例的音頻處理裝置,可W對(duì)待處理音頻文件進(jìn)行偏移切 片處理,獲得至少一個(gè)音頻分片,采用預(yù)置指紋信息庫(kù)來(lái)比對(duì)至少一個(gè)音頻分片的指紋信 息,根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件;通過(guò)上述過(guò)程能夠自動(dòng)為非 音樂(lè)類音頻文件生成對(duì)應(yīng)的歌詞、人聲等文本文件,無(wú)需人工干預(yù)節(jié)省人力成本,并且能夠 有效地提升音頻處理的效率和準(zhǔn)確度。
      [0128] 本領(lǐng)域普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可W 通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì) 中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁 碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memoir,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
      [0129] W上所掲露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能W此來(lái)限定本發(fā)明之權(quán)利范 圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
      【主權(quán)項(xiàng)】
      1. 一種音頻處理方法,其特征在于,包括: 對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片; 采集所述至少一個(gè)音頻分片的指紋信息,并將所述至少一個(gè)音頻分片的指紋信息分別 與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì); 根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。2. 如權(quán)利要求1所述的方法,其特征在于,所述對(duì)待處理音頻文件進(jìn)行偏移切片處理, 獲得至少一個(gè)音頻分片,包括: 從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分片時(shí)長(zhǎng)的音頻分片; 依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè)音頻分片的時(shí)間屬性; 其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始 位置的偏移時(shí)間。3. 如權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)待處理音頻文件進(jìn)行偏移切片處 理,獲得至少一個(gè)音頻分片之前,還包括: 創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件的標(biāo)識(shí)、所述至 少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,以及所述至少一個(gè)音頻文件 對(duì)應(yīng)的文本文件。4. 如權(quán)利要求3所述的方法,其特征在于,所述將所述至少一個(gè)音頻分片的指紋信息分 別與預(yù)置指紋信息庫(kù)進(jìn)行比對(duì),包括: 按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取當(dāng)前音頻分片,將所 選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的至少一個(gè)音頻文件的指紋信 息進(jìn)行比對(duì); 若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取的當(dāng)前音頻分片的指紋 信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,以及所述當(dāng)前音頻分片在相匹配的音 頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄; 對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比對(duì)結(jié)果,所述比對(duì)結(jié)果包 括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)以及所述待處理音頻文件在相匹 配的目標(biāo)音頻文件中的映射位置。5. 如權(quán)利要求4所述的方法,其特征在于,所述對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn) 行去重處理,獲得比對(duì)結(jié)果,包括: 如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文件,分別統(tǒng)計(jì)與所述標(biāo) 識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量; 選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相匹配的目標(biāo)音頻文 件的標(biāo)識(shí); 將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理; 將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置確定為所述待處理音頻 文件在目標(biāo)音頻文件中的映射位置。6. 如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件 對(duì)應(yīng)的文本文件,包括: 從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音頻文件對(duì)應(yīng)的 目標(biāo)文本文件; 根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位置,從所述目標(biāo)文本文件中 提取所述映射位置對(duì)應(yīng)的文本片段; 將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本文件。7. -種音頻處理裝置,其特征在于,包括: 處理單元,用于對(duì)待處理音頻文件進(jìn)行偏移切片處理,獲得至少一個(gè)音頻分片; 采集單元,用于采集所述至少一個(gè)音頻分片的指紋信息; 比對(duì)單元,用于將所述至少一個(gè)音頻分片的指紋信息分別與預(yù)置指紋信息庫(kù)進(jìn)行比 對(duì); 獲取單元,用于根據(jù)比對(duì)結(jié)果獲取所述待處理音頻文件對(duì)應(yīng)的文本文件。8. 如權(quán)利要求7所述的裝置,其特征在于,所述處理單元包括: 音頻分片提取單元,從待處理音頻文件的起始位置每隔預(yù)置偏移時(shí)間提取一段預(yù)置分 片時(shí)長(zhǎng)的音頻分片; 存儲(chǔ)單元,用于依次存儲(chǔ)所獲得的至少一個(gè)音頻分片,并記錄所述至少一個(gè)音頻分片 的時(shí)間屬性; 其中,一個(gè)音頻分片的時(shí)間屬性包括:起止時(shí)間及相對(duì)于所述待處理音頻文件的起始 位置的偏移時(shí)間。9. 如權(quán)利要求7或8所述的裝置,其特征在于,還包括: 創(chuàng)建單元,用于創(chuàng)建預(yù)置指紋信息庫(kù),所述預(yù)置指紋信息庫(kù)中包含至少一個(gè)音頻文件 的標(biāo)識(shí)、所述至少一個(gè)音頻文件的名稱、所述至少一個(gè)音頻文件的指紋信息,以及所述至少 一個(gè)音頻文件對(duì)應(yīng)的文本文件。10. 如權(quán)利要求9所述的裝置,其特征在于,所述比對(duì)單元包括: 當(dāng)前選取單元,用于按照偏移時(shí)間由小到大的順序依次從所述至少一個(gè)音頻分片選取 當(dāng)前音頻分片; 當(dāng)前比對(duì)單元,用于將所選取的當(dāng)前音頻分片的指紋信息與所述預(yù)置指紋信息庫(kù)中的 至少一個(gè)音頻文件的指紋信息進(jìn)行比對(duì); 比對(duì)記錄保存單元,用于若所述預(yù)置指紋信息庫(kù)中存在音頻文件的指紋信息與所選取 的當(dāng)前音頻分片的指紋信息相匹配,則將相匹配的音頻文件的標(biāo)識(shí)和名稱,以及所述當(dāng)前 音頻分片在相匹配的音頻文件中的映射位置保存為所述當(dāng)前音頻分片的一條比對(duì)記錄; 去重處理單元,用于對(duì)所述至少一個(gè)音頻分片的比對(duì)記錄進(jìn)行去重處理,獲得比對(duì)結(jié) 果,所述比對(duì)結(jié)果包括與所述待處理音頻文件相匹配的目標(biāo)音頻文件的標(biāo)識(shí)以及所述待處 理音頻文件在相匹配的目標(biāo)音頻文件中的映射位置。11. 如權(quán)利要求10所述的裝置,其特征在于,所述去重處理單元包括: 數(shù)量統(tǒng)計(jì)單元,用于如果存在至少兩條比對(duì)記錄包含名稱相同但標(biāo)識(shí)不同的音頻文 件,分別統(tǒng)計(jì)與所述標(biāo)識(shí)不同的音頻文件相匹配的音頻分片的數(shù)量; 標(biāo)識(shí)確定單元,用于選取數(shù)量最大的音頻文件的標(biāo)識(shí)確定為與所述待處理音頻文件相 匹配的目標(biāo)音頻文件的標(biāo)識(shí); 拼接處理單元,用于將與目標(biāo)音頻文件相匹配的連續(xù)音頻分片進(jìn)行拼接處理; 映射位置確定單元,用于將拼接處理后的音頻分片在所述目標(biāo)音頻文件中的映射位置 確定為所述待處理音頻文件在目標(biāo)音頻文件中的映射位置。12.如權(quán)利要求11所述的裝置,其特征在于,所述獲取單元包括: 查找單元,用于從所述預(yù)置指紋信息庫(kù)中查找與所述待處理音頻文件相匹配的目標(biāo)音 頻文件對(duì)應(yīng)的目標(biāo)文本文件; 文本片段提取單元,用于根據(jù)所述待處理音頻文件在所述目標(biāo)音頻文件中的映射位 置,從所述目標(biāo)文本文件中提取所述映射位置對(duì)應(yīng)的文本片段; 文本文件確定單元,用于將所提取的文本片段確定為所述待處理音頻文件對(duì)應(yīng)的文本 文件。
      【文檔編號(hào)】G06F17/30GK105825850SQ201610286452
      【公開(kāi)日】2016年8月3日
      【申請(qǐng)日】2016年4月29日
      【發(fā)明人】孫嘉駿, 王志豪, 趙偉峰, 楊雍, 車斌, 周旋, 許華彬
      【申請(qǐng)人】騰訊科技(深圳)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1