一種通話轉(zhuǎn)錄系統(tǒng)和方法
【專利摘要】本發(fā)明公開了一種通話轉(zhuǎn)錄系統(tǒng)和方法。該通話轉(zhuǎn)錄系統(tǒng)包括接收裝置、語(yǔ)音識(shí)別裝置和加標(biāo)簽裝置。其中,所述接收裝置用于連接到交換機(jī)并將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件;所述語(yǔ)音識(shí)別裝置與所述接收裝置相連,用于將所述音頻文件轉(zhuǎn)錄為文本文件;以及所述加標(biāo)簽裝置與所述語(yǔ)音識(shí)別裝置相連,用于為所述文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳,并根據(jù)所述時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。本發(fā)明所提供的上述通話轉(zhuǎn)錄系統(tǒng)和方法能夠提供可根據(jù)時(shí)間進(jìn)行檢索的通話內(nèi)容的記錄,方便通話雙方或他人檢索和查詢通話內(nèi)容。
【專利說明】 一種通話轉(zhuǎn)錄系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,尤其涉及一種通話轉(zhuǎn)錄系統(tǒng)和方法。
【背景技術(shù)】
[0002]在當(dāng)今的時(shí)代,由于工作需要,企業(yè)內(nèi)部的工作人員或企業(yè)與企業(yè)的雙方代表之間常常需要進(jìn)行溝通交流,例如召開電話會(huì)議等。雖然不在同一間辦公室的人通過網(wǎng)絡(luò)和電話等方式可以便利地進(jìn)行交流。然而還存在一個(gè)會(huì)議記錄的問題,比如經(jīng)常會(huì)出現(xiàn)召開電話會(huì)議的雙方開完電話會(huì)議而忘記了部分會(huì)議內(nèi)容的情況,或者是企業(yè)的其他工作人員因?yàn)楣ぷ餍枰M榭茨骋粫r(shí)段的通話內(nèi)容的情況。
[0003]因此,需要提供一種通話轉(zhuǎn)錄系統(tǒng)和方法以解決上述問題。
【發(fā)明內(nèi)容】
[0004]在
【發(fā)明內(nèi)容】
部分中引入了一系列簡(jiǎn)化形式的概念,這將在【具體實(shí)施方式】部分中進(jìn)一步詳細(xì)說明。本發(fā)明的
【發(fā)明內(nèi)容】
部分并不意味著要試圖限定出所要求保護(hù)的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征,更不意味著試圖確定所要求保護(hù)的技術(shù)方案的保護(hù)范圍。
[0005]為了解決上述問題,本發(fā)明公開了一種用于通話轉(zhuǎn)錄系統(tǒng),包括接收裝置、語(yǔ)音識(shí)別裝置和加標(biāo)簽裝置,其中,所述接收裝置用于連接到交換機(jī)并將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件;所述語(yǔ)音識(shí)別裝置與所述接收裝置相連,用于將所述音頻文件轉(zhuǎn)錄為文本文件;以及所述加標(biāo)簽裝置與所述語(yǔ)音識(shí)別裝置相連,用于為所述文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳,并根據(jù)所述時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
[0006]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:發(fā)送裝置,其與所述加標(biāo)簽裝置相連,用于將所述通話記錄文本文件發(fā)送給用戶。
[0007]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:存儲(chǔ)器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述音頻文件。
[0008]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話記錄文本文件的內(nèi)容包括所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址。
[0009]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述加標(biāo)簽裝置還用于根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),以使所述用戶根據(jù)所述通話記錄文本文件來訪問所述通話數(shù)據(jù)庫(kù);其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
[0010]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:存儲(chǔ)器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述音頻文件;并且所述加標(biāo)簽裝置還用于根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),所述通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問;其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
[0011]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:切分器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于將所述音頻文件切分為子音頻文件以輸出到所述語(yǔ)音識(shí)別裝置。
[0012]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述切分器進(jìn)一步包括:檢測(cè)單元,用于檢測(cè)所述音頻文件中的靜音部分;以及分割單元,用于基于所檢測(cè)的靜音部分將所述音頻文件切分為所述子音頻文件。
[0013]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述靜音部分包括在0.6秒或0.6秒以上的時(shí)間段內(nèi)分貝值小于或等于噪聲閾值的部分。
[0014]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:存儲(chǔ)器,其連接在所述切分器和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述子音頻文件;并且所述語(yǔ)音識(shí)別裝置所轉(zhuǎn)錄的子音頻文件來自于所述存儲(chǔ)器。
[0015]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括:自動(dòng)增益控制器,其與所述接收裝置相連,用于對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行增益控制。
[0016]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話轉(zhuǎn)錄系統(tǒng)還包括濾波器,其與所述接收裝置相連,用于對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行降噪處理。
[0017]根據(jù)本發(fā)明另一方面,還提供了一種通話轉(zhuǎn)錄方法,包括:將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件;將所述音頻文件轉(zhuǎn)錄為文本文件;為所述文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳;以及根據(jù)所述時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
[0018]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述合并為通話記錄文本文件之后還包括:將所述通話記錄文本文件發(fā)送給用戶。
[0019]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括將所述音頻文件存儲(chǔ)至存儲(chǔ)器。
[0020]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述通話記錄文本文件的內(nèi)容包括所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址。
[0021]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述合并為通話記錄文本文件之后還包括:根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),以使所述用戶根據(jù)所述通話記錄文本文件來訪問所述通話數(shù)據(jù)庫(kù);其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
[0022]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,所述將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括將所述音頻文件存儲(chǔ)至存儲(chǔ)器;并且所述合并為通話記錄文本文件之后還包括:根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),所述通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問;其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
[0023]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括:將所述音頻文件切分為子音頻文件。
[0024]在本發(fā)明一個(gè)優(yōu)選實(shí)施例中,將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之前還包括:對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行增益控制和/或降噪處理。
[0025]本發(fā)明所提供的上述通話轉(zhuǎn)錄系統(tǒng)和方法能夠提供可根據(jù)時(shí)間進(jìn)行檢索的通話內(nèi)容的記錄,方便通話雙方或他人檢索和查詢通話內(nèi)容。
【專利附圖】
【附圖說明】
[0026]本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實(shí)施例及其描述,用來解釋本發(fā)明的原理。在附圖中,
[0027]圖1示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄系統(tǒng)的結(jié)構(gòu)框圖;
[0028]圖2a和圖2b分別示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的合并前后的文本文件的示意圖;
[0029]圖3示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄方法的流程圖;
[0030]圖4示出了包括根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄系統(tǒng)的通話系統(tǒng)的示意圖。
【具體實(shí)施方式】
[0031]在下文的描述中,給出了大量具體的細(xì)節(jié)以便提供對(duì)本發(fā)明更為徹底的理解。然而,對(duì)于本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可以無需一個(gè)或多個(gè)這些細(xì)節(jié)而得以實(shí)施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對(duì)于本領(lǐng)域公知的一些技術(shù)特征未進(jìn)行描述。
[0032]為了徹底了解本發(fā)明,將在下列的描述中提出詳細(xì)的結(jié)構(gòu)。顯然,本發(fā)明的施行并不限定于本領(lǐng)域的技術(shù)人員所熟習(xí)的特殊細(xì)節(jié)。本發(fā)明的較佳實(shí)施例詳細(xì)描述如下,然而除了這些詳細(xì)描述外,本發(fā)明還可以具有其他實(shí)施方式。
[0033]根據(jù)本發(fā)明的一方面,提供了一種通話轉(zhuǎn)錄系統(tǒng)。圖1示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄系統(tǒng)100的結(jié)構(gòu)框圖。如圖1所示,該通話轉(zhuǎn)錄系統(tǒng)100包括接收裝置103、語(yǔ)音識(shí)別裝置106和加標(biāo)簽裝置107。其中,接收裝置103用于連接到交換機(jī)并將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件。語(yǔ)音識(shí)別裝置106與接收裝置103相連,用于將音頻文件轉(zhuǎn)錄為文本文件。加標(biāo)簽裝置107與語(yǔ)音識(shí)別裝置106相連,用于為文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳,并根據(jù)時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
[0034]來自交換機(jī)的通話雙方的輸入語(yǔ)音信號(hào)經(jīng)接收裝置103轉(zhuǎn)換為音頻文件,形成自己的時(shí)間戳,供加標(biāo)簽裝置107獲取。
[0035]語(yǔ)音識(shí)別裝置106將接收裝置103轉(zhuǎn)換后形成的音頻文件轉(zhuǎn)錄為文本文件。根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例,語(yǔ)音識(shí)別裝置106所進(jìn)行的轉(zhuǎn)錄過程可以包括下述操作。首先對(duì)接收裝置103轉(zhuǎn)換后形成的音頻文件進(jìn)行語(yǔ)音信號(hào)的語(yǔ)音特征的提取。根據(jù)提取的語(yǔ)音特征,可以對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,可去掉與語(yǔ)音識(shí)別無關(guān)的冗余信息并獲得影響語(yǔ)音識(shí)別的重要信息,同時(shí)可對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。然后,語(yǔ)音識(shí)別裝置106根據(jù)所提取的語(yǔ)音特征利用已訓(xùn)練的聲學(xué)模型進(jìn)行識(shí)別。具體地,將語(yǔ)音信號(hào)的語(yǔ)音特征同聲學(xué)模型的語(yǔ)音特征進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。
[0036]加標(biāo)簽裝置107為語(yǔ)音識(shí)別裝置106轉(zhuǎn)錄后形成的文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳,并根據(jù)時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件,為通話雙方的會(huì)話提供了一份通話的“歷史記錄”。例如,在Unix或Linux系統(tǒng)下,加標(biāo)簽裝置107可以通過系統(tǒng)函數(shù)stat獲取接收裝置103轉(zhuǎn)換后形成的音頻文件的時(shí)間戳,然后將獲取到的時(shí)間戳加到對(duì)應(yīng)的文本文件的前面,最后根據(jù)時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件,這樣就形成了類似QQ或MSN那樣的對(duì)話歷史。時(shí)間戳和文本可以以冒號(hào)分割。圖2a和圖2b分別示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的合并前后的文本文件的示意圖。其中,圖2a示出了加標(biāo)簽裝置107為其加了時(shí)間戳的來自通話雙方的信道(例如,信道A和信道B)的語(yǔ)音信號(hào)對(duì)應(yīng)的文本文件的示意圖,圖2b示出了加標(biāo)簽裝置107根據(jù)時(shí)間戳排序并合并后的通話記錄文本文件的示意圖。如圖2b所示,對(duì)于包括文本文件的內(nèi)容和文本文件對(duì)應(yīng)的時(shí)間戳的通話記錄文本文件,用戶查看起來非常方便。
[0037]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括發(fā)送裝置108,其與加標(biāo)簽裝置107相連,用于將最后形成的通話記錄文本文件發(fā)送給用戶。發(fā)送裝置108可以為電子郵件裝置,其利用電子郵件將通話記錄文本文件發(fā)送給用戶。這里,用戶可以包括通話雙方或其他用戶。可根據(jù)需要設(shè)定用戶的電子郵件地址,將通話雙方通話的“歷史記錄”以電子郵件的方式發(fā)送給用戶,以供用戶方便地查詢通話內(nèi)容。
[0038]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括存儲(chǔ)器105。其中,存儲(chǔ)器105連接在接收裝置103和語(yǔ)音識(shí)別裝置106之間,用于存儲(chǔ)接收裝置103轉(zhuǎn)換后形成的音頻文件。
[0039]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話記錄文本文件的內(nèi)容可以包括文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址。這樣,根據(jù)發(fā)送裝置108發(fā)送給用戶的通話記錄文本文件,用戶不但可以通過時(shí)間戳檢索、查詢通話記錄,還可以根據(jù)通話記錄文本文件中包含的文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址鏈接到存儲(chǔ)器105中對(duì)應(yīng)的音頻文件,從而重聽對(duì)應(yīng)的通話的語(yǔ)音。例如,在證券買賣應(yīng)用中,通話的買賣雙方可以在通話記錄文本文件中查找一個(gè)時(shí)間點(diǎn)或時(shí)間段以查詢當(dāng)時(shí)的通話內(nèi)容,這樣就可以根據(jù)時(shí)間檢索到對(duì)話歷史從而查到關(guān)于買賣歷史或者某個(gè)股票代碼的通話內(nèi)容。另外,重聽可以對(duì)通話記錄文本文件進(jìn)行校驗(yàn),糾正通話轉(zhuǎn)錄系統(tǒng)自動(dòng)轉(zhuǎn)錄中可能廣生的錯(cuò)誤。
[0040]本領(lǐng)域普通技術(shù)人員可以理解,通話記錄文本文件的內(nèi)容可以不包括文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址。此時(shí),加標(biāo)簽裝置107可以還用于根據(jù)通話記錄文本文件和通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址,在存儲(chǔ)器105中建立通話數(shù)據(jù)庫(kù),以使用戶根據(jù)通話記錄文本文件來訪問通話數(shù)據(jù)庫(kù)。其中,該通話數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)項(xiàng)包括:文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址。這樣,根據(jù)發(fā)送裝置108發(fā)送給用戶的通話記錄文本文件,用戶可以通過通話記錄文本文件中的文本的關(guān)鍵字和/或時(shí)間戳等信息,檢索該通話數(shù)據(jù)庫(kù)來得到對(duì)應(yīng)的音頻文件的地址,從而重聽對(duì)應(yīng)的通話的語(yǔ)音。例如,用戶可以打開收到的通話記錄文本文件,查找一個(gè)時(shí)間點(diǎn),從而索引到對(duì)應(yīng)的通話記錄,查詢到通話內(nèi)容。并且,為了確保通話內(nèi)容的正確性,可以點(diǎn)擊查找到的通話內(nèi)容對(duì)應(yīng)的音頻文件的地址,就可以鏈接到對(duì)應(yīng)的音頻文件從而重聽對(duì)應(yīng)的通話的語(yǔ)音,以對(duì)通話記錄文本文件中的通話內(nèi)容進(jìn)行校驗(yàn)。例如,該地址可以是一個(gè)超鏈接。
[0041]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100也可以包括存儲(chǔ)器105而不包括發(fā)送裝置108,即存儲(chǔ)器105連接在接收裝置103和語(yǔ)音識(shí)別裝置106之間,用于存儲(chǔ)接收裝置103轉(zhuǎn)換后形成的音頻文件。并且加標(biāo)簽裝置107還用于根據(jù)最后形成的通話記錄文本文件和通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址,在存儲(chǔ)器105中建立通話數(shù)據(jù)庫(kù),該通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問。其中,通話數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)項(xiàng)包括:文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器105中的地址。這樣,無需把最后形成的通話記錄文本文件發(fā)送給用戶,用戶可以通過網(wǎng)絡(luò)直接訪問該通話數(shù)據(jù)庫(kù)來查詢并且重聽對(duì)應(yīng)的通話內(nèi)容。本領(lǐng)域普通技術(shù)人員可以理解,上述訪問接口可以是WEB前端訪問界面。用戶可以通過該WEB前端訪問界面對(duì)該數(shù)據(jù)庫(kù)進(jìn)行訪問。具體地,可以對(duì)不同用戶授予不同權(quán)限,使得不同用戶能夠?qū)υ摂?shù)據(jù)庫(kù)中的文檔進(jìn)行不同操作,例如檢索、查看、編輯和刪除。本領(lǐng)域普通技術(shù)人員可以理解,上述訪問接口可以是PHPMYADMIN的數(shù)據(jù)庫(kù)訪問界面。
[0042]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括切分器104,其連接在接收裝置103和語(yǔ)音識(shí)別裝置106之間,用于將接收裝置103轉(zhuǎn)換后形成的音頻文件切分為子音頻文件以輸出到語(yǔ)音識(shí)別裝置106。語(yǔ)音識(shí)別技術(shù)通常是基于詞匯、短語(yǔ)或較短句子來進(jìn)行的。切分器104可以把連續(xù)大段的通話切分為較短的語(yǔ)句。這樣,后續(xù)的語(yǔ)音識(shí)別處理可以針對(duì)切分后的數(shù)據(jù)進(jìn)行,大大提高了處理精度。這有效保證了通話轉(zhuǎn)錄的質(zhì)量。
[0043]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,切分器104可以分為檢測(cè)單元和分割單元,其中,檢測(cè)單元用于檢測(cè)接收裝置103轉(zhuǎn)換后形成的音頻文件中的靜音部分,而分割單元用于基于所檢測(cè)的靜音部分將音頻文件切分為子音頻文件。靜音部分是通話中的必不可少的部分,基于靜音部分來切分音頻文件可以更好地表達(dá)說話者的語(yǔ)句含義。這樣不會(huì)出現(xiàn)斷句或半句的情況,避免后續(xù)處理出現(xiàn)錯(cuò)誤。
[0044]音頻文件中的靜音部分可以為持續(xù)一定時(shí)間的分貝值小于或等于噪聲閾值的部分。噪聲閾值可根據(jù)通話雙方所在環(huán)境的具體情況而定。例如,嘈雜的環(huán)境中,噪聲閾值可以設(shè)置得較高。通過增加所持續(xù)的時(shí)間長(zhǎng)度,噪聲可以被視為靜音從而被去除。優(yōu)選地,所持續(xù)的時(shí)間長(zhǎng)度為0.6秒或0.6秒以上。0.6秒是人與人交流的時(shí)候句與句之間的大體停頓間隔,選擇這個(gè)時(shí)間段的靜音可以較為準(zhǔn)確地將人與人的通話內(nèi)容劃分成以自然句為單位的子音頻文件,并且可以有效去除噪音,使得接下來的處理過程正確率更高。
[0045]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括存儲(chǔ)器105,其連接在切分器104和語(yǔ)音識(shí)別裝置106之間,用于存儲(chǔ)切分器104切分后形成的子音頻文件;并且語(yǔ)音識(shí)別裝置106所轉(zhuǎn)錄的子音頻文件來自于存儲(chǔ)器105。經(jīng)過存儲(chǔ)器105,可以將切分器104切分后形成的子音頻文件暫時(shí)存入存儲(chǔ)器105,以在進(jìn)入語(yǔ)音識(shí)別裝置106之前緩沖,使得語(yǔ)音識(shí)別裝置106接下來進(jìn)行的轉(zhuǎn)錄工作更為順暢。[0046]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括輸入接口和輸出接口(未在圖1中示出)。其中,輸入接口可以連接在外部交換機(jī)和接收裝置103之間,用于從外部交換機(jī)接收輸入語(yǔ)音信號(hào),該輸入語(yǔ)音信號(hào)可以是模擬信號(hào)也可以是數(shù)字信號(hào)。如果是數(shù)字信號(hào),其采樣頻率優(yōu)選為8000Hz,其量化位數(shù)優(yōu)選為16比特。輸出接口可以連接在加標(biāo)簽裝置107和用戶的個(gè)人電腦(PC)之間,用于將最后形成的通話記錄文本文件發(fā)送給用戶。
[0047]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括自動(dòng)增益控制器101,其與接收裝置103相連,用于對(duì)輸入語(yǔ)音信號(hào)進(jìn)行增益控制。例如,將所接收的輸入語(yǔ)音信號(hào)的分貝值調(diào)節(jié)到大致統(tǒng)一的設(shè)定值水平。由自動(dòng)增益控制器101對(duì)輸入語(yǔ)音信號(hào)進(jìn)行增益控制可以成功避免因說話者音量忽大忽小造成對(duì)后續(xù)處理的影響。
[0048]優(yōu)選地,該自動(dòng)增益控制器101可以包括放大單元和縮小單元。其中,當(dāng)所接收的輸入語(yǔ)音信號(hào)的分貝值小于設(shè)定值時(shí),放大單元用于將分貝值小于該設(shè)定值的輸入語(yǔ)音信號(hào)放大至該設(shè)定值;反之,當(dāng)所接收的輸入語(yǔ)音信號(hào)的分貝值大于該設(shè)定值時(shí),縮小單元將分貝值大于該設(shè)定值的輸入語(yǔ)音信號(hào)縮小至該設(shè)定值。此設(shè)定值可根據(jù)實(shí)際需要自由限定。
[0049]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話轉(zhuǎn)錄系統(tǒng)100還可以包括濾波器102,其與接收裝置103相連,用于對(duì)輸入語(yǔ)音信號(hào)進(jìn)行降噪處理。降噪處理可以采用濾波的方法。濾波可以從連續(xù)的或離散的輸入數(shù)據(jù)中濾除噪聲和干擾以提取有用信息。優(yōu)選地,濾波器102可以是維納濾波器以取得良好的濾波效果。
[0050]總之,自動(dòng)增益控制器101和濾波器102均可以使輸入語(yǔ)音信號(hào)便于被識(shí)別并且提高識(shí)別和翻譯的正確率。
[0051]另外,值得注意的是,以上術(shù)語(yǔ)“連接”和“相連”可以表示各個(gè)裝置之間的直接連接,也可以表示間接連接,圖1中只示出了通話轉(zhuǎn)錄系統(tǒng)100的不同裝置之間的一種連接方式,還可以有其它的連接方式。例如,自動(dòng)增益控制器101可以直接連接接收裝置103,濾波器102連接在自動(dòng)增益控制器101和外部交換機(jī)之間。
[0052]本領(lǐng)域普通技術(shù)人員可以理解,在上述實(shí)施例中,存儲(chǔ)器105可以用來存儲(chǔ)接收裝置103轉(zhuǎn)換后形成的音頻文件,也可以用來存儲(chǔ)通話數(shù)據(jù)庫(kù),還可以用來存儲(chǔ)切分器104對(duì)接收裝置轉(zhuǎn)換后形成的音頻文件進(jìn)行切分后產(chǎn)生的子音頻文件。本領(lǐng)域普通技術(shù)人員可以理解,音頻文件、通話數(shù)據(jù)庫(kù)以及子音頻文件還可以由不同的存儲(chǔ)器存儲(chǔ)。
[0053]根據(jù)本發(fā)明的另一方面,還提供了一種通話轉(zhuǎn)錄方法。圖3示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄方法300的流程圖。如圖3所示,該通話轉(zhuǎn)錄方法300包括轉(zhuǎn)換步驟303、語(yǔ)音轉(zhuǎn)文本步驟306和加標(biāo)簽步驟307。其中,轉(zhuǎn)換步驟303將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件;語(yǔ)音轉(zhuǎn)文本步驟306將轉(zhuǎn)換步驟303轉(zhuǎn)換后形成的音頻文件轉(zhuǎn)錄為文本文件;加標(biāo)簽步驟307為語(yǔ)音轉(zhuǎn)文本步驟306轉(zhuǎn)錄后形成的文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳并根據(jù)時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
[0054]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,加標(biāo)簽步驟307之后還包括發(fā)送步驟308,用于將通話記錄文本文件發(fā)送給用戶。
[0055]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,將轉(zhuǎn)換步驟303之后還包括存儲(chǔ)步驟305,用于將音頻文件存儲(chǔ)至存儲(chǔ)器。[0056]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,通話記錄文本文件的內(nèi)容包括文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器中的地址。
[0057]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,加標(biāo)簽步驟307之后還包括根據(jù)通話記錄文本文件和通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器中的地址,在存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),以使用戶根據(jù)通話記錄文本文件來訪問所述通話數(shù)據(jù)庫(kù)。其中,該通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器中的地址。
[0058]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,轉(zhuǎn)換步驟303之后還包括存儲(chǔ)步驟305,用于將音頻文件存儲(chǔ)至存儲(chǔ)器,并且加標(biāo)簽步驟307之后還包括根據(jù)通話記錄文本文件和通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器中的地址,在存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),該通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問。其中,該通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:文本文件的內(nèi)容、文本文件對(duì)應(yīng)的時(shí)間戳和文本文件對(duì)應(yīng)的音頻文件在存儲(chǔ)器中的地址。
[0059]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,轉(zhuǎn)換步驟303之后還可以包括切分步驟304,用于將轉(zhuǎn)換步驟303轉(zhuǎn)換后形成的音頻文件切分為子音頻文件。
[0060]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,轉(zhuǎn)換步驟303之前還可以包括增益控制步驟301和/或降噪處理步驟302,以對(duì)輸入語(yǔ)音信號(hào)進(jìn)行增益控制和/或降噪處理。
[0061]另外,本領(lǐng)域普通技術(shù)人員可以理解,圖3示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄方法步驟的一種執(zhí)行順序,該順序可以進(jìn)行調(diào)整。例如,增益控制步驟301可以在降噪處理步驟302之后執(zhí)行。
[0062]圖4示出了包括根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的通話轉(zhuǎn)錄系統(tǒng)的通話系統(tǒng)的優(yōu)選實(shí)施例的示意圖。該通話系統(tǒng)400包括用戶通話所使用的電話401和電話402、公用電話交換網(wǎng)(PSTN) 403、專用交換機(jī)(IP PBX) 404和本發(fā)明所提供的通話轉(zhuǎn)錄系統(tǒng)405。其中,用戶通話所使用的電話401和電話402也可以替換為智能終端,相應(yīng)地,PSTN 403也可以替換為互聯(lián)網(wǎng)語(yǔ)音傳輸協(xié)議(VOIP)網(wǎng)絡(luò)。
[0063]如圖4所示,通話的雙方分別為用戶I和用戶2。其中,打電話的一方,例如,用戶1,通過PSTN 403撥號(hào)呼叫用戶2。IP PBX 404建立雙方的呼叫連接。隨后,用戶I和用戶2開始通話,其各自發(fā)出的語(yǔ)音經(jīng)IP PBX404進(jìn)入通話轉(zhuǎn)錄系統(tǒng)405,經(jīng)轉(zhuǎn)錄后的最終形成的通話記錄文本通過網(wǎng)絡(luò)或電子郵件傳送到用戶的個(gè)人電腦406。用戶I和用戶2以及其他有需要的用戶可以通過用于通話轉(zhuǎn)錄的系統(tǒng)405形成的通話記錄文本方便地檢索和查詢通話內(nèi)容。
[0064]本發(fā)明已經(jīng)通過上述實(shí)施例進(jìn)行了說明,但應(yīng)當(dāng)理解的是,上述實(shí)施例只是用于舉例和說明的目的,而非意在將本發(fā)明限制于所描述的實(shí)施例范圍內(nèi)。此外本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明并不局限于上述實(shí)施例,根據(jù)本發(fā)明的教導(dǎo)還可以做出更多種的變型和修改,這些變型和修改均落在本發(fā)明所要求保護(hù)的范圍以內(nèi)。本發(fā)明的保護(hù)范圍由附屬的權(quán)利要求書及其等效范圍所界定。
【權(quán)利要求】
1.一種通話轉(zhuǎn)錄系統(tǒng),包括接收裝置、語(yǔ)音識(shí)別裝置和加標(biāo)簽裝置,其中, 所述接收裝置用于連接到交換機(jī)并將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件; 所述語(yǔ)音識(shí)別裝置與所述接收裝置相連,用于將所述音頻文件轉(zhuǎn)錄為文本文件;以及所述加標(biāo)簽裝置與所述語(yǔ)音識(shí)別裝置相連,用于為所述文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳,并根據(jù)所述時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
2.根據(jù)權(quán)利要求1所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 發(fā)送裝置,其與所述加標(biāo)簽裝置相連,用于將所述通話記錄文本文件發(fā)送給用戶。
3.根據(jù)權(quán)利要求2所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 存儲(chǔ)器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述音頻文件。
4.根據(jù)權(quán)利要求3所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話記錄文本文件的內(nèi)容包括所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址。
5.根據(jù)權(quán)利要求3所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述加標(biāo)簽裝置還用于根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),以使所述用戶根據(jù)所述通話記錄文本文件來訪問所述通話數(shù)據(jù)庫(kù); 其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
6.根據(jù)權(quán)利要求1所述·的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 存儲(chǔ)器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述音頻文件;并且 所述加標(biāo)簽裝置還用于根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),所述通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問; 其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
7.根據(jù)權(quán)利要求1所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 切分器,其連接在所述接收裝置和所述語(yǔ)音識(shí)別裝置之間,用于將所述音頻文件切分為子音頻文件以輸出到所述語(yǔ)音識(shí)別裝置。
8.根據(jù)權(quán)利要求7所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述切分器進(jìn)一步包括: 檢測(cè)單元,用于檢測(cè)所述音頻文件中的靜音部分;以及 分割單元,用于基于所檢測(cè)的靜音部分將所述音頻文件切分為所述子音頻文件。
9.根據(jù)權(quán)利要求8所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述靜音部分包括在0.6秒或0.6秒以上的時(shí)間段內(nèi)分貝值小于或等于噪聲閾值的部分。
10.根據(jù)權(quán)利要求7所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 存儲(chǔ)器,其連接在所述切分器和所述語(yǔ)音識(shí)別裝置之間,用于存儲(chǔ)所述子音頻文件;并且 所述語(yǔ)音識(shí)別裝置所轉(zhuǎn)錄的子音頻文件來自于所述存儲(chǔ)器。
11.根據(jù)權(quán)利要求1所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 自動(dòng)增益控制器,其與所述接收裝置相連,用于對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行增益控制。
12.根據(jù)權(quán)利要求1所述的通話轉(zhuǎn)錄系統(tǒng),其特征在于,所述通話轉(zhuǎn)錄系統(tǒng)還包括: 濾波器,其與所述接收裝置相連,用于對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行降噪處理。
13.一種通話轉(zhuǎn)錄方法,包括: 將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件; 將所述音頻文件轉(zhuǎn)錄為文本文件; 為所述文本文件加上對(duì)應(yīng)的音頻文件的時(shí)間戳;以及 根據(jù)所述時(shí)間戳將加上時(shí)間戳后的所有文本文件排序并且合并為通話記錄文本文件。
14.根據(jù)權(quán)利要求13所述的通話轉(zhuǎn)錄方法,其特征在于,所述合并為通話記錄文本文件之后還包括: 將所述通話記錄文本文件發(fā)送給用戶。
15.根據(jù)權(quán)利要求14所述的通話轉(zhuǎn)錄方法,其特征在于, 所述將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括將所述音頻文件存儲(chǔ)至存儲(chǔ)器。
16.根據(jù)權(quán)利要求15所述的通話轉(zhuǎn)錄方法,其特征在于,所述通話記錄文本文件的內(nèi)容包括所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址?!?br>
17.根據(jù)權(quán)利要求15所述的通話轉(zhuǎn)錄方法,其特征在于,所述合并為通話記錄文本文件之后還包括: 根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),以使所述用戶根據(jù)所述通話記錄文本文件來訪問所述通話數(shù)據(jù)庫(kù); 其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
18.根據(jù)權(quán)利要求13所述的通話轉(zhuǎn)錄方法,其特征在于, 所述將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括將所述音頻文件存儲(chǔ)至存儲(chǔ)器;并且 所述合并為通話記錄文本文件之后還包括: 根據(jù)所述通話記錄文本文件和所述通話記錄文本文件中的文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的地址,在所述存儲(chǔ)器中建立通話數(shù)據(jù)庫(kù),所述通話數(shù)據(jù)庫(kù)具有訪問接口以供用戶通過網(wǎng)絡(luò)直接訪問; 其中,所述通話數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)項(xiàng)包括:所述文本文件的內(nèi)容、所述文本文件對(duì)應(yīng)的時(shí)間戳和所述文本文件對(duì)應(yīng)的音頻文件在所述存儲(chǔ)器中的所述地址。
19.根據(jù)權(quán)利要求13所述的通話轉(zhuǎn)錄方法,其特征在于,將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之后還包括: 將所述音頻文件切分為子音頻文件。
20.根據(jù)權(quán)利要求13所述的通話轉(zhuǎn)錄方法,其特征在于,將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為音頻文件之前還包括:對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行增益控制和/或降噪處理。
【文檔編號(hào)】G06F17/30GK103856602SQ201210515005
【公開日】2014年6月11日 申請(qǐng)日期:2012年12月4日 優(yōu)先權(quán)日:2012年12月4日
【發(fā)明者】鐘實(shí), 袁首鵬 申請(qǐng)人:Itp創(chuàng)新科技有限公司