專(zhuān)利名稱(chēng):智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法
技術(shù)領(lǐng)域:
本發(fā)明公開(kāi)了一種在網(wǎng)絡(luò)環(huán)境下進(jìn)行多人協(xié)同完成從語(yǔ)音到文 字轉(zhuǎn)換的聽(tīng)打錄入的方法。
背景技術(shù):
目前已有的計(jì)算機(jī)記錄語(yǔ)音的聽(tīng)打方式主要有三種 一種是傳統(tǒng) 的一個(gè)人一邊聽(tīng)一邊打,獨(dú)立完成全部聽(tīng)打任務(wù); 一種是將音頻文件 錄制下來(lái),然后通過(guò)程序或者手工分成以分鐘設(shè)置小時(shí)計(jì)算的大片 段,然后交給不同的錄入人員進(jìn)行聽(tīng)打,最后通過(guò)人工把各大片段文 稿拼合到一起完成錄入工作,原理上和第一種是一樣的;第三種是通 過(guò)將采集音頻實(shí)時(shí)地分成連續(xù)地以秒為單位的小文件,然后將這些小 文件傳給不同的人進(jìn)行錄入,然后通過(guò)服務(wù)器整合出來(lái)完整的文稿。
前兩種方式并不能完成實(shí)時(shí)的協(xié)同工作,而最后一種方式能夠達(dá) 到,但在大規(guī)模應(yīng)用中,其基于服務(wù)器進(jìn)行文件中轉(zhuǎn)的方式,會(huì)導(dǎo)致 服務(wù)器傳輸壓力大,帶寬需求高,運(yùn)營(yíng)成本高;而且由于因?yàn)槊總€(gè)錄 入端只有自己錄入的小文件的語(yǔ)音信息,在需要上下文的時(shí)候,無(wú)法 及時(shí)調(diào)用前后的語(yǔ)音文件進(jìn)行輔助處理。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法。
本發(fā)明技術(shù)方案包括-步驟l)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào);
步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端;
步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或
多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算; 步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算
出斷句點(diǎn),并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器; 步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求,組織分配給錄入端錄入任務(wù),
并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)
的錄入端;
步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)
音對(duì)應(yīng)的文字,并回傳給服務(wù)器; 步驟7)服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序
拼合出完整的文字內(nèi)容,完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄
入工作。
根據(jù)上面敘述的流程,所述智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方 法,其特征在于所屬步驟2)、步驟3)、步驟4),即傳輸機(jī)制、分布
式運(yùn)算機(jī)制和斷句點(diǎn)計(jì)算方法。
本方法中步驟2)采用點(diǎn)對(duì)點(diǎn)(P2P)的傳輸機(jī)制,即負(fù)責(zé)語(yǔ)音采
集的計(jì)算機(jī)作為信息源,向服務(wù)器和錄入端計(jì)算機(jī)傳輸所采集的語(yǔ)音 文件;而參與該聽(tīng)打錄入任務(wù)的服務(wù)器和錄入端計(jì)算機(jī)既是文件的接 收端,同時(shí)也是己經(jīng)接受部分文件的服務(wù)端,向其它沒(méi)有得到該部分 文件的計(jì)算機(jī)傳輸該部分文件。這樣就可以將采集的音頻文件實(shí)時(shí)傳 輸給服務(wù)器和參與該項(xiàng)工作的每個(gè)錄入端計(jì)算機(jī)。
本方法的步驟3)中服務(wù)器將根據(jù)各錄入端啟動(dòng)登錄時(shí)運(yùn)行的一 個(gè)小測(cè)試程序發(fā)給服務(wù)器的系統(tǒng)綜合性能參數(shù),來(lái)指定其中一臺(tái)或多
臺(tái)計(jì)算機(jī)來(lái)完成斷句點(diǎn)的計(jì)算任務(wù),參與計(jì)算斷句點(diǎn)的計(jì)算機(jī)不僅包 括各錄入端計(jì)算機(jī),也包括服務(wù)器本身。
本方法中步驟4)計(jì)算斷句點(diǎn)的方法的典型步驟如下-步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū);
步驟20)根據(jù)這10秒音頻文件的波形數(shù)據(jù),找到波形峰值中
最高的前10個(gè);
步驟30)如果這10個(gè)峰值中有5個(gè)以上等于0,判斷為靜音
片段,以這段音頻文件的終點(diǎn)為斷句點(diǎn); 步驟40)記錄下這個(gè)斷句點(diǎn);
步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū);
步驟60)如果未處理的語(yǔ)音文件還大于10秒,重復(fù)執(zhí)行步驟
20);如果已經(jīng)不足10秒,跳轉(zhuǎn)到步驟70)。 步驟70)直接以終點(diǎn)為斷句點(diǎn),流程結(jié)束 步驟80) 如果該10個(gè)峰值中有5個(gè)以上不等于0,以這10個(gè)
峰值的算數(shù)平均值的10%做為降噪基值,對(duì)這10秒音頻文
件進(jìn)行強(qiáng)制降噪處理; 步驟90)判斷降噪后是否出現(xiàn)值等于O的區(qū)域,即靜音片段; 步驟IOO)如果沒(méi)有靜音片段,返回步驟60)再次進(jìn)行強(qiáng)制降
噪處理。
步驟IIO)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔,如 果間隔小于0. 1秒,即將間隔的波形替換為等長(zhǎng)的靜音,將 兩個(gè)靜音片段合并成一個(gè)靜音片段;
步驟120)計(jì)算步驟110)處理后的波形文件中時(shí)間值在三秒以
后的每個(gè)靜音片段的長(zhǎng)度;
步驟130)判斷這些靜音片是否有超過(guò)0.5秒的;
步驟140)如果出現(xiàn)超過(guò)0. 5秒的靜音片段,取其中最長(zhǎng)的一個(gè)
靜音片段的終點(diǎn)做為斷句點(diǎn),并跳轉(zhuǎn)到步驟40); 步驟150)如果沒(méi)有超過(guò)0.5秒的靜音片段,跳轉(zhuǎn)到步驟80);
附圖1為本發(fā)明智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法的流程圖
附圖2為計(jì)算斷句點(diǎn)的流程圖
附圖3為10秒鐘語(yǔ)音文件的原始波形圖
附圖4為第一次強(qiáng)制降噪后的10秒鐘波形
附圖5為第二次強(qiáng)制降噪后的10秒鐘波形
具體實(shí)施例方式
下面結(jié)合附圖進(jìn)一步說(shuō)明本發(fā)明的具體實(shí)施方式
。
附圖1為整個(gè)實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法的流程圖
步驟l)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào);
步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端;
步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或
多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算; 步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算
出斷句點(diǎn),并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器; 步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求,組織分配給錄入端錄入任務(wù),
并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)的
錄入端;
步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ) 音對(duì)應(yīng)的文字,并回傳給服務(wù)器;
步驟7)服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序
拼合出完整的文字內(nèi)容,完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄入工作。
附圖2是上面步驟4)中指定計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算斷 句點(diǎn)的流程圖-.
步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū);
步驟20)根據(jù)這10秒音頻文件的波形數(shù)據(jù),如附圖3-10秒鐘
語(yǔ)音文件的原始波形圖,找到波形峰值中最高的前10個(gè);
步驟30)如果這10個(gè)峰值中有5個(gè)以上等于0,判斷為靜音 片段,以這段音頻文件的終點(diǎn)為斷句點(diǎn)。靜音片的特征很明 顯,波形為一條直線(xiàn),如果其中出現(xiàn)人聲,根據(jù)人聲發(fā)音的 特征,那怕是半秒鐘的音頻也一定會(huì)大大超過(guò)5個(gè)以上的峰 值;另一種10秒鐘中出現(xiàn)低于5個(gè)峰值的情況是出現(xiàn)在延 續(xù)時(shí)間長(zhǎng)而且有規(guī)律的音頻中,如示波器出現(xiàn)的正弦波形, 根據(jù)人聲發(fā)音的特征,正常的語(yǔ)音發(fā)音也是不可能發(fā)出這樣 的聲音的,所以對(duì)聽(tīng)打錄入沒(méi)有實(shí)際意義,故也被視同為靜 音片。
步驟40)記錄下這個(gè)斷句點(diǎn);
步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū); 步驟60)如果未處理的語(yǔ)音文件還大于10秒,重復(fù)執(zhí)行步驟
20);如果已經(jīng)不足10秒,跳轉(zhuǎn)到步驟70)。 步驟70)直接以終點(diǎn)為斷句點(diǎn),流程結(jié)束 步驟80)如果該10個(gè)峰值中有5個(gè)以上不等于0,以這10個(gè)
峰值的算數(shù)平均值的10%做為降噪基值,對(duì)這10秒音頻文
件進(jìn)行強(qiáng)制降噪處理; 步驟90)判斷降噪后是否出現(xiàn)值等于O的區(qū)域,即靜音片段;
步驟IOO)如果處理后如附圖4-第一次強(qiáng)制降噪后的IO秒鐘波 形,沒(méi)有靜音片段,返回步驟60)再次進(jìn)行強(qiáng)制降噪處理, 直到得到如附圖5-第二次強(qiáng)制降噪后的IO秒鐘波形所示的 有靜音片段的波形。
步驟IIO)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔,如 果間隔小于O. 1秒,即將間隔的波形替換為等長(zhǎng)的靜音,將 兩個(gè)靜音片段合并成一個(gè)靜音片段;
步驟120)計(jì)算步驟110)處理后的波形文件中時(shí)間值在三秒以
后的每個(gè)靜音片段的長(zhǎng)度; 步驟130)判斷這些靜音片是否有超過(guò)0.5秒的; 步驟140)如果出現(xiàn)超過(guò)0. 5秒的靜音片段,取其中最長(zhǎng)的一個(gè)
靜音片段的終點(diǎn)做為斷句點(diǎn),并跳轉(zhuǎn)到步驟40); 步驟150)如果沒(méi)有超過(guò)0.5秒的靜音片段,跳轉(zhuǎn)到步驟80); 綜上所述,通過(guò)這樣的方法就可以由多人協(xié)同完成從語(yǔ)音到文字 轉(zhuǎn)換的聽(tīng)打錄入的工作,并且具備多項(xiàng)優(yōu)點(diǎn)通過(guò)P2P架構(gòu)分發(fā)語(yǔ)音 文件,能夠有效利用網(wǎng)絡(luò)帶寬,降低了大規(guī)模應(yīng)用中對(duì)服務(wù)器帶寬的 要求;每個(gè)錄入端都有完整的語(yǔ)音信息,所以參與這項(xiàng)任務(wù)的每臺(tái)計(jì) 算機(jī)都可以參與斷句點(diǎn)的計(jì)算;并且當(dāng)發(fā)生錄入端斷線(xiàn)或者退出等情 況時(shí),服務(wù)器調(diào)整分配的任務(wù),只需要將任務(wù)控制信息傳給其他的錄 入端,而不需要再次傳輸語(yǔ)音文件;通過(guò)服務(wù)器分派任務(wù),實(shí)現(xiàn)多人 協(xié)作完成聽(tīng)打錄入工作,每個(gè)人只負(fù)責(zé)其中的一部分,大幅度降低了 對(duì)單個(gè)錄入人員錄入速度的要求,同時(shí)也提高了錄入文稿的完整性。
權(quán)利要求
1.一種智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法,其特征在于,包括步驟1)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào);步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端;步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算;步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算出斷句點(diǎn),并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器;步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求,組織分配給錄入端錄入任務(wù),并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)的錄入端;步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)音對(duì)應(yīng)的文字,并回傳給服務(wù)器;步驟7) 服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序拼合出完整的文字內(nèi)容,完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄入工作。
2. 根據(jù)權(quán)利要求1所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方 法,其特征在于,所屬步驟2)、步驟3)、步驟4),即傳輸機(jī)制、分 布式運(yùn)算機(jī)制和斷句點(diǎn)計(jì)算方法。
3. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方 法,其特征在于,步驟2)采用點(diǎn)對(duì)點(diǎn)(P2P)的傳輸機(jī)制,即負(fù)責(zé)語(yǔ) 音釆集的計(jì)算機(jī)作為信息源,向服務(wù)器和錄入端計(jì)算機(jī)傳輸所采集的 語(yǔ)音文件;而參與該聽(tīng)打錄入任務(wù)的服務(wù)器和錄入端計(jì)算機(jī)既是文件 的接收端,同時(shí)也是已經(jīng)接受部分文件的服務(wù)端,向其它沒(méi)有得到該 部分文件的計(jì)算機(jī)傳輸該部分文件;這樣就可以將采集的音頻文件實(shí) 時(shí)傳輸給服務(wù)器和參與該項(xiàng)工作的每個(gè)錄入端計(jì)算機(jī)。
4. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方 法,其特征在于,步驟3)中服務(wù)器將根據(jù)各錄入端啟動(dòng)登錄時(shí)運(yùn)行 的一個(gè)小測(cè)試程序發(fā)給服務(wù)器的系統(tǒng)綜合性能參數(shù),來(lái)指定其中一臺(tái) 或多臺(tái)計(jì)算機(jī)來(lái)完成斷句點(diǎn)的計(jì)算任務(wù),參與計(jì)算斷句點(diǎn)的計(jì)算機(jī)不 僅包括各錄入端計(jì)算機(jī),也包括服務(wù)器本身。
5. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方 法,其特征在于,步驟4)計(jì)算斷句點(diǎn)的方法如下步驟步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū); 步驟20)通過(guò)自動(dòng)增益將音量調(diào)整到適合人耳聽(tīng)覺(jué)合適的范 圍中;步驟30)根據(jù)這10秒音頻文件的波形數(shù)據(jù),找到波形最低點(diǎn) 和次最低點(diǎn),如果波形只有最低點(diǎn)而沒(méi)有次最低點(diǎn),判斷為 靜音片段,以這段音頻文件的終點(diǎn)為斷句點(diǎn);步驟40) 記錄下這個(gè)斷句點(diǎn);步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū),重復(fù) 執(zhí)行步驟20);步驟60)如果該10秒波形有次最低點(diǎn),以次最低點(diǎn)的波形數(shù)值做為降噪基值,對(duì)這IO秒音頻文件進(jìn)行強(qiáng)制降噪處理;步驟70)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔, 如果間隔小于O.l秒,即將間隔的波形替換為等長(zhǎng)的靜音, 將兩個(gè)靜音片段合并成一個(gè)靜音片段;步驟80)計(jì)算步驟70)處理后的波形文件中時(shí)間值在三秒以 后的每個(gè)靜音片段的長(zhǎng)度,如果出現(xiàn)超過(guò)0.5秒的靜音片段, 取其中最長(zhǎng)的一個(gè)靜音片段的終點(diǎn)做為斷句點(diǎn);步驟90) 記錄下這個(gè)斷句點(diǎn);步驟IOO)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū),重復(fù) 執(zhí)行步驟20),直到語(yǔ)音文件結(jié)束;步驟IIO)如果沒(méi)有找到斷句點(diǎn),則根據(jù)步驟30)降噪處理后 的波形文件,在此找到波形次最低點(diǎn),以這個(gè)點(diǎn)的數(shù)字做為 降噪基值,對(duì)這10秒音頻文件進(jìn)行再次強(qiáng)制降噪處理;步驟12Q)重復(fù)步驟60)繼續(xù)處理。
全文摘要
本發(fā)明為智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法。本發(fā)明公開(kāi)了一種在網(wǎng)絡(luò)環(huán)境下進(jìn)行多人協(xié)同聽(tīng)打錄入的方法,包括步驟有通過(guò)計(jì)算機(jī)采集語(yǔ)音;將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端;由其中一臺(tái)或多臺(tái)計(jì)算機(jī),根據(jù)語(yǔ)音間歇計(jì)算出斷句點(diǎn),并將時(shí)碼信息發(fā)送給服務(wù)器;服務(wù)器根據(jù)錄入端的請(qǐng)求,組織分配給錄入端任務(wù),并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給錄入端;錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)音對(duì)應(yīng)的文字,并傳回服務(wù)器;服務(wù)器將片段文本根據(jù)時(shí)碼順序拼合出完整的文稿。采用本發(fā)明方法的技術(shù)方案,能夠使多人協(xié)同完成一個(gè)聽(tīng)打錄入的任務(wù),降低了對(duì)單個(gè)錄入人員錄入速度的要求,并提高錄入文稿的質(zhì)量。
文檔編號(hào)G06Q10/10GK101178790SQ20061013839
公開(kāi)日2008年5月14日 申請(qǐng)日期2006年11月10日 優(yōu)先權(quán)日2006年11月10日
發(fā)明者鵬 胡 申請(qǐng)人:鵬 胡