智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法

文檔序號(hào)：6562165閱讀：319來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法
技術(shù)領(lǐng)域：
本發(fā)明公開(kāi)了一種在網(wǎng)絡(luò)環(huán)境下進(jìn)行多人協(xié)同完成從語(yǔ)音到文字轉(zhuǎn)換的聽(tīng)打錄入的方法。
背景技術(shù)：
目前已有的計(jì)算機(jī)記錄語(yǔ)音的聽(tīng)打方式主要有三種一種是傳統(tǒng) 的一個(gè)人一邊聽(tīng)一邊打，獨(dú)立完成全部聽(tīng)打任務(wù)；一種是將音頻文件錄制下來(lái)，然后通過(guò)程序或者手工分成以分鐘設(shè)置小時(shí)計(jì)算的大片段，然后交給不同的錄入人員進(jìn)行聽(tīng)打，最后通過(guò)人工把各大片段文稿拼合到一起完成錄入工作，原理上和第一種是一樣的；第三種是通過(guò)將采集音頻實(shí)時(shí)地分成連續(xù)地以秒為單位的小文件，然后將這些小文件傳給不同的人進(jìn)行錄入，然后通過(guò)服務(wù)器整合出來(lái)完整的文稿。
前兩種方式并不能完成實(shí)時(shí)的協(xié)同工作，而最后一種方式能夠達(dá) 到，但在大規(guī)模應(yīng)用中，其基于服務(wù)器進(jìn)行文件中轉(zhuǎn)的方式，會(huì)導(dǎo)致服務(wù)器傳輸壓力大，帶寬需求高，運(yùn)營(yíng)成本高；而且由于因?yàn)槊總€(gè)錄入端只有自己錄入的小文件的語(yǔ)音信息，在需要上下文的時(shí)候，無(wú)法及時(shí)調(diào)用前后的語(yǔ)音文件進(jìn)行輔助處理。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法。
本發(fā)明技術(shù)方案包括-步驟l)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào)；
步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端；
步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或
多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算；步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算
出斷句點(diǎn)，并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器；步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求，組織分配給錄入端錄入任務(wù)，
并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)
的錄入端；
步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)
音對(duì)應(yīng)的文字，并回傳給服務(wù)器；步驟7)服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序
拼合出完整的文字內(nèi)容，完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄
入工作。
根據(jù)上面敘述的流程，所述智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于所屬步驟2)、步驟3)、步驟4)，即傳輸機(jī)制、分布
式運(yùn)算機(jī)制和斷句點(diǎn)計(jì)算方法。
本方法中步驟2)采用點(diǎn)對(duì)點(diǎn)(P2P)的傳輸機(jī)制，即負(fù)責(zé)語(yǔ)音采
集的計(jì)算機(jī)作為信息源，向服務(wù)器和錄入端計(jì)算機(jī)傳輸所采集的語(yǔ)音文件；而參與該聽(tīng)打錄入任務(wù)的服務(wù)器和錄入端計(jì)算機(jī)既是文件的接收端，同時(shí)也是己經(jīng)接受部分文件的服務(wù)端，向其它沒(méi)有得到該部分文件的計(jì)算機(jī)傳輸該部分文件。這樣就可以將采集的音頻文件實(shí)時(shí)傳輸給服務(wù)器和參與該項(xiàng)工作的每個(gè)錄入端計(jì)算機(jī)。
本方法的步驟3)中服務(wù)器將根據(jù)各錄入端啟動(dòng)登錄時(shí)運(yùn)行的一個(gè)小測(cè)試程序發(fā)給服務(wù)器的系統(tǒng)綜合性能參數(shù)，來(lái)指定其中一臺(tái)或多
臺(tái)計(jì)算機(jī)來(lái)完成斷句點(diǎn)的計(jì)算任務(wù)，參與計(jì)算斷句點(diǎn)的計(jì)算機(jī)不僅包括各錄入端計(jì)算機(jī)，也包括服務(wù)器本身。
本方法中步驟4)計(jì)算斷句點(diǎn)的方法的典型步驟如下-步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū)；
步驟20)根據(jù)這10秒音頻文件的波形數(shù)據(jù)，找到波形峰值中
最高的前10個(gè)；
步驟30)如果這10個(gè)峰值中有5個(gè)以上等于0，判斷為靜音
片段，以這段音頻文件的終點(diǎn)為斷句點(diǎn)；步驟40)記錄下這個(gè)斷句點(diǎn)；
步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū)；
步驟60)如果未處理的語(yǔ)音文件還大于10秒，重復(fù)執(zhí)行步驟
20);如果已經(jīng)不足10秒，跳轉(zhuǎn)到步驟70)。步驟70)直接以終點(diǎn)為斷句點(diǎn)，流程結(jié)束步驟80) 如果該10個(gè)峰值中有5個(gè)以上不等于0，以這10個(gè)
峰值的算數(shù)平均值的10%做為降噪基值，對(duì)這10秒音頻文
件進(jìn)行強(qiáng)制降噪處理；步驟90)判斷降噪后是否出現(xiàn)值等于O的區(qū)域，即靜音片段; 步驟IOO)如果沒(méi)有靜音片段，返回步驟60)再次進(jìn)行強(qiáng)制降
噪處理。
步驟IIO)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔，如果間隔小于0. 1秒，即將間隔的波形替換為等長(zhǎng)的靜音，將兩個(gè)靜音片段合并成一個(gè)靜音片段；
步驟120)計(jì)算步驟110)處理后的波形文件中時(shí)間值在三秒以
后的每個(gè)靜音片段的長(zhǎng)度；
步驟130)判斷這些靜音片是否有超過(guò)0.5秒的；
步驟140)如果出現(xiàn)超過(guò)0. 5秒的靜音片段，取其中最長(zhǎng)的一個(gè)
靜音片段的終點(diǎn)做為斷句點(diǎn)，并跳轉(zhuǎn)到步驟40); 步驟150)如果沒(méi)有超過(guò)0.5秒的靜音片段，跳轉(zhuǎn)到步驟80);

附圖1為本發(fā)明智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法的流程圖
附圖2為計(jì)算斷句點(diǎn)的流程圖
附圖3為10秒鐘語(yǔ)音文件的原始波形圖
附圖4為第一次強(qiáng)制降噪后的10秒鐘波形
附圖5為第二次強(qiáng)制降噪后的10秒鐘波形
具體實(shí)施例方式
下面結(jié)合附圖進(jìn)一步說(shuō)明本發(fā)明的具體實(shí)施方式
。
附圖1為整個(gè)實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法的流程圖
步驟l)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào)；
步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端；
步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或
多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算；步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算
出斷句點(diǎn)，并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器；步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求，組織分配給錄入端錄入任務(wù)，
并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)的
錄入端；
步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ) 音對(duì)應(yīng)的文字，并回傳給服務(wù)器；
步驟7)服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序
拼合出完整的文字內(nèi)容，完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄入工作。
附圖2是上面步驟4)中指定計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算斷句點(diǎn)的流程圖-.
步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū)；
步驟20)根據(jù)這10秒音頻文件的波形數(shù)據(jù)，如附圖3-10秒鐘
語(yǔ)音文件的原始波形圖，找到波形峰值中最高的前10個(gè)；
步驟30)如果這10個(gè)峰值中有5個(gè)以上等于0，判斷為靜音片段，以這段音頻文件的終點(diǎn)為斷句點(diǎn)。靜音片的特征很明顯，波形為一條直線(xiàn)，如果其中出現(xiàn)人聲，根據(jù)人聲發(fā)音的特征，那怕是半秒鐘的音頻也一定會(huì)大大超過(guò)5個(gè)以上的峰值；另一種10秒鐘中出現(xiàn)低于5個(gè)峰值的情況是出現(xiàn)在延續(xù)時(shí)間長(zhǎng)而且有規(guī)律的音頻中，如示波器出現(xiàn)的正弦波形，根據(jù)人聲發(fā)音的特征，正常的語(yǔ)音發(fā)音也是不可能發(fā)出這樣的聲音的，所以對(duì)聽(tīng)打錄入沒(méi)有實(shí)際意義，故也被視同為靜音片。
步驟40)記錄下這個(gè)斷句點(diǎn)；
步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū)；步驟60)如果未處理的語(yǔ)音文件還大于10秒，重復(fù)執(zhí)行步驟
20);如果已經(jīng)不足10秒，跳轉(zhuǎn)到步驟70)。步驟70)直接以終點(diǎn)為斷句點(diǎn)，流程結(jié)束步驟80)如果該10個(gè)峰值中有5個(gè)以上不等于0，以這10個(gè)
峰值的算數(shù)平均值的10%做為降噪基值，對(duì)這10秒音頻文
件進(jìn)行強(qiáng)制降噪處理；步驟90)判斷降噪后是否出現(xiàn)值等于O的區(qū)域，即靜音片段;
步驟IOO)如果處理后如附圖4-第一次強(qiáng)制降噪后的IO秒鐘波形，沒(méi)有靜音片段，返回步驟60)再次進(jìn)行強(qiáng)制降噪處理，直到得到如附圖5-第二次強(qiáng)制降噪后的IO秒鐘波形所示的有靜音片段的波形。
步驟IIO)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔，如果間隔小于O. 1秒，即將間隔的波形替換為等長(zhǎng)的靜音，將兩個(gè)靜音片段合并成一個(gè)靜音片段；
步驟120)計(jì)算步驟110)處理后的波形文件中時(shí)間值在三秒以
后的每個(gè)靜音片段的長(zhǎng)度；步驟130)判斷這些靜音片是否有超過(guò)0.5秒的；步驟140)如果出現(xiàn)超過(guò)0. 5秒的靜音片段，取其中最長(zhǎng)的一個(gè)
靜音片段的終點(diǎn)做為斷句點(diǎn)，并跳轉(zhuǎn)到步驟40); 步驟150)如果沒(méi)有超過(guò)0.5秒的靜音片段，跳轉(zhuǎn)到步驟80); 綜上所述，通過(guò)這樣的方法就可以由多人協(xié)同完成從語(yǔ)音到文字轉(zhuǎn)換的聽(tīng)打錄入的工作，并且具備多項(xiàng)優(yōu)點(diǎn)通過(guò)P2P架構(gòu)分發(fā)語(yǔ)音文件，能夠有效利用網(wǎng)絡(luò)帶寬，降低了大規(guī)模應(yīng)用中對(duì)服務(wù)器帶寬的要求；每個(gè)錄入端都有完整的語(yǔ)音信息，所以參與這項(xiàng)任務(wù)的每臺(tái)計(jì) 算機(jī)都可以參與斷句點(diǎn)的計(jì)算；并且當(dāng)發(fā)生錄入端斷線(xiàn)或者退出等情況時(shí)，服務(wù)器調(diào)整分配的任務(wù)，只需要將任務(wù)控制信息傳給其他的錄入端，而不需要再次傳輸語(yǔ)音文件；通過(guò)服務(wù)器分派任務(wù)，實(shí)現(xiàn)多人協(xié)作完成聽(tīng)打錄入工作，每個(gè)人只負(fù)責(zé)其中的一部分，大幅度降低了對(duì)單個(gè)錄入人員錄入速度的要求，同時(shí)也提高了錄入文稿的完整性。
權(quán)利要求
1.一種智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于，包括步驟1)通過(guò)計(jì)算機(jī)采集語(yǔ)音信號(hào)；步驟2)將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端；步驟3)通過(guò)服務(wù)器指派網(wǎng)絡(luò)上參與這一錄入任務(wù)的任意一臺(tái)或多臺(tái)計(jì)算機(jī)進(jìn)行斷句點(diǎn)運(yùn)算；步驟4)接收到斷句計(jì)算任務(wù)的計(jì)算機(jī)根據(jù)語(yǔ)音間歇的特征計(jì)算出斷句點(diǎn)，并將斷句點(diǎn)時(shí)碼信息發(fā)送給服務(wù)器；步驟5)服務(wù)器根據(jù)錄入端的請(qǐng)求，組織分配給錄入端錄入任務(wù)，并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給相應(yīng)的錄入端；步驟6)錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)音對(duì)應(yīng)的文字，并回傳給服務(wù)器；步驟7) 服務(wù)器將各錄入端的文本根據(jù)任務(wù)分配計(jì)劃的時(shí)碼順序拼合出完整的文字內(nèi)容，完成將語(yǔ)音轉(zhuǎn)化成文字的聽(tīng)打錄入工作。
2. 根據(jù)權(quán)利要求1所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于，所屬步驟2)、步驟3)、步驟4)，即傳輸機(jī)制、分布式運(yùn)算機(jī)制和斷句點(diǎn)計(jì)算方法。
3. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于，步驟2)采用點(diǎn)對(duì)點(diǎn)(P2P)的傳輸機(jī)制，即負(fù)責(zé)語(yǔ) 音釆集的計(jì)算機(jī)作為信息源，向服務(wù)器和錄入端計(jì)算機(jī)傳輸所采集的語(yǔ)音文件；而參與該聽(tīng)打錄入任務(wù)的服務(wù)器和錄入端計(jì)算機(jī)既是文件的接收端，同時(shí)也是已經(jīng)接受部分文件的服務(wù)端，向其它沒(méi)有得到該部分文件的計(jì)算機(jī)傳輸該部分文件；這樣就可以將采集的音頻文件實(shí) 時(shí)傳輸給服務(wù)器和參與該項(xiàng)工作的每個(gè)錄入端計(jì)算機(jī)。
4. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于，步驟3)中服務(wù)器將根據(jù)各錄入端啟動(dòng)登錄時(shí)運(yùn)行的一個(gè)小測(cè)試程序發(fā)給服務(wù)器的系統(tǒng)綜合性能參數(shù)，來(lái)指定其中一臺(tái) 或多臺(tái)計(jì)算機(jī)來(lái)完成斷句點(diǎn)的計(jì)算任務(wù)，參與計(jì)算斷句點(diǎn)的計(jì)算機(jī)不僅包括各錄入端計(jì)算機(jī)，也包括服務(wù)器本身。
5. 根據(jù)權(quán)利要求2所述的智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法，其特征在于，步驟4)計(jì)算斷句點(diǎn)的方法如下步驟步驟IO)取語(yǔ)音文件的前10秒讀入緩沖區(qū)；步驟20)通過(guò)自動(dòng)增益將音量調(diào)整到適合人耳聽(tīng)覺(jué)合適的范圍中；步驟30)根據(jù)這10秒音頻文件的波形數(shù)據(jù)，找到波形最低點(diǎn) 和次最低點(diǎn)，如果波形只有最低點(diǎn)而沒(méi)有次最低點(diǎn)，判斷為靜音片段，以這段音頻文件的終點(diǎn)為斷句點(diǎn)；步驟40) 記錄下這個(gè)斷句點(diǎn)；步驟50)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū)，重復(fù) 執(zhí)行步驟20);步驟60)如果該10秒波形有次最低點(diǎn)，以次最低點(diǎn)的波形數(shù)值做為降噪基值，對(duì)這IO秒音頻文件進(jìn)行強(qiáng)制降噪處理；步驟70)計(jì)算降噪后的波形文件中每個(gè)靜音片段間的間隔，如果間隔小于O.l秒，即將間隔的波形替換為等長(zhǎng)的靜音，將兩個(gè)靜音片段合并成一個(gè)靜音片段；步驟80)計(jì)算步驟70)處理后的波形文件中時(shí)間值在三秒以后的每個(gè)靜音片段的長(zhǎng)度，如果出現(xiàn)超過(guò)0.5秒的靜音片段，取其中最長(zhǎng)的一個(gè)靜音片段的終點(diǎn)做為斷句點(diǎn)；步驟90) 記錄下這個(gè)斷句點(diǎn)；步驟IOO)從語(yǔ)音文件斷句點(diǎn)之后再取10秒讀入緩沖區(qū)，重復(fù) 執(zhí)行步驟20)，直到語(yǔ)音文件結(jié)束；步驟IIO)如果沒(méi)有找到斷句點(diǎn)，則根據(jù)步驟30)降噪處理后的波形文件，在此找到波形次最低點(diǎn)，以這個(gè)點(diǎn)的數(shù)字做為降噪基值，對(duì)這10秒音頻文件進(jìn)行再次強(qiáng)制降噪處理；步驟12Q)重復(fù)步驟60)繼續(xù)處理。
全文摘要
本發(fā)明為智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法。本發(fā)明公開(kāi)了一種在網(wǎng)絡(luò)環(huán)境下進(jìn)行多人協(xié)同聽(tīng)打錄入的方法，包括步驟有通過(guò)計(jì)算機(jī)采集語(yǔ)音；將語(yǔ)音文件同步傳輸給服務(wù)器及各錄入端；由其中一臺(tái)或多臺(tái)計(jì)算機(jī)，根據(jù)語(yǔ)音間歇計(jì)算出斷句點(diǎn)，并將時(shí)碼信息發(fā)送給服務(wù)器；服務(wù)器根據(jù)錄入端的請(qǐng)求，組織分配給錄入端任務(wù)，并將分配任務(wù)的斷句時(shí)碼信息作為控制命令發(fā)送給錄入端；錄入端根據(jù)分配任務(wù)的時(shí)碼起點(diǎn)和終點(diǎn)錄入指定部分語(yǔ)音對(duì)應(yīng)的文字，并傳回服務(wù)器；服務(wù)器將片段文本根據(jù)時(shí)碼順序拼合出完整的文稿。采用本發(fā)明方法的技術(shù)方案，能夠使多人協(xié)同完成一個(gè)聽(tīng)打錄入的任務(wù)，降低了對(duì)單個(gè)錄入人員錄入速度的要求，并提高錄入文稿的質(zhì)量。
文檔編號(hào)G06Q10/10GK101178790SQ20061013839
公開(kāi)日2008年5月14日申請(qǐng)日期2006年11月10日優(yōu)先權(quán)日2006年11月10日
發(fā)明者鵬胡申請(qǐng)人:鵬胡

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡鵬
技術(shù)所有人：胡鵬
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多智能體協(xié)同控制相關(guān)技術(shù)

智能車(chē)路協(xié)同系統(tǒng)相關(guān)技術(shù)

智能發(fā)電協(xié)同創(chuàng)新中心相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

智能虛擬斷句實(shí)現(xiàn)協(xié)同聽(tīng)打錄入的方法