語音質(zhì)量監(jiān)控的方法和裝置制造方法
【專利摘要】一種語音質(zhì)量監(jiān)控的方法和裝置,解決了使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控的難題。方法包括:從輸入的信號中截取一個或多個語音信號段;對每個語音信號段進行語段分割,獲得一個或多個語段;對語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。與方法對應的裝置包括分類單元、語段分割單元、質(zhì)量評估單元上述技術(shù)方案,通過對輸入的信號進行信號分類;對分類后截取的語音信號段進行語段分割;以分割后的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
【專利說明】語音質(zhì)量監(jiān)控的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻【技術(shù)領(lǐng)域】,更具體地涉及語音質(zhì)量監(jiān)控的方法和裝置。
【背景技術(shù)】
[0002]在音頻技術(shù)研究領(lǐng)域,應用戶或技術(shù)供應方的需求,需要反映相關(guān)音頻技術(shù)的好與壞,也就是需要進行語音質(zhì)量監(jiān)控,并輸出質(zhì)量評估結(jié)果。
[0003]然而,基于不同技術(shù)的質(zhì)量評估方法或裝置存在如下問題。例如,對于待評估的音頻信號有長度要求,例如不超過20秒。或者,對于較長的待評估的音頻信號需要一次性輸入,增加了評估裝置的硬件成本。這些問題使得如何使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控成為一個難題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明實施例提供一種語音質(zhì)量監(jiān)控的方法和裝置,以解決使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控的難題。
[0005]第一方面,提供了一種語音質(zhì)量監(jiān)控的方法,包括:從輸入的信號中截取一個或多個語音信號段;對每個語音信號段進行語段分割,獲得一個或多個語段;對語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
[0006]在第一種可能的實現(xiàn)方式中,根據(jù)語音活躍度對每個所述語音信號段進行語段分害IJ,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性;或?qū)⒚總€所述語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
[0007]結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,分析語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將語音信號段分割成一個或多個語段。
[0008]結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,分析語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將語音信號段分割成一個或多個語段;確定分割后相鄰的兩個語段的狀態(tài)切換點之間的時長T ;將時長T與門限閾值比較,根據(jù)比較結(jié)果,調(diào)整兩個語段的各自時長,獲得調(diào)整時長后的語段,對語段進行語音質(zhì)量評估包括:對調(diào)整時長后的語段進行質(zhì)量評估。
[0009]結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,當時長T大于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當時長T小于等于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5*Τ時長。
[0010]結(jié)合第一方面或第一方面的上述可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,以單位時間對輸入的信號進行分割,獲得多個單位時間的輸入的信號;通過分析單位時間的輸入的信號,確定單位時間的輸入的信號為語音信號或非語音信號;將確定為語音信號的單位時間的輸入的信號作為語音信號段。
[0011]結(jié)合第一方面或第一方面的上述可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,對語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0012]第二方面,提供了一種語音質(zhì)量檢測的裝置,包括分類單元、語段分割單元、質(zhì)量評估單元:信號分類單元用于從輸入的信號中截取一個或多個語音信號段,并發(fā)送到語段分割單元;語段分割單元用于對從信號分類單元接收的每個語音信號段進行語段分割,獲得一個或多個語段,并發(fā)送到質(zhì)量評估單元;質(zhì)量評估單元用于對從語段分割單元接收的語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
[0013]在第一種可能的實現(xiàn)方式中,語段分割單元用于根據(jù)語音活躍度對每個語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性;或語段分割單元,用于將每個語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
[0014]結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,語段分割單元包括:語音活躍度檢測單元,語音活躍度檢測單元用于分析語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將語音信號段分割成一個或多個語段。
[0015]結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,語段分割單元包括語音活躍度檢測單元和時長確定單元:語音活躍度檢測單元用于分析語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將語音信號段分割成一個或多個語段;時長確定單元用于確定相鄰的兩個語段的狀態(tài)切換點之間的時長T ;將時長T與門限閾值比較,根據(jù)比較結(jié)果,調(diào)整兩個語段的各自時長,獲得調(diào)整時長后的語段,并將調(diào)整時長后的語段發(fā)送給質(zhì)量評估單元;質(zhì)量評估單元,用于對時長確定單元調(diào)整時長后的語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲取質(zhì)量評估結(jié)果。
[0016]結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,時長確定單元具體用于:當時長T大于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當時長T小于等于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5*Τ時長。
[0017]結(jié)合第二方面或第二方面的上述可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,信號分類單元具體用于:以單位時間對輸入的信號進行分割,獲得多個單位時間的輸入的信號;通過分析單位時間的輸入的信號,確定單位時間的輸入的信號為語音信號或非語音信號;將確定為語音信號的單位時間的輸入的信號作為語音信號段。
[0018]結(jié)合第二方面或第二方面的上述可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,質(zhì)量評估單元用于對語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0019]上述技術(shù)方案,通過對輸入的信號截取語音信號段,對于語音信號段進行語段分害h以分割后的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果?!緦@綀D】
【附圖說明】
[0020]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0021]圖1是本發(fā)明實施例1的語音質(zhì)量監(jiān)控的方法的示意流程圖。
[0022]圖2是本發(fā)明實施例2的信號分類的方法的示意流程圖。
[0023]圖3是本發(fā)明實施例3的語段分割的方法的示意流程圖。
[0024]圖4是本發(fā)明實施例4的兩個語段的示意圖。
[0025]圖5A和圖5B是本發(fā)明實施例5的語段分割算法的示意圖。
[0026]圖6是本發(fā)明實施例6的非侵入式質(zhì)量評估方法的示意流程圖。
[0027]圖7A和圖7B是本發(fā)明實施例7的語音質(zhì)量監(jiān)控的裝置的示意框圖。
[0028]圖8是本發(fā)明實施例8的語音質(zhì)量監(jiān)控的裝置的示意框圖。
【具體實施方式】
[0029]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都應屬于本發(fā)明保護的范圍。
[0030]本發(fā)明實施例所涉及的技術(shù)主要是通過分析語音信號,預測出人的主觀體驗。一種應用場景例如將使用本發(fā)明實施例技術(shù)方案的裝置嵌入到移動電話中、或移動電話使用本發(fā)明實施例的技術(shù)方案,對通話中的語音質(zhì)量進行評估。具體地,對于通話中的一側(cè)移動電話,其接收到碼流后通過解碼,可以重構(gòu)出語音信號;將該語音信號作為本發(fā)明實施例的輸入的語音信號,可以獲得接收到的語音的質(zhì)量;該語音質(zhì)量基本反映出用戶真實聽到的語音質(zhì)量。因此,通過在移動電話中使用本發(fā)明實施例所涉及的技術(shù)方案,可以有效地評估出人的主觀感受。
[0031]此外一般地,語音數(shù)據(jù)需要通過網(wǎng)絡中的若干節(jié)點后,才能傳遞到接收方。由于一些因素影響,在經(jīng)過網(wǎng)絡傳遞后,語音質(zhì)量有可能下降。因此,檢測網(wǎng)絡側(cè)各節(jié)點的語音質(zhì)量是非常有意義的。然而,現(xiàn)有很多方法更多地反映了傳輸層面的質(zhì)量,并不一一對應于人的真實感受。因此,可以考慮將本發(fā)明實施例所述的技術(shù)方案應用到各網(wǎng)絡節(jié)點,同步地進行質(zhì)量預測,找到質(zhì)量瓶頸。例如:對于任意網(wǎng)絡結(jié)果,我們通過分析碼流,選擇特定的解碼器,對碼流進行本地解碼,重構(gòu)出語音信號;將該語音信號作為本發(fā)明實施例的輸入的語音信號,可以獲得該節(jié)點的語音質(zhì)量;通過對比不同節(jié)點的語音質(zhì)量,我們可以定位出質(zhì)量需要改進的節(jié)點。因此,此應用對于運營商進行網(wǎng)優(yōu)可以起到重要的輔助作用。
[0032]在網(wǎng)絡上傳輸?shù)男盘柖喾N多樣。例如一路通話,在接通時有彩鈴聲(音樂);有主叫的說話聲;當主叫不說話時,會存在長度不定的靜音等。一路通話的長度是不可預知的,對于固定的評估模型,用于質(zhì)量評估處理的數(shù)據(jù)量具備不確定性。此外,因為人說話過程中需要停頓或靜音,一般長度為5s左右。語音質(zhì)量評估方法應該是當說話人停頓時,立即打出上一段的質(zhì)量評估結(jié)果。[0033]上述輸入的待評估的音頻信號可以是實時的,也可以是非實時的。然而,對于輸入的音頻信號較長時,例如幾分鐘甚至更長,現(xiàn)有技術(shù)需要將上述音頻信號一次輸入,增加了硬件成本的同時,對于實時的應用場景無法實現(xiàn)快速評估,而對于非實時的應用場景僅給出一個評估結(jié)果不夠合理。
[0034]針對上述問題本發(fā)明實施例提供了 一種語音質(zhì)量監(jiān)控的方法和裝置。
[0035]圖1是本發(fā)明實施例1的語音質(zhì)量監(jiān)控的方法的示意流程圖,包括以下內(nèi)容。
[0036]S11,從輸入的信號中截取一個或多個語音信號段。
[0037]對輸入的信號,得到一個或多個語音信號段。通常,作為輸入的信號的一段音頻信號可以包括語音信號和非語音信號。非語音信號例如音樂等??蛇x的,通過對輸入的信號進行分類,可以對分類后的信號分別進行質(zhì)量評估。質(zhì)量評估通常是對語音信號進行打分。因此,從該步驟中可以截取有用的語音信號,同時去除無關(guān)信號例如音樂等,由此優(yōu)化也就是精簡了待評估的數(shù)據(jù)量
[0038]S12,對每個語音信號段進行語段分割,獲得一個或多個語段。
[0039]對每一個語音信號段進行進一步的分割,獲得語段(英文為Voice segment)??蛇x的,所獲得的語段作為考慮了靜音或停頓等因素后更為合理的語音評估的單位。
[0040]S13,對語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
[0041]可以采用各種非侵入式話音質(zhì)量評估的方法,更利于對網(wǎng)絡中實時輸入的信號進行語音質(zhì)量監(jiān)控。
[0042]當輸入的信號為連續(xù)的,例如網(wǎng)絡中實時的信號,根據(jù)本發(fā)明實施例的技術(shù)方案可以支持不間斷的網(wǎng)絡質(zhì)量監(jiān)控。
[0043]本發(fā)明實施例提供了語音質(zhì)量監(jiān)控的方法,通過對輸入的信號截取語音信號段,對于語音信號段進行語段分割;以分割后的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0044]可選的,作為不同的實施例,所述對每個所述語音信號段進行語段分割,獲得一個或多個語段,包括:根據(jù)語音活躍度對每個所述語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性;或?qū)⒚總€所述語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長??蛇x的,作為不同的實施例,所述對每個所述語音信號段進行語段分割,獲得一個或多個語段,包括:分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。
[0045]一個實施例中,按照語音活躍度將語音信號段分割為一個或多個語段,具體包括:分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。這個實施例中,每個語段僅包含活躍的時長。通過去除語音段中所有連續(xù)的非活躍幀,僅對活躍幀做分析,可以使用較低成本獲得較為精確的語音質(zhì)量評估結(jié)果。
[0046]另一個實施例中,按照語音活躍度分割為一個或多個語段后,確定相鄰的兩個語段的狀態(tài)切換點之間的時長T ;將時長T與門限閾值比較,根據(jù)比較結(jié)果調(diào)整兩個語段的各自時長,將調(diào)整時長后的語段作為語音質(zhì)量評估的語段。其中所述對所述語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果,具體包括對所述調(diào)整時長后的所述語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。這個實施例中,每個語段中包括一個有起始的活躍的時長和部分非活躍的時長。通過對活躍幀構(gòu)成的語段增加一部分靜音構(gòu)成語段,可以使得語音質(zhì)量評估更為平穩(wěn)。
[0047]可選的,作為不同的實施例,將所述時長T與門限閾值比較,根據(jù)所述比較結(jié)果,則調(diào)整所述兩個語段的各自時長,獲得調(diào)整時長后的所述語段,包括:當所述時長T大于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當所述時長T小于等于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5*Τ時長。
[0048]可選的,作為不同的實施例,所述對輸入的信號進行信號分類,截取多個語音信號段,包括:以單位時間對所述輸入的信號進行分割,獲得多個單位時間的所述輸入的信號;通過分析所述單位時間的所述輸入的信號,確定所述單位時間的所述輸入的信號為語音信號或非語音信號;將確定為語音信號的所述單位時間的所述輸入的信號作為所述語音信號段。
[0049]可選的,作為不同的實施例,所述對所述語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果,包括:對所述語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0050]在現(xiàn)網(wǎng)中,接收到信號種類多種多樣。例如一路通話,在接通時有彩鈴聲,也就是音樂、有主叫的說話聲、當主叫不說話時還會存在長度不定的靜音等。現(xiàn)有技術(shù)中非侵入式質(zhì)量評估標準主要是用于語音,對音樂等其它類型的評估能力還不足。因此,當為了做到不間斷的實時質(zhì)量監(jiān)控,則需要剔除無關(guān)信號例如非語音信號,有針對性地預測語音信號的質(zhì)量,從而達到準確的監(jiān)控效果。
[0051]經(jīng)典的信號分類,一般會把信號分成語音和音樂兩類。雖然是進行逐幀地分析,但在實際應用中,信號分類方法均考慮到了一定時間內(nèi)信號分類的平穩(wěn)性,避免頻繁地出現(xiàn)切換。實驗表明,頻繁地切換模式,對語音傳輸有很大的影響。一個極端的例子是奇數(shù)幀判決為語音,偶數(shù)幀判決為音樂,這種不穩(wěn)定性不僅影響編碼、傳輸,也影響質(zhì)量監(jiān)控的實現(xiàn)。
[0052]因此,為了避免頻繁的模式切換,實際應用中一般是在一段時間內(nèi),例如以秒為單位的時間內(nèi),分類結(jié)果是一致的。
[0053]信號分類的方法有很多,作為優(yōu)選的實施例,可以通過音調(diào)特性例如音調(diào)的個數(shù)、分布規(guī)律等進行信號分類。圖2示出本發(fā)明實施例2的信號分類的方法的示意流程圖,包括以下內(nèi)容。
[0054]S21,以單位時間對輸入的信號進行分割,獲得一個或多個單位時間的輸入的信號。
[0055]接下來,通過分析單位時間的輸入的信號,確定單位時間的輸入的信號為語音信
號或非語音信號。
[0056]在該步驟中本發(fā)明優(yōu)選地實施例是通過提取單位時間的輸入的信號的音調(diào)特性例如音調(diào)分量的個數(shù)、分布規(guī)律等來確定該單位時間的輸入的信號為語音信號或非語音信號。
[0057]S22,針對每一個單位時間的輸入的信號,確定其包括的音調(diào)分量個數(shù)的均值是否相對較大。與閾值比較,如果音調(diào)分量個數(shù)的均值相對較大,即S22的判斷結(jié)果為“是”,則執(zhí)行S23。反之,即S22的判斷結(jié)果為“否”,則執(zhí)行S24。
[0058]S23,確定該單位時間的輸入的信號為非語音信號。
[0059]S24,針對每一個單位時間的輸入的信號,確定其音調(diào)分量在低頻的分布比率是否相對較小。與閾值比較,如果音調(diào)分量在低頻的分布比率相對較小,即S24的判斷結(jié)果為“是”,則執(zhí)行S23。反之,即S24的判斷結(jié)果為“否”,則執(zhí)行S25。
[0060]S25,確定該單位時間的輸入的信號為語音信號,將該單位時間的輸入的信號作為語音信號段用于后續(xù)的處理。
[0061]本發(fā)明實施例通過剔除輸入的信號中的無關(guān)信號,S卩非語音信號,可以有針對性地對語音信號進行語音質(zhì)量評估,從而達到準確的監(jiān)控效果。
[0062]可選的,將每個語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。然而,經(jīng)信號分類,在現(xiàn)網(wǎng)中截取出的一段語音信號段可能包含多個部分,例如:人在8秒中的時間內(nèi)說了兩段短語,且短語間有一定的停頓。因此,為了更精細的分析,需要對截出的語音信號做語段分割,更客觀的質(zhì)量評估方法是分離出一個或多個語段,分別對每一個語段進行打分。因此,可選的,作為不同的實施例,根據(jù)語音活躍度對每個所述語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性。對通過語音活躍度分析獲得的語段進行語音質(zhì)量評估,得到的評估結(jié)果更精確。圖3是本發(fā)明實施例3的語段分割的方法的示意流程圖。
[0063]S31,分析語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將語音信號段分割成一個或多個語段。
[0064]圖4是本發(fā)明實施例4的兩個語段的示意圖。如圖4所示,根據(jù)語音活躍度(英文為Voice Activity),起止時間為[T0,Tl]的語音信號段分割成兩個語段41、42,起始時間分別為[T0,T’]和[T’,T1]。語段分割可以采用現(xiàn)有技術(shù)的VAD (英文為Vocie ActivityDetection,中文為語音活躍度檢測)技術(shù)。
[0065]針對語段分割的VAD檢測技術(shù)可以大致分成兩個步驟:
[0066]步驟1:將語音信號段逐幀地標識出每一幀是活躍或非活躍?,F(xiàn)有技術(shù)中的一般方法是通過計算每一幀的能量、頻譜等信息,并與閾值進行比較來確定每幀的活躍度。當小于閾值時,定義為非活躍;反之,定義為活躍。
[0067]步驟2:在實現(xiàn)過程中,為避免頻繁地出現(xiàn)活躍到非活躍、或非活躍到活躍的切換,會進行平滑出現(xiàn),確保一段時間內(nèi)的狀態(tài)是一致的。
[0068]因此,當出現(xiàn)狀態(tài)切換時,就將當前幀標識為一語段的開始或結(jié)束。具體地,當出現(xiàn)非活躍到活躍的切換,語段狀態(tài)切換點標識為開始;當出現(xiàn)活躍到非活躍的切換,語段狀態(tài)切換點標識為結(jié)束。
[0069]因此,每個語段中包括由一對語段狀態(tài)切換點限定的從開始到結(jié)束的時長,狀態(tài)為活躍;以及該時長之前或之后為了平滑過渡的一段時長,狀態(tài)為非活躍。
[0070]S32,確定分割后語段個數(shù)是否大于I。當語段的個數(shù)為1,即S32的判斷結(jié)果為“是”,則執(zhí)行S37。反之,即S32的判斷結(jié)果為“否”,則執(zhí)行S33。
[0071]作為一種實現(xiàn)方式,接下來可以對分割后的語段例如圖4中的41和42逐個進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。但本發(fā)明實施例提供了一個更優(yōu)選的方法,說明如下。[0072]S33,確定分割后相鄰的兩個語段的狀態(tài)切換點之間的時長T。
[0073]從圖4中還可以看到,兩個語段41、42的狀態(tài)切換點之間仍然有一定的時長T,如圖中的43,可能是長時間的靜音。對包括長時間的靜音的語段進行質(zhì)量分析使得語音質(zhì)量監(jiān)控的結(jié)果不夠精確。為了更精細的分析,本發(fā)明實施例優(yōu)選地通過將時長T與門限閾值比較,根據(jù)比較結(jié)果,調(diào)整兩個語段的各自時長,獲得調(diào)整時長后的上述語段,對上述調(diào)整時長后的語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0074]S34,比較時長T與門限閾值大小。如果時長T大于門限閾值時,即S34的判斷結(jié)果為“是”,則執(zhí)行S35。如果時長T小于等于門限閾值時,即S34的判斷結(jié)果為“否”,則執(zhí)行 S36。
[0075]S35,當時長T大于門限閾值時,前一個語段的結(jié)束位置,由原狀態(tài)切換點向后延長0.5倍門限閾值;后一個語段的開始位置,由原狀態(tài)切換點向前延長0.5倍門限閾值,獲得調(diào)整時長后的兩個語段,隨后執(zhí)行S37。
[0076]圖5A和圖5B是本發(fā)明實施例5的語段分割算法的示意圖。為了說明方便,其中BlO等價于圖4的T0,B21等價于圖4的Tl,時長[B10,B21]即為一個語音信號段。該語音信號段經(jīng)過VAD檢測,確定以下時長[B10,T10]、[Τ11,Τ20]和[Τ21,Β21]的語音活躍度為0,即狀態(tài)為非活躍。時長[Τ10,Τ11]和[Τ20,Τ21]的語音活躍度為1,即狀態(tài)為活躍。
[0077]舉例來說,參考圖5Α,經(jīng)過上述VAD檢測,對于[Β10,Β21]間,我們獲得兩個相對獨立的語段51、52,其中語段51的起止時間為[Β10,Β11],語段52的起止時間為[Β20,Β21]。當?shù)谝粋€語段狀態(tài)切換點Tll和第二個語段狀態(tài)切換點Τ20的間距小于等于一個經(jīng)驗閾值THD,例如:450ms時,本發(fā)明認為以上兩個語段是相鄰的。因此,分別對[B10,B11]和[B20,B21]兩個語段進行質(zhì)量評估。需要注意的,Bll和B20是重合點,且為Tll和T20時刻間的中心點。
[0078]S36,當時長T小于等于門限閾值時,前一個語段的結(jié)束位置,由原狀態(tài)切換點延長0.5*T時長;后一個語段的開始位置,由原狀態(tài)切換點向前延長0.5*Τ時長,獲得調(diào)整時長后的兩個語段,隨后執(zhí)行S37。
[0079]舉例來說,參考圖5Β,經(jīng)過上述VAD檢測,對于[Β10,Β21]間,我們獲得兩個相對獨立的語段51、52,其中語段51的起止時間為[Β10,Β11],語段52的起止時間為[Β20,Β21]。當?shù)谝粋€語段狀態(tài)切換點Tll和第二個語段狀態(tài)切換點Τ20的間距大于一個經(jīng)驗閾值(例如:450ms)時,本發(fā)明認為以上兩個語段是非相鄰的,中間存在大段的靜音。對于靜音,進行質(zhì)量評估沒有任何的意義。因此,分別指定[T11,B11]和[B20,T20]的長度為0.5*THD后,分別對[B10,B11]和[B20,B21]兩個語段進行質(zhì)量評估;[BI 1,B20]之間定義為絕對靜音段,無需進行質(zhì)量評估。需要注意的,Bll和B20不是重合點。
[0080]S37,對調(diào)整了時長后的語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0081]當分割后的語段僅有一個時,則直接對該語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。當分割后的語段有多個時,則對調(diào)整了時長的該語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0082]本發(fā)明實施例在對輸入的信號進行語音分類的基礎(chǔ)上,利用VAD檢測,分割出進行質(zhì)量評估更為客觀的單位,即語段;此外,還對參與質(zhì)量評估的語段進行了時長的優(yōu)化,使得質(zhì)量評估進一步精確。[0083]現(xiàn)有技術(shù)包括侵入式質(zhì)量評估方法和非侵入式質(zhì)量評估方法。在主叫方,我們將編碼前的信號定義為參考信號SKrf,考慮到編碼、以及后續(xù)傳輸對語音質(zhì)量的負面影響,Sltef一般是整個流程中的最優(yōu)質(zhì)量。對應地,我們定義經(jīng)過解碼后的信號定義為接收信號Slteg,一般地,Slteg質(zhì)量次于SKrf。從Sltef分析到Slteg,質(zhì)量下降的主要因素包括:編碼和傳輸?shù)取G秩胧劫|(zhì)量方法中,根據(jù)SKrf、SDeg進行侵入式評估,輸出語音質(zhì)量評估的結(jié)果,即MOS-LQO (英文為Mean Opinion Score-Listening Quality Objectives,中文為平均意見分-聽力質(zhì)量目標)。非侵入式質(zhì)量評估方法中,直接根據(jù)Slteg進行非侵入式評估,輸出語音質(zhì)量評估的結(jié)果,即MOS-LQO。
[0084]在現(xiàn)網(wǎng)中,一般情況下,對于任意一個經(jīng)過語音分類后分割得到的語段,進行語音質(zhì)量評估時,很難獲得參考信號SKrf。因此,本發(fā)明實施例建議使用非侵入式質(zhì)量評估方法,直接對失真后的信號,也就是Slleg進行實時質(zhì)量監(jiān)控。特別地,對較長的或者不間斷的輸入信號,非侵入式質(zhì)量評估方法可以做到實時輸出語音質(zhì)量評估結(jié)果。圖6是本發(fā)明實施例6的非侵入式質(zhì)量評估方法的示意流程圖。非侵入式質(zhì)量評估方法通常包括:預處理、聽覺建模、特征提取、失真計算、質(zhì)量評估等流程。非侵入式質(zhì)量評估方法中,不同的技術(shù)在聽覺建模、特征提取方面具有自身的獨特性,但在本發(fā)明實施例中其輸入仍是一段分割后得到的語段,輸出則是介于1-5分的M0S-LQ0,表征當前語段的質(zhì)量。本發(fā)明實施例中的語段即為非侵入式質(zhì)量評估方法中的接收信號SDeg。
[0085]綜上所述,本發(fā)明實施例中通過對輸入的信號進行信號分類;對分類后截取的語音信號段進行語段分割;以分割后的語段為單位或進一步以調(diào)整了時長的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0086]圖7A是本發(fā)明實施例7的語音質(zhì)量監(jiān)控的裝置70的示意框圖。裝置70包括:信號分類單元71、語段分割單元單元72和質(zhì)量評估單元73。
[0087]信號分類單元71從輸入的信號中截取一個或多個語音信號段,并發(fā)送到所述語段分割單兀;
[0088]語段分割單元72對從所述信號分類單元71接收的每個所述語音信號段進行語段分割,獲得一個或多個語段,并發(fā)送到所述質(zhì)量評估單元;
[0089]作為不同的實施例,可選的,語段分割單元72根據(jù)語音活躍度對每個語音信號段進行語段分割,獲得一個或多個語段;可選的,語段分割單元72將每個語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
[0090]質(zhì)量評估單元73對從所述語段分割單元72接收的所述語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0091]本發(fā)明實施例提供了語音質(zhì)量監(jiān)控的方法,通過對輸入的信號截取語音信號段,對于語音信號段進行語段分割;以分割后的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0092]作為不同的實現(xiàn)方式,圖7B是本發(fā)明實施例7的語音質(zhì)量監(jiān)控的裝置70的另一示意框圖。與圖7A的裝置70不同的是,圖7B中的語段分割單元72包括語音活躍度檢測單元721,或者語段分割單元72包括語音活躍度檢測單元721和時長確定單元722。[0093]作為不同的實施例,可選的,語音活躍度檢測單元721具體分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。得到的一個或多個語段用于語音質(zhì)量評估。
[0094]作為不同的實施例,可選的,語音活躍度檢測單元721分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段;時長確定單元722確定相鄰的所述兩個語段的狀態(tài)切換點之間的時長T ;將所述時長T與門限閾值比較,根據(jù)比較結(jié)果,調(diào)整所述兩個語段的各自時長,獲得調(diào)整時長后的語段作為語音質(zhì)量評估的所述語段獲得。
[0095]作為不同的實施例,可選的,時長確定單元具體當所述時長T大于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當所述時長T小于等于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5*T時長。
[0096]作為不同的實施例,可選的,信號分類單元具體以單位時間對所述輸入的信號進行分割,獲得多個單位時間的所述輸入的信號;通過分析所述單位時間的所述輸入的信號,確定所述單位時間的所述輸入的信號為語音信號或非語音信號;將確定為語音信號的所述單位時間的所述輸入的信號作為所述語音信號段。
[0097]作為不同的實施例,可選的,質(zhì)量評估單元對所述語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0098]裝置70可以實現(xiàn)本發(fā)明實施例1至6任一語音質(zhì)量監(jiān)測的方法,出于簡潔,具體細節(jié)參考實施例1至6的說明,此處不再贅述。
[0099]本發(fā)明實施例中通過對輸入的信號進行信號分類;對分類后截取的語音信號段進行語段分割;以分割后的語段為單位或進一步以調(diào)整了時長的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0100]圖8是本發(fā)明實施例8的語音質(zhì)量監(jiān)控的裝置80的示意框圖。裝置80包括處理器81和存儲器82。處理器81和存儲器82通過總線相連。
[0101]存儲器82用于存儲使得處理器81執(zhí)行以下操作的指令:從輸入的信號中截取一個或多個語音信號段;對每個所述語音信號段進行語段分割,獲得一個或多個語段;對所述語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果,還可以用于存儲上述操作的數(shù)據(jù)和結(jié)果。
[0102]處理器81用于從輸入的信號中截取一個或多個語音信號段;對每個所述語音信號段進行語段分割,獲得一個或多個語段;對所述語段進行語音質(zhì)量評估,根據(jù)語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
[0103]本發(fā)明實施例提供了語音質(zhì)量監(jiān)控的方法,通過對輸入的信號進行分類,將分類后的信號再次進行語段分割,通過對分割后的語段進行質(zhì)量評估,能夠?qū)崿F(xiàn)使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量評估,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0104]處理器141還可以稱為CPlKCentral Processing Unit,中央處理單兀)。存儲器142可以包括只讀存儲器和隨機存取存儲器,并向處理器141提供指令和數(shù)據(jù)。存儲器142的一部分還可以包括非易失性隨機存取存儲器(NVRAM)。
[0105]上述本發(fā)明實施例揭示的方法可以應用于處理器81中,或者由處理器81實現(xiàn)。處理器81可能是一種集成電路芯片,具有信號的處理能力。在實現(xiàn)過程中,上述方法的各步驟可以通過處理器81中的硬件的集成邏輯電路或者軟件形式的指令完成。上述的處理器81可以是通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結(jié)合本發(fā)明實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領(lǐng)域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器82,處理器81讀取存儲器82中的信息,結(jié)合其硬件完成上述方法的步驟。
[0106]可選的,作為不同的實施例,處理器根據(jù)語音活躍度對每個語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性;或?qū)⒚總€語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
[0107]可選的,作為不同的實施例,處理器具體分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。
[0108]可選的,作為不同的實施例,處理器分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段;確定相鄰的所述兩個語段的狀態(tài)切換點之間的時長T ;將所述時長T與門限閾值比較,根據(jù)比較結(jié)果,則調(diào)整所述兩個語段的各自時長,獲得調(diào)整時長后的所述語段作為語音質(zhì)量評估的語段獲得。
[0109]可選的,作為不同的實施例,處理器當所述時長T大于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當所述時長T小于等于門限閾值時,將前一個所述語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個所述語段的開始位置由原狀態(tài)切換點向前延長0.5*Τ時長。
[0110]可選的,作為不同的實施例,處理器以單位時間對所述輸入的信號進行分割,獲得多個單位時間的所述輸入的信號;通過分析所述單位時間的所述輸入的信號,確定所述單位時間的所述輸入的信號為語音信號或非語音信號;將確定為語音信號的所述單位時間的所述輸入的信號作為所述語音信號段。
[0111]可選的,作為不同的實施例,處理器對所述語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
[0112]裝置80可以實現(xiàn)本發(fā)明實施例1至6任一語音質(zhì)量監(jiān)測的方法,出于簡潔,具體細節(jié)參考實施例1至6的說明,此處不再贅述。
[0113]本發(fā)明實施例中通過對輸入的信號進行信號分類;對分類后截取的語音信號段進行語段分割;以分割后的語段為單位或進一步以調(diào)整了時長的語段為單位進行語音質(zhì)量評估,由于分割后的語段僅包含語音信號且比輸入信號短,可以使用較低的成本,對較長的音頻信號進行合理的語音質(zhì)量監(jiān)控,從而獲得更精確的語音質(zhì)量評估結(jié)果。
[0114]本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0115]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0116]在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
[0117]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
[0118]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
[0119]所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務器,或者網(wǎng)絡設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM, Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0120]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應所述以權(quán)利要求的保護范圍為準。
【權(quán)利要求】
1.一種語音質(zhì)量監(jiān)控的方法,其特征在于,包括: 從輸入的信號中截取一個或多個語音信號段; 對每個所述語音信號段進行語段分割,獲得一個或多個語段; 對所述語段進行語音質(zhì)量評估,根據(jù)所述語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對每個所述語音信號段進行語段分害I],獲得一個或多個語段,包括: 根據(jù)語音活躍度對每個所述語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性;或 將每個所述語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述針對每個所述語音信號段進行語段分割,獲得一個或多個語段,包括: 分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述針對每個所述語音信號段進行語段分割,獲得一個或多個語段,包括: 分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段; 確定相鄰的所述兩個語段的狀態(tài)切換點之間的時長T ; 將所述時長T與門限閾值比較,根據(jù)比較結(jié)果調(diào)整所述兩個語段的各自時長,獲得調(diào)整時長后的語段;所述對所述語段進行語音質(zhì)量評估包括:對所述調(diào)整時長后的語段進行質(zhì)量評估。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,將所述時長T與門限閾值比較,根據(jù)比較結(jié)果調(diào)整所述兩個語段的各自時長包括:當所述時長T大于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5倍門限閾值;或當所述時長T小于等于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點延長0.5*T時長;將后一個語段的開始位置由原狀態(tài)切換點向前延長0.5*Τ時長。
6.根據(jù)權(quán)利要求1至5任一所述的方法,其特征在于,所述對輸入的信號進行信號分類,截取多個語音信號段,包括: 以單位時間對所述輸入的信號進行分割,獲得多個單位時間的所述輸入的信號;通過分析所述單位時間的所述輸入的信號,確定所述單位時間的所述輸入的信號為語音信號或非語音信號; 將確定為語音信號的所述單位時間的所述輸入的信號作為所述語音信號段。
7.根據(jù)權(quán)利要求1至6任一所述的方法,其特征在于,所述對所述語段進行語音質(zhì)量評估,獲得質(zhì)量評估結(jié)果,包括: 對所述語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
8.一種語音質(zhì)量監(jiān)控的裝置,其特征在于,包括信號分類單元、語段分割單元、質(zhì)量評估單元:所述信號分類單元,用于從輸入的信號中截取一個或多個語音信號段,并發(fā)送到所述語段分割單元; 所述語段分割單元,用于對從所述信號分類單元接收的每個所述語音信號段進行語段分割,獲得一個或多個語段,并發(fā)送到所述質(zhì)量評估單元; 所述質(zhì)量評估單元,用于對從所述語段分割單元接收的所述語段進行語音質(zhì)量評估,根據(jù)所述語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述語段分割單元,用于根據(jù)語音活躍度對每個所述語音信號段進行語段分割,獲得一個或多個語段,所述語音活躍度表示語音信號段中每一幀語音信號的活躍性。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述語段分割單元,用于將每個所述語音信號段進行分段,獲得一個或多個語段,每個語段的長度等于一個固定時長。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于:所述語段分割單元包括:語音活躍度檢測單元; 所述語音活躍度檢測單元用于分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述語段分割單元包括語音活躍度檢測單元和時長確定單元: 所述語音活躍度檢測單元,用于分析所述語音信號段每幀的語音活躍度,連續(xù)的活躍幀作為一個語段,將所述語音信號段分割成一個或多個語段; 所述時長確定單元,用于確定相鄰的所述兩個語段的狀態(tài)切換點之間的時長T ;將所述時長T與門限閾值比較,根據(jù)比較結(jié)果,調(diào)整所述兩個語段的各自時長,獲得調(diào)整時長后的語段,并將調(diào)整時長后的語段發(fā)送給質(zhì)量評估單元;所述質(zhì)量評估單元,用于對所述時長確定單元調(diào)整時長后的語段進行語音質(zhì)量評估,根據(jù)所述語音質(zhì)量評估獲得質(zhì)量評估結(jié)果。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述時長確定單元具體用于: 當所述時長T大于門限閾值時,將前一個語段的結(jié)束位置由原狀態(tài)切換點向后延長0.5倍門限閾值;將后一個所述語段的開始位置,由原狀態(tài)切換點向前延長0.5倍門限閾值;或 當所述時長T小于等于門限閾值時,將前一個語段的結(jié)束位置,由原狀態(tài)切換點延長0.5*T時長;將后一個語段的開始位置,由原狀態(tài)切換點向前延長0.5*T時長。
14.根據(jù)權(quán)利要求8至13任一所述的裝置,其特征在于,所述信號分類單元具體用于: 以單位時間對所述輸入的信號進行分割,獲得多個單位時間的所述輸入的信號; 通過分析所述單位時間的所述輸入的信號,確定所述單位時間的所述輸入的信號為語音信號或非語音信號; 將確定為語音信號的所述單位時間的所述輸入的信號作為所述語音信號段。
15.根據(jù)權(quán)利要求8至14任一所述的裝置,其特征在于: 所述質(zhì)量評估單元用于對所述語段進行非侵入式質(zhì)量評估,獲得質(zhì)量評估結(jié)果。
【文檔編號】H04M3/22GK103716470SQ201210375963
【公開日】2014年4月9日 申請日期:2012年9月29日 優(yōu)先權(quán)日:2012年9月29日
【發(fā)明者】肖瑋, 馬付偉, 許麗凈 申請人:華為技術(shù)有限公司