地,若一個音符既可認定為誤分割音符,同時也可認定為 誤合并音符,那么我們既不把它認定為誤分割音符,也不把它認定為誤合并音符,而是把它 認定為后面將定義的二種情況之一:正確音符或不良音符;
[0088] ?估算正確音符率(CorrectlyDetectedNoterate):在算法估算的實際哼唱 旋律中的一個音符nj正好命中(即匹配)手工標(biāo)注的Groundtruth中的某個音符η;(在 MIDI音高與音長是一致的),即nj與η;的音符起始時間(onset)相差不超過±50ms,且二 音符的時間區(qū)域超過各自時間區(qū)域的50%,且經(jīng)音高取整操作后得到的MIDI音高是一致 的,則稱音符1^為估算正確音符,簡稱CN音符。特別地,若nj也是分割音符或也是誤合并 音符,貝這樣的音符nj不可認定為估算正確音符。音符η,在算法估算的實際哼唱旋律中出 現(xiàn)的百分率稱為估算正確音符率,簡稱CN率;
[0089]?估算音符不良率(Badlydetectednoterate):在算法估算的實際哼唱旋律中 的一個音符正好在時間區(qū)域上與手工標(biāo)注的Groundtruth中的某個音符部分互相覆蓋, 且二者音高經(jīng)音高取整操作后得到的MIDI音高是一致的,但該音符不是前面幾種音符的 任何一種。即此時,二音符的音符起始時間相差超過±50ms或二者音長相差甚遠(即二者 在時間互相覆蓋區(qū)域不超過50% ),則稱這樣的音符1^為不良估算音符,簡稱BD音符。BD 音符1^在算法估算的實際哼唱旋律中出現(xiàn)的百分率稱為估算音符不良率,簡稱BD率。
[0090] 表2是以EmilioMolina[ls]提供的Groundtruth為標(biāo)準(zhǔn),評估我們算法估算的實 際哼唱旋律的結(jié)果。圖2展示了在EmilioM〇lina[lsM^測試結(jié)果的基礎(chǔ)上加入了表2所述 的本發(fā)明的結(jié)果,以便比較。其中有聲幀音高估算準(zhǔn)確率(rawpitchaccuracy)為86. 34, 基本達到了由EmilioMolina的系統(tǒng)取得的最好結(jié)果。但本發(fā)明運算速度更快。其計算復(fù) 雜度為0(nlog2n),EmilioMolina的方法需使用YIN算法,計算復(fù)雜度為ο(η2)。
[0091] 表2 :38首算法估算的實際哼唱旋律的各項系統(tǒng)性能評估結(jié)果
[0093] 為便于說明,構(gòu)造如下集合:
[0094]FVcii(:eFrailie={f」Groundtruth中所有處于onset至offset之間對應(yīng)的信號幀 ;
[0095]FUnv-e={f; |Groundtruth中所有不處于onset至offset之間對應(yīng)的信號幀 且不包括滑音區(qū)的信號幀;
[0096]Fpiteh&OTe(:tFrailie={f」-0·5<算法估算:^的擴展MIDI音高-6所處的音符的Ground truthpitch彡 0· 5),F(xiàn)volceFrane} 〇
[0097] 式(F-2)、(F-3)、(F-4)分別是估算RPA、VR及VFA的方法。FUnvcil^_不包括主 觀聽覺認定為滑音的信號幀,這是為了和EmilioMolina提供的評估標(biāo)準(zhǔn)盡可能一致,即忽 略相鄰音符間的滑音的信號幀[18]。式(F-5)中NYSGroundtruth中的音符總數(shù),ΝγΧ為 Groundtruth中X音符e{S音符,Μ音符,⑶音符,BD音符}的音符數(shù),.?為算法估算 的實際哼唱旋律中的音符總數(shù),ΝγΧ為算法估算的實際哼唱旋律中X音符的音符數(shù)。
[0102] B.算法估算的期望哼唱旋律的評估與結(jié)果
[0103] 把記譜專家手工標(biāo)注的期望哼唱旋律認定為這段人聲哼唱的正確旋律。手工標(biāo)注 的期望哼唱旋律中音符音高是哼唱旋律的調(diào)性音級。評估需要涉及以下3個任務(wù):
[0104] 任務(wù)1 :算法估算的期望哼唱旋律的調(diào)性及其音符的調(diào)性音級是否與手工標(biāo)注的 期望哼唱旋律的調(diào)性及相應(yīng)音符的調(diào)性音級一致是評估的首要任務(wù)。
[0105] 任務(wù)2:評估的另一項任務(wù)是算法估算的期望哼唱旋律中是否能體現(xiàn)出算法的自 動校正能力。這需要比較唱走音的音符導(dǎo)致出現(xiàn)在Groundtruth中2個音符間的錯誤音 程關(guān)系是否會在算法估算的期望哼唱旋律中被算法正確地校正。
[0106] 任務(wù)3:太多走音而導(dǎo)致過度跑調(diào)(offkey)的哼唱片段的調(diào)性是不穩(wěn)定的。不 穩(wěn)定調(diào)性的哼唱意味著其調(diào)性以及手工標(biāo)注的期望哼唱旋律是不可確定的。為此,一個與 哼唱旋律線準(zhǔn)確度有關(guān)的正確演算音程率的概念將被引入以便評估手工標(biāo)注的期望哼唱 旋律與算法估算的期望哼唱旋律的有效性。
[0107] 任務(wù)1會面臨二個技術(shù)上的困難。一是一段人聲哼唱的調(diào)性存在歧義或多義性。 二是由手工標(biāo)注的期望哼唱旋律中的每個音符并非都能被算法正確地分析出來并對應(yīng)到 算法估算的期望哼唱旋律中。然而,無論一段人聲哼唱的調(diào)性能否被唯一確定,它總是與由 這段人聲哼唱旋律的相鄰二個音符構(gòu)成的音程序列存在對應(yīng)關(guān)系。我們把在前面評估算法 估算的實際哼唱旋律中的CN音符中最近鄰的二個音符所構(gòu)成的音程(在后面的定義3中 稱為演算音程)序列與相應(yīng)出現(xiàn)在手工標(biāo)注的期望哼唱旋律中的音符所構(gòu)成的音程(在后 面的定義1中稱為期望音程)序列相比較,評估它們的一致性,以此作為評估算法估算的 期望哼唱旋律的一項性能指標(biāo)。因為只有CN音符在算法估算的期望哼唱旋律與手工標(biāo)注 的期望哼唱旋律中相應(yīng)音符才是一一對應(yīng)的。原因是我們要求記譜專家手工標(biāo)注的期望哼 唱旋律中每個音符的邊界和Groundtruth的每個音符的邊界必須是一致的,以求評估標(biāo)準(zhǔn) 的一致性。為便于說明,我們通過下面的定義依次引入相關(guān)的概念。
[0108] 定義1(期望音程):手工標(biāo)注的期望哼唱旋律中的前后二個非休止音符所構(gòu)成的 音程稱為這二個音符的期望音程。
[0109] 定義2(Groundtruth音程與正確Groundtruth音程):設(shè)?^,N2,…,Nm依次為一哼 唱片段的Groundtruth中m個非休止音符,公式(F-6)中GR-Interval(j,k)為音符Nj與音 符Nk間的Groundtruth音程(1 <j,k<m-1),
:為取整運算。若GR-Interval(j,k) 與音符Nj與音符Nk間的期望音程一致,則稱音符N,與音符Nk間的Groundtruth音程為正 確Groundtruth音程,否則稱為不正確Groundtruth音程。
[0110]
[0111] 定義3(演算音程、正確演算音程及正確校正音程):設(shè)嘆算法為 哼唱信號HS的實際哼唱旋律的m個CN音符。Xi,X2,…,為我們的調(diào)性分析算法為 iViV …>AU隹算的m個調(diào)式音級。音級Xk至音級Xk+1之間的音程為Ik個半音音程(Ik 為整數(shù),1彡k彡m-1)。稱整數(shù)Ik為哼唱音符個:哼唱音符Α^+?的演算音程。再設(shè)記 譜專家為HS手工標(biāo)注的期望哼唱旋律中與%肩2相對應(yīng)的音符為%; % 哼唱音符瑪至哼唱音符的期望音程為Jk個半音音程(J整數(shù),1彡k彡m-1)。若 f中音符i%至病^^的演算音程與期望哼唱旋律中相對應(yīng)的音符次^至音 符的期望音程一致(即Ik=Jk),則稱音符機&與瑪_^的演算音程為正確演算音 程。若音符叫if與的演算音程為正確演算音程,但它們的Groundtruth音程為不 正確Groundtruth音程,則稱由音符和&與/V^w的演算音程為正確校正音程(Correct CorrectionInterval)〇
[0112] 這里需要說明的是定義3中所指的音符1^%與/^^5的Groundtruth音程與我們 的調(diào)性分析算法(其基本策略描述于上述步驟4)的相鄰音程分析與"間鄰"音程分析中所 使用的估算音程不同。估算音程包含小數(shù)部分,其精度誤差在25音分以內(nèi),而式(F-6)所估 算的音符%與音符Nk間的Groundtruth音程為整數(shù)。其精度誤差卻在100音分以內(nèi)。本發(fā) 明是借助調(diào)性分析,有調(diào)性傾向地將帶有小數(shù)部分的估算音程規(guī)整為定義3所述的演算音 程。而目前所有涉及調(diào)性分析的哼唱旋律識別系統(tǒng)(如RyynSnen[1S|系統(tǒng)中Musicological Model),則是先對音符的估算音高執(zhí)行如式(F-1)或式(F-6)中所述的無調(diào)性傾向地音高 取整,再進行調(diào)性分析。這是本發(fā)明調(diào)性分析哼唱旋律的主要技術(shù)特色。
[0113] 設(shè)HS為一不含轉(zhuǎn)調(diào)的人聲哼唱片段。EMHS、tr_EMHS分別是HS的手工標(biāo)注的期望 哼唱旋律與算法估算的期望哼唱旋律。由于EMhsStr-EMHS中任意一個音符在單一調(diào)性K 下的調(diào)性音級,可由音符的音高及調(diào)性K的Keynote的音高直接推出,并由此可推算出EMhs 相鄰音符的期望音程及tr-EMHj^相鄰音符的演算音程,故可構(gòu)造調(diào)性集合:
[0114]KeySet(EMHS) ={K|在調(diào)性K下由EMHS的相鄰音符的相鄰調(diào)性音級構(gòu)成的音程序 列=EMHj^相鄰音符的期望音程序列且EMHS的調(diào)性音級序列至多含一個非調(diào)性音級(可重 復(fù)出現(xiàn))};
[0115] KeySet(tr_EMHS)={K|在調(diào)性K下由tr_EMHS的相鄰音符的相鄰調(diào)性音級構(gòu)成的 音程序列=tr-EMHj^相鄰音符的演算音程序列且tr-EMHS的調(diào)性音級序列至多含一個非調(diào) 性音級(可重復(fù)出現(xiàn))};
[0116]令Key-Solution=KeySet(EMHS)ΠKeySet(tr_EMHS),若tr_EMHS存在CN音符且 Key-Solution不為空,則表示哼唱信號HS的調(diào)性被正確估算。
[0117] 于是,任務(wù)1就可轉(zhuǎn)化為判定算法估算的期望哼唱旋律中有多少正確演算音程以 及估算可能的調(diào)性集合Key-Solution的問題。表3列出了MTG-QBH[24]中哼唱文件ql.wav 的手工標(biāo)注的期望哼唱旋律開始9個音符(手工標(biāo)注)的音高以及對應(yīng)在我們算法估算的 期望哼唱旋律開始8個音符的一種可能的調(diào)性音級序列。需要說明的是我們的調(diào)性分析算 法不區(qū)分大、小調(diào)式。自然調(diào)式的關(guān)系大小調(diào),在我們這里使用同一個調(diào)式音階。任務(wù)2則 是判斷算法估算的期望哼唱旋律中的正確演算音程有多少是正確校正音程的問題。即正確 校正音程率的問題。任務(wù)3涉及是否因哼唱片段的過渡跑調(diào)而使手工標(biāo)注的期望哼唱旋律 無法確定或哼唱是否存在轉(zhuǎn)調(diào)的問題。這一任務(wù)可由參與評估的音樂家人工判斷。
[0118]表 3
[0119]
[0120] 3)結(jié)果的比較與討論
[0121] A.哼唱旋律識別技術(shù)的比較與討論
[0122] 在信號幀的基頻估算上,我們算法估算的有聲幀音高估算準(zhǔn)確率(rawpitch 3(^11抑〇5〇達到了 86.35%。很接近最好的1〇]11;[仙6七31的3丨?1'!1系統(tǒng)[18]的結(jié)果(參 見圖3)。SiPTH系統(tǒng)使用具有更高的基頻估算精度的YIN算法與他們提出的Hysteresis DefinedonthePitch-TimeCurve相結(jié)合的方法。而我們算法只把音高誤差控制在25音 分的范圍內(nèi),且有效音域局限在[F,e2]三個八度范圍內(nèi)。但是,我們基頻估算法的時間復(fù) 雜度是〇 (nlog2n),而?Ν算法的時間復(fù)雜度是ο(η2)。這是本發(fā)明在平衡基頻估算的精度 與運算速度上的主要技術(shù)優(yōu)勢。
[0123] 在音符分析上我們算法的平均CN率(Correctlydetectednoterate)的結(jié)果是 45.39%,]\1%711&^11的31[16]的基于多狀態(tài)!1麗方法取得了最好的成績(約50%左右, 參見圖3)。其中部分原因是目前我們的方法還無法有效地處理多音節(jié)的音符分割問題。這 導(dǎo)致不少輸出結(jié)果的BD率(估算音符不良率)偏高。另一個原因是算法判定音符標(biāo)準(zhǔn)與 評估標(biāo)準(zhǔn)不一致。我們目前評估CN率的標(biāo)準(zhǔn)是采用Monlinaetal提供的評估框架。在 該框架下,滑音、倚音等一些短音符在Groundture中均被合并到后面的長音中或不參與評 估。例如,對于Monlinaetal提供的測試集中ql.wav的Groundtruth中的第1個音符, 依照我們算法的分析結(jié)果卻是應(yīng)分解成一個較短音符(倚音)和另一個較長的音符。
[0124]多數(shù)現(xiàn)有的哼唱旋律自動識別系統(tǒng)不涉及調(diào)性分析。在此我們僅需比較與討論具 有代表性的M.RyynSne:nU6]系統(tǒng)中MusicologicalModel對輸入哼唱的調(diào)性(Key)分析方 法與我們算法的調(diào)性(Key)分析方法。實際上二種調(diào)性分析方法的區(qū)別在于我們的調(diào)性分 析模型以相鄰或"間鄰"哼唱音符的候選音程序列作為輸入,而M.KyimiMn?.系統(tǒng)中的調(diào) 性分析方法需以被取整化的12個