本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種詞語(yǔ)相似度計(jì)算方法及裝置。
背景技術(shù):
詞語(yǔ)相似度計(jì)算在自然語(yǔ)言處理、智能檢索、文本聚類(lèi)、文本分類(lèi)、自動(dòng)應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是自然語(yǔ)言的基礎(chǔ)研究課題,正在被越來(lái)越多的研究人員所關(guān)注。目前,最常用的詞語(yǔ)相似度計(jì)算方法是基于語(yǔ)義詞典的詞語(yǔ)相似度計(jì)算。常用的語(yǔ)義詞典:在英文方面,具有代表性的有WordNet,F(xiàn)rameNet,Mi ndNet等;在漢語(yǔ)方面,有“知網(wǎng)”(HowNet),“同義詞詞林”,“中文概念詞典”(CCD:Chinese Concept Dictionary)等。該算法即根據(jù)同義詞詞林的編排及語(yǔ)義特點(diǎn)計(jì)算兩個(gè)詞語(yǔ)之間的相似度。
在傳統(tǒng)的語(yǔ)義詞典構(gòu)建過(guò)程中,獲取詞語(yǔ)相似度的方法通常是人工標(biāo)注。這種方法的主要缺陷有以下三點(diǎn):
1、為保證語(yǔ)義詞典標(biāo)注準(zhǔn)確性,需要對(duì)每一位參加標(biāo)注的工作人員進(jìn)行大量的領(lǐng)域相關(guān)知識(shí)和標(biāo)注規(guī)范的培訓(xùn),這些培訓(xùn)將消耗大量的時(shí)間和資金;同時(shí)由于缺乏詞語(yǔ)相似度的系統(tǒng)標(biāo)注規(guī)范,在培訓(xùn)結(jié)束后也很難保證標(biāo)注人員能準(zhǔn)確高效地對(duì)詞語(yǔ)相似度語(yǔ)料進(jìn)行標(biāo)注。
2、由于標(biāo)注者常常具有不同的語(yǔ)言認(rèn)識(shí),這將導(dǎo)致不同標(biāo)注者對(duì)同一語(yǔ)料標(biāo)注時(shí)會(huì)出現(xiàn)不同甚至是相反的結(jié)果。出現(xiàn)這種情況時(shí),通常需要標(biāo)注者一起討論決定最終的標(biāo)注結(jié)果,這一過(guò)程往往會(huì)消耗標(biāo)注人員大量的時(shí)間與精力,最終會(huì)嚴(yán)重拖慢標(biāo)注進(jìn)程。
3、由于人類(lèi)語(yǔ)言理解機(jī)制的復(fù)雜性,標(biāo)注者往往很難對(duì)自然語(yǔ)言中的詞語(yǔ)對(duì)準(zhǔn)確地判別其相似度,這通常表現(xiàn)在同一標(biāo)注者在不同時(shí)間標(biāo)注同一語(yǔ)料時(shí)也會(huì)出現(xiàn)前后矛盾的情況。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種詞語(yǔ)相似度計(jì)算方法及系統(tǒng),旨在提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
本發(fā)明是這樣實(shí)現(xiàn)的,一種詞語(yǔ)相似度計(jì)算方法,所述方法包括以下步驟:
步驟S1,收集未標(biāo)注的詞典,對(duì)所述詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);
步驟S2,將所述待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀所述待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);
步驟S3,對(duì)采集到的腦電信號(hào)進(jìn)行處理,基于處理后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建基于腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述步驟S1包括:
選取已有的詞典中的詞語(yǔ)為待標(biāo)注詞語(yǔ),對(duì)所述待標(biāo)注詞語(yǔ)進(jìn)行一對(duì)一組合構(gòu)成待標(biāo)注詞語(yǔ)對(duì)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述步驟S2包括:
將同一詞語(yǔ)對(duì)多次間隔呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào),將采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)與相應(yīng)的詞語(yǔ)對(duì)成對(duì)存儲(chǔ)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述步驟S3包括以下子步驟:
步驟S31,對(duì)采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的腦電信號(hào);
步驟S32,對(duì)所述降噪后的腦電信號(hào)進(jìn)行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷所述詞語(yǔ)對(duì)的相似度,依此原理,獲得詞典中所有詞語(yǔ)對(duì)的相似度;
步驟S33,計(jì)算詞典中所有詞語(yǔ)對(duì)的相似度的平均值及方差,根據(jù)所述平均值及方差對(duì)詞典中所有詞語(yǔ)對(duì)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述步驟S31中采用FASTICA算法對(duì)采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的腦電信號(hào)。
本發(fā)明還提供了一種詞語(yǔ)相似度計(jì)算裝置,所述裝置包括:
收集模塊,用于收集未標(biāo)注的詞典,對(duì)所述詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);
采集模塊,用于將所述待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀所述待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);
構(gòu)建模塊,用于對(duì)采集到的腦電信號(hào)進(jìn)行處理,基于處理后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建基于腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述收集模塊還用于:
選取已有的詞典中的詞語(yǔ)為待標(biāo)注詞語(yǔ),對(duì)所述待標(biāo)注詞語(yǔ)進(jìn)行一對(duì)一組合構(gòu)成待標(biāo)注詞語(yǔ)對(duì)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述采集模塊還用于:
將同一詞語(yǔ)對(duì)多次呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào),將采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)與相應(yīng)的詞語(yǔ)對(duì)成對(duì)存儲(chǔ)。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述構(gòu)建模塊包括:
降噪單元,用于對(duì)采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的腦電信號(hào);
疊加平均處理單元,對(duì)所述降噪后的腦電信號(hào)進(jìn)行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷所述詞語(yǔ)對(duì)的相似度,依此原理,獲得詞典中所有詞語(yǔ)對(duì)的相似度;
歸一化處理單元,計(jì)算詞典中所有詞語(yǔ)對(duì)的相似度的平均值及方差,根據(jù)所述平均值及方差對(duì)詞典中所有詞語(yǔ)對(duì)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。。
本發(fā)明的進(jìn)一步的技術(shù)方案是,所述降噪單元還用于采用FASTICA算法對(duì)所述采集到的腦電信號(hào)進(jìn)行降噪處理。
本發(fā)明的有益效果是:本發(fā)明提供的詞語(yǔ)相似度計(jì)算方法及裝置,通過(guò)上述方案:收集未標(biāo)注的詞典,對(duì)所述詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);將所述待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀所述待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù),提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
附圖說(shuō)明
圖1是本發(fā)明本發(fā)明詞語(yǔ)相似度計(jì)算方法較佳實(shí)施例的流程示意圖;
圖2是本發(fā)明詞語(yǔ)相似度計(jì)算方法步驟S3的細(xì)化流程示意圖;
圖3是本發(fā)明詞語(yǔ)相似度計(jì)算裝置較佳實(shí)施例功能模塊示意圖;
圖4是本發(fā)明詞語(yǔ)相似度計(jì)算裝置構(gòu)建模塊的細(xì)化功能模塊示意圖。
附圖標(biāo)記:
收集模塊-10;
采集模塊-20;
構(gòu)建模塊-30:降噪單元-301;疊加處理單元-302;歸一化處理單元-303。
具體實(shí)施方式
本發(fā)明實(shí)施例的解決方案主要是:收集未標(biāo)注的詞典,對(duì)詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);將待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù)。
請(qǐng)參照?qǐng)D1,圖1是本發(fā)明詞語(yǔ)相似度計(jì)算方法較佳實(shí)施例的流程示意圖,如圖1所示,本發(fā)明詞語(yǔ)相似度計(jì)算方法較佳實(shí)施例包括以下步驟:
步驟S1,收集未標(biāo)注的詞典,對(duì)詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);
目前常用的詞典有《現(xiàn)代漢語(yǔ)詞典》、《現(xiàn)代漢語(yǔ)規(guī)范詞典》以及《漢語(yǔ)大辭典》等,為了得到詞語(yǔ)相似度,本實(shí)施例首先將詞典中的詞語(yǔ)進(jìn)行一對(duì)一組合,構(gòu)成待標(biāo)注的詞語(yǔ)對(duì)。其中待標(biāo)注的詞語(yǔ)對(duì)的個(gè)數(shù)計(jì)算公式為:M=N×(N-1)÷2,其中,M為詞語(yǔ)對(duì)的個(gè)數(shù),N為詞典中詞語(yǔ)的個(gè)數(shù)。
步驟S2,將待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);
目前,獲取詞語(yǔ)相似度的方法通常是采用人工標(biāo)注的方法,采用人工標(biāo)注的方法獲取詞語(yǔ)相似度,不僅會(huì)消耗大量的時(shí)間和資金,并且在不同的時(shí)間標(biāo)注同一語(yǔ)料是也會(huì)出現(xiàn)前后矛盾的情形。而采用腦電信號(hào)計(jì)算詞語(yǔ)相似度能從認(rèn)知神經(jīng)科學(xué)的角度真實(shí)反映標(biāo)注者的情緒,具有很高的準(zhǔn)確性。
因此,本發(fā)明在計(jì)算詞語(yǔ)相似度時(shí)需要標(biāo)注者佩戴腦電采集裝置,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào)。其中,標(biāo)注者為佩戴腦電采集裝置閱讀待標(biāo)注詞語(yǔ)對(duì)的用戶(hù)。
步驟S3,對(duì)采集到的腦電信號(hào)進(jìn)行處理,基于處理后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)進(jìn)行相似度標(biāo)注,構(gòu)建基于腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù)。
由于在采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)的腦電信號(hào)的過(guò)程中,容易受到設(shè)備噪音、肌點(diǎn)噪音以及眼電噪音等的影響,所以在采集到標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)是的腦電信號(hào)后,需要對(duì)所采集到的腦電信號(hào)進(jìn)行降噪處理,以提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
具體實(shí)施時(shí),為了進(jìn)一步提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性,可以將同一詞語(yǔ)對(duì)多次間隔呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,將采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)與相應(yīng)的詞語(yǔ)對(duì)成對(duì)存儲(chǔ)。其中將同一詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者的次數(shù)以及同一詞語(yǔ)對(duì)出現(xiàn)的間隔次數(shù)可以根據(jù)實(shí)際經(jīng)驗(yàn)設(shè)定,本實(shí)施例中,同一詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者的次數(shù)優(yōu)選為25-30次,同一詞語(yǔ)對(duì)出現(xiàn)的間隔次數(shù)優(yōu)選為10次。
本實(shí)施例通過(guò)上述方案:收集未標(biāo)注的詞典,對(duì)詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);將待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù),提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
請(qǐng)參照?qǐng)D2,圖2是基于圖1描述的詞語(yǔ)相似度計(jì)算方法中步驟S3的細(xì)化流程示意圖。該步驟S3可以包括:
步驟S31,對(duì)采集到的標(biāo)注者每次閱讀同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的腦電信號(hào);
本實(shí)施例可以采用FASTICA算法對(duì)采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的高信噪比的腦電信號(hào)。本實(shí)施例中降噪后的腦電信號(hào)優(yōu)選為信噪比高于15db的腦電信號(hào)。
信噪比,英文名稱(chēng)叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱(chēng)為訊噪比。是指一個(gè)電子設(shè)備或者電子系統(tǒng)中信號(hào)與噪聲的比例。這里面的信號(hào)指的是來(lái)自設(shè)備外部需要通過(guò)這臺(tái)設(shè)備進(jìn)行處理的電子信號(hào),噪聲是指經(jīng)過(guò)該設(shè)備后產(chǎn)生的原信號(hào)中并不存在的無(wú)規(guī)則的額外信號(hào)(或稱(chēng)為信息),并且這種信號(hào)并不隨原信號(hào)的變化而變化。信噪比的計(jì)量單位是dB,其計(jì)算方法是10lg(PS/PN),其中PS和PN分別代表信號(hào)和噪聲的有效功率,信噪比越高,說(shuō)明噪聲越小。
獨(dú)立成分分析(簡(jiǎn)稱(chēng)ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來(lái)從混合數(shù)據(jù)中提取出原始的獨(dú)立信號(hào)。它作為信號(hào)分離的一種有效方法而受到廣泛的關(guān)注。在諸多ICA算法中,固定點(diǎn)算法(簡(jiǎn)稱(chēng)FASTICA)以其收斂速度快、分離效果好被廣泛應(yīng)用于信號(hào)處理領(lǐng)域。該算法能很好地從觀測(cè)信號(hào)中估計(jì)出相互統(tǒng)計(jì)獨(dú)立的、被未知因素混合的原始信號(hào)。
步驟S32,對(duì)降噪后的腦電信號(hào)進(jìn)行疊加平均處理,得到事件相關(guān)電位,根據(jù)事件相關(guān)電位判斷相應(yīng)詞語(yǔ)的相似度,依此原理,獲得詞典中所有詞語(yǔ)的相似度;
事件相關(guān)電位(ERP)是一種特殊的腦誘發(fā)電位,誘發(fā)電位(Evoked Potentials,EPs),也稱(chēng)誘發(fā)反應(yīng)(Evoked Response),是指給予神經(jīng)系統(tǒng)(從感受器到大腦皮層)特定的刺激,或使大腦對(duì)刺激(正性或負(fù)性)的信息進(jìn)行加工,在該系統(tǒng)和腦的相應(yīng)部位產(chǎn)生的可以檢出的、與刺激有相對(duì)固定時(shí)間間隔(鎖時(shí)關(guān)系)和特定位相的生物電反應(yīng)。廣義上講,事件相關(guān)電位(ERP)包括N400,在事件相關(guān)電位中,N400反映了語(yǔ)言認(rèn)知功能。
在對(duì)降噪后的腦電信號(hào)進(jìn)行疊加平均處理后,在疊加平均后的信號(hào)中300ms至500ms范圍內(nèi)計(jì)算信號(hào)的負(fù)向最小值(即負(fù)向電位最低值)作為腦電信號(hào)的N400電位值。標(biāo)注者在閱讀不相關(guān)電位時(shí),腦電信號(hào)會(huì)在閱讀后400ms左右出現(xiàn)一個(gè)較大的負(fù)值,這個(gè)負(fù)值在心理學(xué)中被稱(chēng)為N400電位。N400電位越大說(shuō)明呈現(xiàn)的詞語(yǔ)對(duì)越不相似,N400電位越小說(shuō)明呈現(xiàn)的詞語(yǔ)對(duì)越相似。
依照上述原理,可以得出詞典中所有詞語(yǔ)的相似度。
步驟S33,計(jì)算詞典中所有詞語(yǔ)的相似度的平均值及方差,根據(jù)所述平均值及方差對(duì)詞典中所有詞語(yǔ)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。
通過(guò)步驟S32得到詞典中所有詞語(yǔ)的相似度后,計(jì)算出所有詞語(yǔ)相似度的平均值以及方差,根據(jù)所有詞語(yǔ)的相似度的平均值以及方差對(duì)詞典中所有詞語(yǔ)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。其中,歸一化處理的計(jì)算公式為:A=(B-C)÷D,其中,A為最終的詞語(yǔ)相似度值,B為詞語(yǔ)的原始相似度,C為所有詞語(yǔ)的相似度平均值,D為方差。
綜上所述,本發(fā)明詞語(yǔ)相似度計(jì)算方法通過(guò)上述方案:收集未標(biāo)注的詞典,對(duì)所述詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);將所述待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀所述待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù),提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
基于上述詞語(yǔ)相似度計(jì)算方法,本發(fā)明提供了一種詞語(yǔ)相似度計(jì)算裝置。
請(qǐng)參照?qǐng)D3,圖3是本發(fā)明詞語(yǔ)相似度計(jì)算裝置較佳實(shí)施例的功能模塊示意圖,如圖3所示,本發(fā)明詞語(yǔ)相似度計(jì)算裝置較佳實(shí)施例包括:收集模塊10、采集模塊20及采構(gòu)建模塊30。
其中,收集模塊10用于收集未標(biāo)注的詞典,對(duì)詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);
目前常用的詞典有《現(xiàn)代漢語(yǔ)詞典》、《現(xiàn)代漢語(yǔ)規(guī)范詞典》以及《漢語(yǔ)大辭典》等,為了得到詞語(yǔ)相似度,本實(shí)施例首先將詞典中的詞語(yǔ)進(jìn)行一對(duì)一組合,構(gòu)成待標(biāo)注的詞語(yǔ)對(duì)。其中待標(biāo)注的詞語(yǔ)對(duì)的個(gè)數(shù)計(jì)算公式為:M=N×(N-1)÷2,其中,M為詞語(yǔ)對(duì)的個(gè)數(shù),N為詞典中詞語(yǔ)的個(gè)數(shù)。
采集模塊20,用于將待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);
目前,獲取詞語(yǔ)相似度的方法通常是采用人工標(biāo)注的方法,采用人工標(biāo)注的方法獲取詞語(yǔ)相似度,不僅會(huì)消耗大量的時(shí)間和資金,并且在不同的時(shí)間標(biāo)注同一語(yǔ)料是也會(huì)出現(xiàn)前后矛盾的情形。而采用腦電信號(hào)計(jì)算詞語(yǔ)相似度能從認(rèn)知神經(jīng)科學(xué)的角度真實(shí)反映標(biāo)注者的情緒,具有很高的準(zhǔn)確性。
因此,本發(fā)明在計(jì)算詞語(yǔ)相似度時(shí)需要標(biāo)注者佩戴腦電采集裝置,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào)。其中,標(biāo)注者為佩戴腦電采集裝置閱讀待標(biāo)注詞語(yǔ)對(duì)的用戶(hù)。
采構(gòu)建模塊30,用于對(duì)采集到的腦電信號(hào)進(jìn)行處理,基于處理后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)進(jìn)行相似度標(biāo)注,構(gòu)建基于腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù)。
由于在采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)的的腦電信號(hào)的過(guò)程中,容易受到設(shè)備噪音、肌點(diǎn)噪音以及眼電噪音等的影響,所以在采集到標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)是的腦電信號(hào)后,需要對(duì)所采集到的腦電信號(hào)進(jìn)行降噪處理,以提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
具體實(shí)施時(shí),為了進(jìn)一步提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性,可以將同一詞語(yǔ)對(duì)多次間隔呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,將采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)與相應(yīng)的詞語(yǔ)對(duì)成對(duì)存儲(chǔ)。其中將同一詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者的次數(shù)以及同一詞語(yǔ)對(duì)出現(xiàn)的間隔次數(shù)可以根據(jù)實(shí)際經(jīng)驗(yàn)設(shè)定,本實(shí)施例中,同一詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者的次數(shù)優(yōu)選為25-30次,同一詞語(yǔ)對(duì)出現(xiàn)的間隔次數(shù)優(yōu)選為10次。
本實(shí)施例通過(guò)上述方案:收集模塊10收集未標(biāo)注的詞典,對(duì)詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);采集模塊20將待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);采構(gòu)建模塊30對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù),提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
請(qǐng)參照?qǐng)D4,圖4是基于圖3描述的詞語(yǔ)相似度計(jì)算裝置中采構(gòu)建模塊30的細(xì)化功能模塊示意圖。該采構(gòu)建模塊30包括:降噪單元301、疊加處理單元302及歸一化處理單元303。
其中,降噪單元301,用于對(duì)采集到的標(biāo)注者每次閱讀同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的腦電信號(hào);
本實(shí)施例可以采用FASTICA算法對(duì)采集到的標(biāo)注者每次閱讀所述同一詞語(yǔ)對(duì)時(shí)的腦電信號(hào)進(jìn)行降噪處理,得到降噪后的高信噪比的腦電信號(hào)。本實(shí)施例中降噪后的腦電信號(hào)優(yōu)選為信噪比高于15db的腦電信號(hào)。
信噪比,英文名稱(chēng)叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱(chēng)為訊噪比。是指一個(gè)電子設(shè)備或者電子系統(tǒng)中信號(hào)與噪聲的比例。這里面的信號(hào)指的是來(lái)自設(shè)備外部需要通過(guò)這臺(tái)設(shè)備進(jìn)行處理的電子信號(hào),噪聲是指經(jīng)過(guò)該設(shè)備后產(chǎn)生的原信號(hào)中并不存在的無(wú)規(guī)則的額外信號(hào)(或稱(chēng)為信息),并且這種信號(hào)并不隨原信號(hào)的變化而變化。信噪比的計(jì)量單位是dB,其計(jì)算方法是10lg(PS/PN),其中PS和PN分別代表信號(hào)和噪聲的有效功率,信噪比越高,說(shuō)明噪聲越小。
獨(dú)立成分分析(簡(jiǎn)稱(chēng)ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來(lái)從混合數(shù)據(jù)中提取出原始的獨(dú)立信號(hào)。它作為信號(hào)分離的一種有效方法而受到廣泛的關(guān)注。在諸多ICA算法中,固定點(diǎn)算法(簡(jiǎn)稱(chēng)FASTICA)以其收斂速度快、分離效果好被廣泛應(yīng)用于信號(hào)處理領(lǐng)域。該算法能很好地從觀測(cè)信號(hào)中估計(jì)出相互統(tǒng)計(jì)獨(dú)立的、被未知因素混合的原始信號(hào)。
疊加平均處理單元302,用于對(duì)降噪后的腦電信號(hào)進(jìn)行疊加平均處理,得到事件相關(guān)電位,根據(jù)事件相關(guān)電位判斷相應(yīng)詞語(yǔ)的相似度,依此原理,獲得詞典中所有詞語(yǔ)的相似度;
事件相關(guān)電位(ERP)是一種特殊的腦誘發(fā)電位,誘發(fā)電位(Evoked Potentials,EPs),也稱(chēng)誘發(fā)反應(yīng)(Evoked Response),是指給予神經(jīng)系統(tǒng)(從感受器到大腦皮層)特定的刺激,或使大腦對(duì)刺激(正性或負(fù)性)的信息進(jìn)行加工,在該系統(tǒng)和腦的相應(yīng)部位產(chǎn)生的可以檢出的、與刺激有相對(duì)固定時(shí)間間隔(鎖時(shí)關(guān)系)和特定位相的生物電反應(yīng)。廣義上講,事件相關(guān)電位(ERP)包括N400,在事件相關(guān)電位中,N400反映了語(yǔ)言認(rèn)知功能。
在對(duì)降噪后的腦電信號(hào)進(jìn)行疊加平均處理后,在疊加平均后的信號(hào)中300ms至500ms范圍內(nèi)計(jì)算信號(hào)的負(fù)向最小值(即負(fù)向電位最低值)作為腦電信號(hào)的N400電位值。標(biāo)注者在閱讀不相關(guān)電位時(shí),腦電信號(hào)會(huì)在閱讀后400ms左右出現(xiàn)一個(gè)較大的負(fù)值,這個(gè)負(fù)值在心理學(xué)中被稱(chēng)為N400電位。N400電位越大說(shuō)明呈現(xiàn)的詞語(yǔ)對(duì)越不相似,N400電位越小說(shuō)明呈現(xiàn)的詞語(yǔ)對(duì)越相似。
依照上述原理,可以得出詞典中所有詞語(yǔ)的相似度。
歸一化處理單元303,用于計(jì)算詞典中所有詞語(yǔ)的相似度的平均值及方差,根據(jù)所述平均值及方差對(duì)詞典中所有詞語(yǔ)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。
通過(guò)歸一化處理單元303得到詞典中所有詞語(yǔ)的相似度后,計(jì)算出所有詞語(yǔ)相似度的平均值以及方差,根據(jù)所有詞語(yǔ)的相似度的平均值以及方差對(duì)詞典中所有詞語(yǔ)的相似度進(jìn)行歸一化處理,得到最終的詞語(yǔ)相似度。其中,歸一化處理的計(jì)算公式為:A=(B-C)÷D,其中,A為最終的詞語(yǔ)相似度值,B為詞語(yǔ)的原始相似度,C為所有詞語(yǔ)的相似度平均值,D為方差。
綜上所述,本發(fā)明詞語(yǔ)相似度計(jì)算方法通過(guò)上述方案:收集模塊10收集未標(biāo)注的詞典,對(duì)所述詞典中的詞語(yǔ)進(jìn)行處理,得到待標(biāo)注詞語(yǔ)對(duì);采集模塊20將所述待標(biāo)注詞語(yǔ)對(duì)呈現(xiàn)給標(biāo)注者,供標(biāo)注者閱讀,采集標(biāo)注者閱讀所述待標(biāo)注詞語(yǔ)對(duì)時(shí)的腦電信號(hào);采構(gòu)建模塊30對(duì)采集到的腦電信號(hào)進(jìn)行分析,基于分析后的腦電信號(hào)對(duì)相應(yīng)的詞語(yǔ)對(duì)進(jìn)行相似度標(biāo)注,構(gòu)建腦電信號(hào)標(biāo)注的詞語(yǔ)相似度語(yǔ)料庫(kù),提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。