国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于MSVM?WKNN算法的分類方法及其應(yīng)用與流程

      文檔序號(hào):12596557閱讀:285來源:國(guó)知局

      本發(fā)明主要屬于信息分類領(lǐng)域,具體涉及一種基于MSVM-WKNN算法分類的方法及其在人物關(guān)系分類中的應(yīng)用。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,信息資源已經(jīng)日積月累,所包含的人物關(guān)系是一種有重要價(jià)值的信息,它在情報(bào)分析、網(wǎng)絡(luò)輿情監(jiān)控、社會(huì)網(wǎng)絡(luò)分析等領(lǐng)域都有著十分重要的應(yīng)用。當(dāng)需要對(duì)人物的社會(huì)關(guān)系進(jìn)行分析和挖掘時(shí),人物關(guān)系的提取是首要解決的問題。因此,在面對(duì)大規(guī)模的文本信息下提高人物關(guān)系提取的精度,從中準(zhǔn)確的挖掘出有價(jià)值的信息,是現(xiàn)有技術(shù)中亟待解決的問題。

      現(xiàn)有技術(shù)中有利用改進(jìn)的MSVM-KNN算法來對(duì)人物關(guān)系進(jìn)行分類提取的,多類支持向量機(jī)算法(MSVM)和KNN算法相結(jié)合所形成的一種MSVM-KNN分類算法對(duì)人物關(guān)系進(jìn)行分類提取(簡(jiǎn)稱,MSVM-KNN算法)。MSVM-KNN算法在最近鄰分類時(shí)對(duì)每個(gè)屬性指定相同的權(quán)重(即,W=1),但事實(shí)上,不同的特征屬性其重要性是不一樣的,即使兩個(gè)樣本中相同的屬性個(gè)數(shù)多,但如果這些特征屬性并不重要,那么這兩個(gè)樣本的相似度并不高,對(duì)每個(gè)屬性指定相同的權(quán)重影響分類準(zhǔn)確率。



      技術(shù)實(shí)現(xiàn)要素:

      基于上述問題,本發(fā)明提供了一種基于MSVM-WKNN算法分類的方法,該方法基于MSVM-WKNN算法,在對(duì)拒分向量分類是調(diào)整了各屬性的權(quán)值,提高了分類的精度。同時(shí)提供了該方法在人物關(guān)系分類中的應(yīng)用。

      本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:

      一種基于MSVM-WKNN算法的人物關(guān)系提取方法,將一種基于MSVM-WKNN算法的分類方法用于人物關(guān)系分類提取,將候選人物關(guān)系集作為所述訓(xùn)練文本集,利用MSVM-WKNN算法對(duì)候選人物關(guān)系集進(jìn)行訓(xùn)練構(gòu)建人物關(guān)系分類提取模型,利用人物關(guān)系分類提取模型對(duì)未標(biāo)記的分類語料庫進(jìn)行人物關(guān)系提取,獲取人物關(guān)系分類提取結(jié)果,基于MSVM-WKNN算法的分類方法在分類過程中對(duì)屬性賦于不同權(quán)重,基于MSVM-WKNN算法的人物關(guān)系提取方法顯著提高人物關(guān)系分類、提取的精度。這種人物關(guān)系提取方法可用于對(duì)新聞網(wǎng)頁、文本等中提及的人物間的關(guān)系的提取。

      進(jìn)一步地,所述基于MSVM-WKNN算法的分類方法包括以下兩個(gè)步驟:

      (1)利用MSVM算法向量生成:采用One-vs-One多類支持向量機(jī)對(duì)訓(xùn)練文本集進(jìn)行學(xué)習(xí)訓(xùn)練,構(gòu)建出k(k-1)/2個(gè)二類分類器;

      (2)利用WKNN算法類別劃分:對(duì)多類支持向量機(jī)訓(xùn)練過程中產(chǎn)生的拒分向量集合中每個(gè)向量進(jìn)行屬性權(quán)重調(diào)整,用WKNN算法將屬性權(quán)重調(diào)整后的向量劃分到某個(gè)類別中完成分類。

      進(jìn)一步地,所述屬性權(quán)重調(diào)整具體為:對(duì)各特征屬性加權(quán),特征屬性i的權(quán)值為Wi,所述權(quán)值依據(jù)特征屬性i對(duì)分類的貢獻(xiàn),特征屬性i對(duì)分類的貢獻(xiàn)越大其權(quán)值越大。

      進(jìn)一步地,特征屬性i權(quán)值具體為,

      其中,Si為特征屬性i的靈敏度,

      m為樣本的屬性特征維數(shù);n為樣本個(gè)數(shù);

      為將整個(gè)訓(xùn)練樣本庫作為前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,采用BP神經(jīng)網(wǎng)絡(luò)算法,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到收斂為止,得到一個(gè)神經(jīng)網(wǎng)絡(luò)分類器,神經(jīng)網(wǎng)絡(luò)分類器對(duì)訓(xùn)練樣本庫的樣本h分類的預(yù)測(cè)精度值為

      對(duì)特征屬性i,將訓(xùn)練樣本中所有樣本的第i個(gè)特征屬性的值均改為0,其他特征屬性值不變,形成新的訓(xùn)練樣本庫Bi,然后在訓(xùn)練樣本庫Bi的基礎(chǔ)上,重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器,此時(shí)神經(jīng)網(wǎng)絡(luò)分類器對(duì)訓(xùn)練樣本庫的樣本h分類的預(yù)測(cè)精度值為

      表示對(duì)于的相對(duì)誤差的絕對(duì)值。

      進(jìn)一步地,用WKNN算法劃分類別過程中利用加權(quán)的歐幾里得距離來作為k近鄰計(jì)算的依據(jù);

      加權(quán)的歐幾里距離為

      其中,X為拒分向量,X={x1,x2,…,xm,xa}xa為X類別值;

      YC為第C類的樣本向量,為YC類別值;

      Wj為第j個(gè)屬性的權(quán)值。

      進(jìn)一步地,所述KNN算法中采用以待分類的拒分向量為圓心,以待分類拒分向量與拒分向量集合中心向量的距離加上待分類拒分向量與最大的支持向量的距離之和為半徑的圓作為k近鄰計(jì)算的范圍。

      進(jìn)一步地,所述候選人物關(guān)系集經(jīng)過利用語義角色標(biāo)注分析方法標(biāo)注。

      進(jìn)一步地,所述候選人物關(guān)系集通過以下步驟獲得:

      1)中文分詞和詞性標(biāo)注:利用分詞系統(tǒng)對(duì)原始文本集進(jìn)行中文分詞和詞性標(biāo)注;

      2)人名識(shí)別:把詞性標(biāo)注為“nr”、“nr1”、“nr2”、“nrj”、“nrf”的詞語視為人名,作為人物信息挖掘的觸發(fā)詞;

      3)指代消解:利用Hobbs算法進(jìn)行明確代詞與其先行詞的指代關(guān)系,即選擇同一個(gè)句子中出現(xiàn)的人名,選擇離代詞近的人名,通過自左向右層次遍歷句法數(shù)來消解代詞;

      4)句子切分與選?。簩⒕涮?hào)“?!?、嘆號(hào)“!”、問號(hào)“?”、分號(hào)“;”作為句子的切分標(biāo)志;將句子中是否存在兩個(gè)及兩個(gè)以上的人名作為判斷句子中是否含有人物關(guān)系的依據(jù);

      5)候選關(guān)系生成:以句子為單位,提取人名實(shí)體對(duì)和人名實(shí)體對(duì)周圍的詞場(chǎng)特征值;取人名實(shí)體前后各兩個(gè)詞作為它們的詞場(chǎng),以詞以及詞的相對(duì)位置、詞性、人名實(shí)體屬性為特征生成向量,即為候選人物關(guān)系向量;

      6)人物關(guān)系標(biāo)注:對(duì)生成的候選關(guān)系向量進(jìn)行人物關(guān)系標(biāo)注,形成候選人物關(guān)系訓(xùn)練集。

      進(jìn)一步地,所用分詞系統(tǒng)為中科院計(jì)算所的ICTCLAS2015分詞系統(tǒng)。

      本發(fā)明的有益技術(shù)效果:本發(fā)明在針對(duì)現(xiàn)有技術(shù)上在KNN算法類別劃分過程中采用一種屬性權(quán)重調(diào)整的方法對(duì)訓(xùn)練樣本屬性進(jìn)行賦予特定的權(quán)值,即通過調(diào)整屬性權(quán)重的方式來提高KNN算法類別劃分的準(zhǔn)確率。另外,本發(fā)明首次采用靈敏度法的神經(jīng)網(wǎng)絡(luò)算法,利用機(jī)器學(xué)習(xí)的思想進(jìn)行訓(xùn)練學(xué)習(xí)計(jì)算特征屬性的權(quán)重,其效率和準(zhǔn)確率更高,同時(shí)為k鄰近算法屬性權(quán)重的計(jì)算提供新方法和新思路。同時(shí),本發(fā)明將此方法與多類支持向量機(jī)分類算法相結(jié)合應(yīng)用到人物關(guān)系分類提取領(lǐng)域,提高了人物關(guān)系分類提取精度。

      附圖說明

      圖1、利用基于MSVM-WKNN算法的分類方法進(jìn)行人物關(guān)系分類提取流程示意圖。

      具體實(shí)施方式

      為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)描述。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,并不用于限定本發(fā)明。

      相反,本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進(jìn)一步,為了使公眾對(duì)本發(fā)明有更好的了解,在下文對(duì)本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對(duì)本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。

      實(shí)施例1

      人物關(guān)系,是指人物在其特定的社會(huì)范圍內(nèi)與他人之間存在和產(chǎn)生的關(guān)系。在基于特征提取的人物關(guān)系提取問題中,人物關(guān)系特征向量PR=<RelationType,RelationFeature,Keywords>由人物關(guān)系類別、人物關(guān)系特征和關(guān)鍵詞組成。根據(jù)人與人之間的熟悉程度和親密程度關(guān)系劃分,人物關(guān)系類型主要分為以下幾類:家庭關(guān)系,工作關(guān)系,朋友關(guān)系,師生關(guān)系,合作關(guān)系以及共現(xiàn)關(guān)系。這里給了人物關(guān)系一個(gè)定義:對(duì)于人物關(guān)系PR,存在一個(gè)人物實(shí)體對(duì)Pair,滿足對(duì)于任意實(shí)體對(duì)Pair=<P1,P2>屬于PAIR,則PR<P1,P2>=True,其中PR<P1,P2>=True表示P1和P2滿足關(guān)系類型PR。

      人物關(guān)系的提取是屬于實(shí)體關(guān)系提取范疇,而實(shí)體關(guān)系提取大多是基于特征提取的方法,基于特征提取的人物關(guān)系包括以下幾個(gè)主要處理過程:中文分詞、詞性標(biāo)注、人物姓名識(shí)別、指代消解、語句選取、人物關(guān)系特征提取以及人物關(guān)系分類。

      為了解決人物關(guān)系提取的多類劃分和MSVM的拒分問題,本發(fā)明融合了One-vs-One多分類支持向量機(jī)和改進(jìn)的KNN算法得到MSVM-WKNN算法,提供了基于MSVM-WKNN算法的分類方法并將其應(yīng)用于人物關(guān)系提取,顯著提高了人物關(guān)系提取精度?;贛SVM-WKNN算法的分類方法具體的原理如下:

      首先,采用One-vs-One多類支持向量機(jī)對(duì)訓(xùn)練文本集進(jìn)行學(xué)習(xí)訓(xùn)練,構(gòu)建出k(k-1)/2個(gè)二類分類器,但對(duì)于多類支持向量機(jī)訓(xùn)練過程中產(chǎn)生的拒分向量集合R中每個(gè)向量用WKNN算法進(jìn)行屬性權(quán)重調(diào)整處理,將其劃分到某個(gè)類別中去。最終,組成所需的人物關(guān)系分類模型,再根據(jù)該分類模型來處理待分類的人物關(guān)系特征向量。整個(gè)過程分為支持向量生成過程和類別劃分過程。

      對(duì)于支持向量生成過程,通過One-vs-One多類支持向量機(jī)對(duì)語義角色標(biāo)注方法提取的訓(xùn)練向量集合Straining={xi|xi∈Rn,i∈N+,i≤N]進(jìn)行訓(xùn)練,采用多項(xiàng)式核函數(shù)和設(shè)定的參數(shù),最終得到k(k-1)/2個(gè)二類支持向量機(jī)分類器。

      傳統(tǒng)的KNN算法在計(jì)算k近鄰時(shí)采用的是相同的特征權(quán)重來計(jì)算其相似度,也就是認(rèn)定各個(gè)特征對(duì)于分類的貢獻(xiàn)是相同的,這顯然不符合實(shí)際情況。因?yàn)橄嗤奶卣鳈?quán)重使得特征向量之間相似度計(jì)算不夠準(zhǔn)確,進(jìn)而會(huì)影響KNN算法的分類精度,其實(shí)驗(yàn)分析結(jié)果分類的準(zhǔn)確率只有60%左右,這更能說明通過調(diào)整特征權(quán)重來提高分類精度是有必須的。

      本發(fā)明采用了靈敏度方法在計(jì)算k近鄰時(shí)對(duì)樣本向量的屬性權(quán)重進(jìn)行計(jì)算,已通過對(duì)屬性權(quán)重的調(diào)整改變來提高人物關(guān)系分類提取的準(zhǔn)確度。假定訓(xùn)練樣本庫T中具有J類樣本n個(gè),樣本的屬性特征維數(shù)為m,計(jì)算樣本各特征權(quán)重的具體步驟如下:

      1)將整個(gè)訓(xùn)練樣本庫T作為前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,采用BP神經(jīng)網(wǎng)絡(luò)算法,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到收斂為止,得到一個(gè)神經(jīng)網(wǎng)絡(luò)分類器。此時(shí)神經(jīng)網(wǎng)絡(luò)分類器對(duì)訓(xùn)練樣本庫的樣本h分類的預(yù)測(cè)值為此時(shí)的訓(xùn)練樣本庫是前述訓(xùn)練樣本集經(jīng)過多類支持向量機(jī)分類過后產(chǎn)生的拒分向量所形成的集合R。

      2)計(jì)算每個(gè)特征屬性的靈敏度:對(duì)每一個(gè)特征屬性i,將訓(xùn)練樣本中所有樣本的第i個(gè)特征屬性的值均改為0,其他特征屬性值不變,形成新的訓(xùn)練樣本庫Bi,然后在訓(xùn)練樣本庫Bi的基礎(chǔ)上,按照第1)步的方法重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器,此時(shí)神經(jīng)網(wǎng)絡(luò)分類器對(duì)訓(xùn)練樣本庫的樣本h分類的預(yù)測(cè)值為則可根據(jù)公式(1)計(jì)算特征屬性i的靈敏度:

      Si越大,說明特征屬性i對(duì)分類的貢獻(xiàn)就越大;Si越小,說明特征屬性i對(duì)分類的貢獻(xiàn)就越小。表示對(duì)于的相對(duì)誤差的絕對(duì)值。

      3)計(jì)算每個(gè)特征屬性的權(quán)重:將特征i的Si進(jìn)行標(biāo)準(zhǔn)化計(jì)算,即可得到各個(gè)特征屬性初始權(quán)重Wi,計(jì)算如公式(2):

      4)特征屬性權(quán)值調(diào)整的KNN算法:將上述計(jì)算的每個(gè)特征屬性的權(quán)重加入到KNN算法的k近鄰計(jì)算過程中,即利用加權(quán)的歐幾里得距離來作為k近鄰計(jì)算的依據(jù)。如假定拒分向量X={x1,x2,…,xm,xa},其中xa為類別值,以及第C類的樣本向量其中為類別直,則其加權(quán)的歐幾里距離如公式(3):

      其中Wj為第j個(gè)屬性的權(quán)值。

      針對(duì)屬性特征權(quán)重調(diào)整的KNN算法在類別劃分過程中具體步驟如下:

      輸入:MSVM訓(xùn)練階段所得到的支持向量集合SSV,且

      訓(xùn)練向量集合

      Straining={xi|xi∈Rn,i∈N+,i≤N},待分類向量T={yi|yi∈Rn,i∈N+,i∈M,M為待分向量總數(shù)},Straining和T中向量的維數(shù)都為dimST。

      輸出:待分類向量集T中所有向量所屬類別。

      具體過程:

      1、SVMCreate(SSV)函數(shù)實(shí)現(xiàn)根據(jù)SSV中的支持向量

      生成k(k-1)/2個(gè)支持向量機(jī)

      2、

      3、首先,對(duì)訓(xùn)練向量集合Straining采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練,直到訓(xùn)練收斂為止,從而得到

      4、一個(gè)神經(jīng)網(wǎng)絡(luò)分類器,并在給予訓(xùn)練樣本集合中樣本h分類的預(yù)測(cè)值為

      5、然后,將訓(xùn)練樣本集合中的每個(gè)樣本的第i個(gè)特征值全部改為0,再次用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練

      6、學(xué)習(xí),此時(shí)在給予訓(xùn)練樣本集合中樣本h分類的預(yù)測(cè)值為

      7、再通過靈敏度方法計(jì)算出特征屬性i的靈敏度:

      8、最后將每個(gè)特征屬性的靈敏度進(jìn)行標(biāo)準(zhǔn)化,則可得到每個(gè)特征屬性的權(quán)重:

      9、foreach(yi in T)

      10、{

      11、

      12、{

      13、if(gr(yi)≥1 or gr(yi)≤1)

      14、yi∈類r

      15、}

      16、if(yi不可分)

      17、{

      18、foreach(xj in Straining)

      19、{

      20、根據(jù)下式計(jì)算yi與xj的相似度,這里采用歐幾里得距離來表示相似度,

      21、其中Wk表示第k個(gè)

      22、屬性的權(quán)重,xjk和yik分別表示訓(xùn)練向量xj的第k個(gè)屬性值以及待分類向

      23、量yi的第j個(gè)屬性值。

      24、}

      25、Sort(Sim(yi,xj))函數(shù)對(duì)相似度進(jìn)行排序,最后找出yi在Straining中的k個(gè)最近鄰

      26、量,最后yi判給這k個(gè)近鄰中向量數(shù)最多的類別。

      27、}

      28、}

      其中,在保證不降低分類準(zhǔn)確率的前提下,將KNN算法的k近鄰計(jì)算的范圍進(jìn)行縮減,采用以待分類的拒分向量為圓心,以待分類拒分向量與拒分向量集合中心向量的距離加上待分類拒分向量與最大的支持向量的距離之和為半徑的圓作為k近鄰計(jì)算的范圍,以提高分類的效率。

      同時(shí),可將上述基于MSVM-WKNN算法的分類方法應(yīng)用與人物分類關(guān)系的提取,具體步驟及流程如圖1所示。具體包括以下步驟:

      1)中文分詞和詞性標(biāo)注:本發(fā)明采用的是中科院計(jì)算所的ICTCLAS2015分詞系統(tǒng)對(duì)原始文本集進(jìn)行中文分詞和詞性標(biāo)注。該系統(tǒng)對(duì)于分詞和詞性標(biāo)注的精度都達(dá)到90%以上,處理速度也是非??焖俚?。

      2)人名識(shí)別:目前來說在人名識(shí)別的研究還處在一個(gè)不是很成熟的階段,由于漢語人名數(shù)量多、稱呼表達(dá)式多樣、縮寫略寫樣式多且不統(tǒng)一以及人名與普通次混用的原因?qū)е聺h語人名識(shí)別的正確率不高。本發(fā)明采用的是當(dāng)前人名識(shí)別提取比較的好方法,中科院計(jì)算所ICTCLAS2015分詞系統(tǒng)進(jìn)行人名識(shí)別,在這里,把詞性標(biāo)注為“nr”、“nr1”、“nr2”、“nrj”、“nrf”的詞語視為人名,作為人物信息挖掘的觸發(fā)詞。

      3)指代消解:本發(fā)明采用的是Hobbs算法進(jìn)行明確代詞與其先行詞的指代關(guān)系,即選擇同一個(gè)句子中出現(xiàn)的人名,選擇離代詞近的人名,通過自左向右層次遍歷句法數(shù)來消解代詞。

      4)句子切分與選?。罕景l(fā)明研究的是一個(gè)句子內(nèi)的人物關(guān)系識(shí)別,所以要選擇出可能含有人物關(guān)系的候選句。句子的切分標(biāo)志是句號(hào)“?!?、嘆號(hào)“!”、問號(hào)“?”、分號(hào)“;”等標(biāo)點(diǎn)。判斷句子中是否含有人物關(guān)系的依據(jù)是句子中是否存在兩個(gè)及兩個(gè)以上的人名。

      5)候選關(guān)系生成:以句子為單位,提取人名實(shí)體對(duì)和人名實(shí)體對(duì)周圍的詞場(chǎng)特征值。假設(shè)一個(gè)候選句子如:R1和R2是兩個(gè)人名實(shí)體,□是兩個(gè)人名實(shí)體周圍的詞,句子中人物關(guān)系提取無關(guān)的詞已經(jīng)去掉,這些詞包括:助詞、介詞、連詞等。本發(fā)明取R1和R2前后各兩個(gè)詞作為它們的詞場(chǎng),以詞以及詞的相對(duì)位置、詞性、人名實(shí)體屬性為特征生成向量,即為候選關(guān)系向量。

      6)候選關(guān)系集:對(duì)生成的候選關(guān)系向量進(jìn)行的人物關(guān)系標(biāo)注,形成候選關(guān)系訓(xùn)練集。

      7)人物關(guān)系提?。翰捎肕SVM-WKNN算法對(duì)候選關(guān)系集進(jìn)行訓(xùn)練構(gòu)建人物關(guān)系分類提取模型,再利用人物關(guān)系分類提取模型對(duì)未標(biāo)記的分類語料庫進(jìn)行人物關(guān)系提取,最終獲取人物關(guān)系分類提取結(jié)果。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1