国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文本分類(lèi)的城市管理案件分類(lèi)方法與流程

      文檔序號(hào):12598614閱讀:342來(lái)源:國(guó)知局
      一種基于文本分類(lèi)的城市管理案件分類(lèi)方法與流程

      本發(fā)明涉及城市案件管理技術(shù)領(lǐng)域,具體為一種城市管理案件短文本分類(lèi)的方法。



      背景技術(shù):

      信息化時(shí)代的來(lái)臨使得世界各國(guó)的城市化發(fā)展步入數(shù)字化的軌道,城市管理也邁入了數(shù)字化、科技化、移動(dòng)化的階段。城市管理案件的上報(bào)將依賴(lài)于更多的信息化設(shè)備,例如智能手機(jī)等。通過(guò)手機(jī)App,包括環(huán)衛(wèi)工人在內(nèi)的各部門(mén)工作人員,發(fā)現(xiàn)案件即可一鍵上報(bào)。案件的來(lái)源得到了極大的豐富,提高了發(fā)現(xiàn)問(wèn)題的能力。隨著案件數(shù)量的大幅提升,案件的快速派發(fā)與處理成為了目前以及將來(lái)需要處理并解決的重要問(wèn)題之一。針對(duì)龐大的案件數(shù)量,如果再通過(guò)人工的方式來(lái)手動(dòng)分類(lèi),工作量將是巨大的,并且會(huì)產(chǎn)生很大的成本開(kāi)支與較高的錯(cuò)誤率。為此,找到一種快速高效的案件自動(dòng)分類(lèi)方法是至關(guān)重要的。

      城市管理案件上報(bào)的內(nèi)容主要包括案件文本描述、案件語(yǔ)音描述、案發(fā)照片、案發(fā)位置等,其中案件文本描述是必填內(nèi)容并且通過(guò)案件的文本描述即可判斷出相應(yīng)案件類(lèi)型,因此,城管案件的自動(dòng)分類(lèi)可以通過(guò)案件描述短文本的自動(dòng)分類(lèi)來(lái)實(shí)現(xiàn)。文本自動(dòng)分類(lèi)技術(shù)是信息檢索以及自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)和關(guān)鍵技術(shù),近年來(lái)已得到了快速的發(fā)展,并取得了一定的研究成果。但到目前為止,還沒(méi)有一套統(tǒng)一的文本自動(dòng)分類(lèi)系統(tǒng)可以完美的解決各種類(lèi)型的文本分類(lèi)問(wèn)題,例如,微博、新聞標(biāo)題、文章、聊天信息等。特別是在文本的特征處理方面,例如,特征表示、特征選擇等。文本特征處理是文本分類(lèi)的基礎(chǔ),對(duì)最終的分類(lèi)效果影響巨大,因此,針對(duì)不同的實(shí)際問(wèn)題,選擇最合適的特征處理方法顯得尤為重要。

      本發(fā)明要研究的城市管理案件描述文本與普通文本有很大的不同。第一,案件描述文本是一種短文本,字?jǐn)?shù)一般在100字以?xún)?nèi),甚至很多情況下,案件描述只有幾個(gè)字。這就造成文本向量長(zhǎng)度非常短,很不利于訓(xùn)練學(xué)習(xí),需要對(duì)文本的特征長(zhǎng)度進(jìn)行擴(kuò)展。第二,案件描述短文本一般對(duì)事物的現(xiàn)狀進(jìn)行描述,多采用緊湊的主謂(如,機(jī)動(dòng)車(chē)占道)、動(dòng)賓(如,發(fā)小廣告)或并列(如,雨水井蓋)等結(jié)構(gòu),從學(xué)習(xí)的角度看,短語(yǔ)特征要比僅以分割的詞作特征描述能力更強(qiáng)。因此,若直接對(duì)案件描述短文本原始特征進(jìn)行特征選擇,不但會(huì)使得文本向量長(zhǎng)度更短,而且無(wú)法選擇得到分類(lèi)效果更好的短語(yǔ)特征。為此,本發(fā)明研究了一種新的特征生成算法即互鄰特征組合算法,先對(duì)原始文本特征進(jìn)行處理,擴(kuò)展文本向量長(zhǎng)度并生成描述力更強(qiáng)的組合特征,然后再對(duì)文本進(jìn)行特征選擇。在特征選擇算法實(shí)現(xiàn)方面,本發(fā)明改進(jìn)了基于類(lèi)別特征域的特征選擇方法,通過(guò)綜合考慮類(lèi)內(nèi)類(lèi)間分散度以及詞頻因素提出了一種新的隸屬度函數(shù)替換了傳統(tǒng)的隸屬度函數(shù)(互信息)。實(shí)驗(yàn)結(jié)果表明:改善后的特征選擇方法對(duì)案件短文本分類(lèi)效果較其它幾種特征選擇方法有著更好的分類(lèi)性能。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明針對(duì)上述問(wèn)題,提供一種基于文本分類(lèi)的城市管理案件分類(lèi)方法,該短文本分類(lèi)的方法在進(jìn)行特征選擇之前先用互鄰特征組合算法對(duì)原始特征空間進(jìn)行了處理,在生成短語(yǔ)特征的同時(shí)擴(kuò)展了特征空間,這就使得后面在進(jìn)行特征選擇時(shí),有了更多的選擇空間。

      實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為:

      一種基于文本分類(lèi)的城市管理案件分類(lèi)方法,包括以下步驟:

      S1:預(yù)處理,對(duì)短文本進(jìn)行預(yù)處理,進(jìn)行分詞、去除文本中的停用詞、統(tǒng)計(jì)詞頻等操作,其中停用詞包括標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞;

      S2:互鄰特征組合,通過(guò)互鄰特征組合算法對(duì)文本特征空間中的特征進(jìn)行組合,形成新的特征,并擴(kuò)展特征空間;

      S3:基于類(lèi)別特征域的特征選擇,經(jīng)上述互鄰特征組合算法進(jìn)行特征擴(kuò)展之后,整個(gè)短文本的特征空間變得十分龐大,在產(chǎn)生對(duì)短文本分類(lèi)描述力更強(qiáng)的組合特征的同時(shí),也產(chǎn)生了很多對(duì)分類(lèi)效果貢獻(xiàn)不大甚至有影響的特征,需要對(duì)其進(jìn)行特征選擇:

      首先,為短文本中的每一類(lèi)都分別分配一個(gè)類(lèi)標(biāo)識(shí)碼,設(shè)類(lèi)別ci的類(lèi)標(biāo)識(shí)碼為di;然后,對(duì)于短文本D的每一個(gè)特征t都按照如下方式進(jìn)行處理:

      a.若t屬于且僅屬于類(lèi)別ci的類(lèi)別特征域,則ci的類(lèi)標(biāo)識(shí)碼di將被作為短文本D的一個(gè)特征;

      b.若t同時(shí)屬于m個(gè)類(lèi)別ci1,ci2,…,cim的類(lèi)別特征域,則上述m個(gè)類(lèi)別的類(lèi)標(biāo)識(shí)碼di1,di2,…,dim都將被作為短文本D的特征;

      c.若t不屬于任何一類(lèi)的類(lèi)別特征域,則將t本身作為短文本D的一個(gè)特征;

      從上述過(guò)程中可以看出:各類(lèi)的類(lèi)別特征域中的特征將被替換為對(duì)應(yīng)的類(lèi)標(biāo)識(shí)碼;如果在一條短文本中有多個(gè)特征屬于同一類(lèi)別特征域,即多個(gè)特征對(duì)應(yīng)同一類(lèi)標(biāo)識(shí)碼,那么它們的權(quán)重將被累加并作為這個(gè)類(lèi)標(biāo)識(shí)碼在該短文本中的權(quán)重,這樣,主要特征將獲得更大的權(quán)重值,有助于提升文本的分類(lèi)效果;

      S4:采用tf-idf加權(quán),計(jì)算每個(gè)文本特征向量,tf-idf權(quán)重被廣泛應(yīng)用于文本分類(lèi)領(lǐng)域,其基本思想是通過(guò)某一特征項(xiàng)在不同文本中出現(xiàn)頻率的差異性大小來(lái)判斷該特征項(xiàng)對(duì)分類(lèi)的貢獻(xiàn)度,即如果某一特征項(xiàng)在一個(gè)文本中出現(xiàn)的頻率很高,并且很少在其他文本中出現(xiàn),那么就認(rèn)為該特征具有較高的類(lèi)別識(shí)別度,更有利于文本分類(lèi),因此,tf-idf的值與文本中該特征項(xiàng)的詞頻數(shù)成正比,而與文本集中包含該特征項(xiàng)的文本數(shù)的比重成反比,常通過(guò)特征項(xiàng)的詞頻數(shù)與反文本數(shù)的乘積來(lái)計(jì)算,公式如下:

      <mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow>

      其中,wtd為特征項(xiàng)t在文本d中的權(quán)重值;tftd是文本d中特征t出現(xiàn)頻數(shù);N為總文本數(shù);nt表示含有特征t的文本數(shù),通常還會(huì)對(duì)TF-IDF權(quán)重進(jìn)行規(guī)范化處理,公式為:

      <mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

      S5:訓(xùn)練分類(lèi)器并對(duì)測(cè)試文本分類(lèi),本方法中使用LibLinear作為文本分類(lèi)器,LibLinear可高效的解決大規(guī)模線性分類(lèi)問(wèn)題,并已經(jīng)成為一種解決大型數(shù)據(jù)稀疏問(wèn)題的重要學(xué)習(xí)技術(shù)。

      優(yōu)選的,所述互鄰特征組合算法具體為:

      當(dāng)一條案件描述短文本初步分詞結(jié)果如下:

      S=(w1,w2,w3,w4,w5) (1)

      其中w1,w2,w3,w4,w5分別代表短文本S的五個(gè)特征詞;

      互鄰特征組合算法執(zhí)行后結(jié)果為:

      S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)

      其中w1,w2,w3,w4,w5不變,w12為特征詞w1與w2相連后形成的新的特征詞,w23,w34,w45同理。

      優(yōu)選的,所述類(lèi)別特征域?yàn)槊總€(gè)類(lèi)中的主要特征集合,一個(gè)特征是否屬于某個(gè)類(lèi)的主要特征集通過(guò)該特征與相應(yīng)類(lèi)別之間的隸屬度函數(shù)值大小進(jìn)行判定。

      優(yōu)選的,所述類(lèi)別特征域根據(jù)隸屬度函數(shù)計(jì)算公式構(gòu)建,類(lèi)別ci的類(lèi)別特征域構(gòu)建步驟如下:

      1)設(shè)定一個(gè)閾值d,分別計(jì)算類(lèi)別ci中每個(gè)特征t的隸屬度函數(shù)值,其中,閾值d的大小由最終特征選擇保留特征的數(shù)目所確定;

      2)若高于閾值d,就認(rèn)為特征t屬于類(lèi)別ci的類(lèi)別特征域;

      通過(guò)上述類(lèi)別特征域的構(gòu)造方式,如果某一個(gè)詞條在多個(gè)類(lèi)別中都有出現(xiàn),并且滿(mǎn)足相應(yīng)類(lèi)別特征域的所屬條件,那么該詞條將同時(shí)屬于多個(gè)類(lèi)的類(lèi)別特征域。

      優(yōu)選的,所述隸屬度函數(shù)計(jì)算公式為:

      <mrow> <msub> <mi>u</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>f</mi> <mi>t</mi> </msub> <mi>N</mi> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

      式中,tfit表示在類(lèi)別ci中特征t出現(xiàn)的詞頻數(shù);tft表示在所有類(lèi)別中特征t出現(xiàn)的詞頻數(shù);fit表示在類(lèi)別ci中含有特征t的文本數(shù);Ci表示在類(lèi)別ci中的文本總數(shù);ft表示在所有類(lèi)別中含有特征t的文本數(shù);N表示文本集的總文本數(shù);

      用于計(jì)算類(lèi)間分散度,tfit越大tft-tfit越小即表明特征t在某一類(lèi)別中大量出現(xiàn)而在其他類(lèi)別中較少出現(xiàn),則說(shuō)明該特征對(duì)文本分類(lèi)的貢獻(xiàn)度越大,為防止分母為零,對(duì)tft-tfit進(jìn)行加1處理;

      用于計(jì)算類(lèi)內(nèi)分散度,越大越小即表明在某一類(lèi)別中包含該特征t的文本數(shù)越多,同時(shí)在所有類(lèi)別中包含特征t的文本數(shù)越少,則說(shuō)明該特征對(duì)文本分類(lèi)的貢獻(xiàn)度越大;為防止出現(xiàn)負(fù)數(shù),對(duì)進(jìn)行加1處理。

      本發(fā)明的優(yōu)點(diǎn)為:

      (1)本發(fā)明方法在進(jìn)行特征選擇之前先用互鄰特征組合算法對(duì)原始特征空間進(jìn)行了處理,在生成短語(yǔ)特征的同時(shí)擴(kuò)展了特征空間,這就使得后面在進(jìn)行特征選擇時(shí),有了更多的選擇空間。

      (2)本發(fā)明中的新的隸屬度函數(shù)充分考慮了類(lèi)內(nèi)類(lèi)間分散度和詞頻因素,在構(gòu)造類(lèi)別特征域時(shí)明顯要比只考慮文檔數(shù)目的互信息的方法有效很多。

      (3)基于類(lèi)別特征域的特征選擇算法在特征約減時(shí),是將特征替換為相應(yīng)的類(lèi)標(biāo)識(shí)碼并加權(quán),過(guò)程中并沒(méi)有直接移除特征,不但沒(méi)有信息的丟失,而且在很大程度上解決了數(shù)據(jù)稀疏問(wèn)題,所以保留特征的數(shù)量對(duì)分類(lèi)性能的影響不大。

      附圖說(shuō)明

      圖1為本發(fā)明基于特征生成與選擇的案件短文本分類(lèi)的方法流程圖;

      圖2為本發(fā)明在不同特征數(shù)情況下各特征選擇算法對(duì)應(yīng)的宏平均F1值;

      圖3為本發(fā)明在不同特征數(shù)情況下各特征選擇算法對(duì)應(yīng)的微平均F1值。

      具體實(shí)施方式

      下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      請(qǐng)參閱圖1-3,本發(fā)明提供一種技術(shù)方案:一種基于文本分類(lèi)的城市管理案件分類(lèi)方法,包括以下步驟:

      S1:預(yù)處理,對(duì)短文本進(jìn)行預(yù)處理,進(jìn)行分詞、去除文本中的停用詞、統(tǒng)計(jì)詞頻等操作,其中停用詞包括標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞,文本處理的過(guò)程首先是從分詞開(kāi)始,中文分詞大部分采用的是基于詞典的最大匹配算法,而匹配的過(guò)程中難免會(huì)造成匹配錯(cuò)誤,并且很大一部分匹配不上的短語(yǔ)有可能對(duì)文本的分類(lèi)效果有著更好的提升,例如:“井蓋破損”,分詞之后會(huì)生成“井蓋”與“破損”兩個(gè)詞語(yǔ),而這兩個(gè)詞語(yǔ)作為特征顯然不如合在一起組成的“井蓋破損”這一個(gè)特征更具有分類(lèi)性能;

      S2:互鄰特征組合,通過(guò)互鄰特征組合算法對(duì)文本特征空間中的特征進(jìn)行組合,形成新的特征,并擴(kuò)展特征空間;所述互鄰特征組合算法具體為:

      當(dāng)一條案件描述短文本初步分詞結(jié)果如下:

      S=(w1,w2,w3,w4,w5) (1)

      其中w1,w2,w3,w4,w5分別代表短文本S的五個(gè)特征詞;

      互鄰特征組合算法執(zhí)行后結(jié)果為:

      S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)

      其中w1,w2,w3,w4,w5不變,w12為特征詞w1與w2相連后形成的新的特征詞,w23,w34,w45同理。

      S3:基于類(lèi)別特征域的特征選擇,經(jīng)上述互鄰特征組合算法進(jìn)行特征擴(kuò)展之后,整個(gè)短文本的特征空間變得十分龐大,在產(chǎn)生對(duì)短文本分類(lèi)描述力更強(qiáng)的組合特征的同時(shí),也產(chǎn)生了很多對(duì)分類(lèi)效果貢獻(xiàn)不大甚至有影響的特征,需要對(duì)其進(jìn)行特征選擇:

      首先,為短文本中的每一類(lèi)都分別分配一個(gè)類(lèi)標(biāo)識(shí)碼,設(shè)類(lèi)別ci的類(lèi)標(biāo)識(shí)碼為di;然后,對(duì)于短文本D的每一個(gè)特征t都按照如下方式進(jìn)行處理:

      a.若t屬于且僅屬于類(lèi)別ci的類(lèi)別特征域,則ci的類(lèi)標(biāo)識(shí)碼di將被作為短文本D的一個(gè)特征;

      b.若t同時(shí)屬于m個(gè)類(lèi)別ci1,ci2,…,cim的類(lèi)別特征域,則上述m個(gè)類(lèi)別的類(lèi)標(biāo)識(shí)碼di1,di2,…,dim都將被作為短文本D的特征;

      c.若t不屬于任何一類(lèi)的類(lèi)別特征域,則將t本身作為短文本D的一個(gè)特征;

      從上述過(guò)程中可以看出:各類(lèi)的類(lèi)別特征域中的特征將被替換為對(duì)應(yīng)的類(lèi)標(biāo)識(shí)碼;如果在一條短文本中有多個(gè)特征屬于同一類(lèi)別特征域,即多個(gè)特征對(duì)應(yīng)同一類(lèi)標(biāo)識(shí)碼,那么它們的權(quán)重將被累加并作為這個(gè)類(lèi)標(biāo)識(shí)碼在該短文本中的權(quán)重,這樣,主要特征將獲得更大的權(quán)重值,有助于提升文本的分類(lèi)效果;所述類(lèi)別特征域?yàn)槊總€(gè)類(lèi)中的主要特征集合,一個(gè)特征是否屬于某個(gè)類(lèi)的主要特征集通過(guò)該特征與相應(yīng)類(lèi)別之間的隸屬度函數(shù)值大小進(jìn)行判定,所述隸屬度函數(shù)計(jì)算公式為:

      <mrow> <msub> <mi>u</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>f</mi> <mi>t</mi> </msub> <mi>N</mi> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

      式中,tfit表示在類(lèi)別ci中特征t出現(xiàn)的詞頻數(shù);tft表示在所有類(lèi)別中特征t出現(xiàn)的詞頻數(shù);fit表示在類(lèi)別ci中含有特征t的文本數(shù);Ci表示在類(lèi)別ci中的文本總數(shù);ft表示在所有類(lèi)別中含有特征t的文本數(shù);N表示文本集的總文本數(shù);

      用于計(jì)算類(lèi)間分散度,tfit越大tft-tfit越小即表明特征t在某一類(lèi)別中大量出現(xiàn)而在其他類(lèi)別中較少出現(xiàn),則說(shuō)明該特征對(duì)文本分類(lèi)的貢獻(xiàn)度越大,為防止分母為零,對(duì)tft-tfit進(jìn)行加1處理;

      用于計(jì)算類(lèi)內(nèi)分散度,越大越小即表明在某一類(lèi)別中包含該特征t的文本數(shù)越多,同時(shí)在所有類(lèi)別中包含特征t的文本數(shù)越少,則說(shuō)明該特征對(duì)文本分類(lèi)的貢獻(xiàn)度越大;為防止出現(xiàn)負(fù)數(shù),對(duì)進(jìn)行加1處理。

      S4:采用tf-idf加權(quán),計(jì)算每個(gè)文本特征向量,tf-idf權(quán)重被廣泛應(yīng)用于文本分類(lèi)領(lǐng)域,其基本思想是通過(guò)某一特征項(xiàng)在不同文本中出現(xiàn)頻率的差異性大小來(lái)判斷該特征項(xiàng)對(duì)分類(lèi)的貢獻(xiàn)度,即如果某一特征項(xiàng)在一個(gè)文本中出現(xiàn)的頻率很高,并且很少在其他文本中出現(xiàn),那么就認(rèn)為該特征具有較高的類(lèi)別識(shí)別度,更有利于文本分類(lèi),因此,tf-idf的值與文本中該特征項(xiàng)的詞頻數(shù)成正比,而與文本集中包含該特征項(xiàng)的文本數(shù)的比重成反比,常通過(guò)特征項(xiàng)的詞頻數(shù)與反文本數(shù)的乘積來(lái)計(jì)算,公式如下:

      <mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow>

      其中,wtd為特征項(xiàng)t在文本d中的權(quán)重值;tftd是文本d中特征t出現(xiàn)頻數(shù);N為總文本數(shù);nt表示含有特征t的文本數(shù),通常還會(huì)對(duì)TF-IDF權(quán)重進(jìn)行規(guī)范化處理,公式為:

      <mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

      S5:訓(xùn)練分類(lèi)器并對(duì)測(cè)試文本分類(lèi),本方法中使用LibLinear作為文本分類(lèi)器,LibLinear可高效的解決大規(guī)模線性分類(lèi)問(wèn)題,并已經(jīng)成為一種解決大型數(shù)據(jù)稀疏問(wèn)題的重要學(xué)習(xí)技術(shù)。

      本發(fā)明設(shè)計(jì)合理,傳統(tǒng)文本處理的過(guò)程首先是從分詞開(kāi)始,中文分詞大部分采用的是基于詞典的最大匹配算法,而匹配的過(guò)程中難免會(huì)造成匹配錯(cuò)誤。并且很大一部分匹配不上的短語(yǔ)有可能對(duì)文本的分類(lèi)效果有著更好的提升。例如:“井蓋破損”,分詞之后會(huì)生成“井蓋”與“破損”兩個(gè)詞語(yǔ),而這兩個(gè)詞語(yǔ)作為特征顯然不如合在一起組成的“井蓋破損”這一個(gè)特征更具有分類(lèi)性能。為此,本發(fā)明提出互鄰特征組合算法來(lái)解決上面提到的問(wèn)題。該算法思想是對(duì)相鄰特征進(jìn)行兩兩組合形成新的特征以解決在分詞上面的不足與短文本特征較少的問(wèn)題,并且互鄰特征組合算法能夠生成大量對(duì)分類(lèi)效果良好的短語(yǔ)特征。經(jīng)過(guò)本發(fā)明上面提出的互鄰特征組合算法進(jìn)行特征擴(kuò)展之后,整個(gè)文本的特征空間變得十分龐大,在產(chǎn)生對(duì)文本分類(lèi)描述力更強(qiáng)的組合特征的同時(shí)也產(chǎn)生了很多對(duì)分類(lèi)效果貢獻(xiàn)不大甚至有影響的特征,并使得向量特征空間更稀疏,需要進(jìn)一步的對(duì)特征進(jìn)行優(yōu)化與處理。

      在短文本分類(lèi)過(guò)程中,判斷某一特征項(xiàng)是否有利于某一類(lèi)別的判定,可以通過(guò)該特征項(xiàng)在該類(lèi)別中出現(xiàn)的頻率與在其它類(lèi)別中出現(xiàn)頻率的差異性進(jìn)行判斷,例如,某個(gè)特征大量出現(xiàn)在一個(gè)類(lèi)別中,而在其它類(lèi)別中,該特征卻出現(xiàn)較少或者不出現(xiàn),那么我們就可初步認(rèn)定該特征有利于分類(lèi)。這種根據(jù)類(lèi)別間特征分布情況來(lái)判斷特征優(yōu)劣的方式可以由類(lèi)間分散度來(lái)計(jì)算。而與類(lèi)間分散度相對(duì)的是類(lèi)內(nèi)分散度,我們考慮在同一類(lèi)別中,如果某一特征項(xiàng)大量出現(xiàn)在某一文本中,而在其它文本中,該特征項(xiàng)卻較少出現(xiàn)或不出現(xiàn)。那么這樣的特征對(duì)類(lèi)別的判定作用較小,甚至可認(rèn)為是冗余特征。類(lèi)內(nèi)分散度便能較好的對(duì)這種類(lèi)內(nèi)特征的分布情況進(jìn)行判別,通過(guò)使用類(lèi)內(nèi)類(lèi)間分散度設(shè)計(jì)的新隸屬度函數(shù)能夠很好的解決上述問(wèn)題。

      通過(guò)上面類(lèi)別特征域的構(gòu)造方式,如果某一個(gè)詞條在多個(gè)類(lèi)別中都有出現(xiàn),并且滿(mǎn)足相應(yīng)類(lèi)別特征域的所屬條件,那么該詞條將同時(shí)屬于多個(gè)類(lèi)的類(lèi)別特征域。例如,“井蓋”一詞,可能既是“雨水井蓋”類(lèi)的特征,又是“電力井蓋”類(lèi)的特征,如果特征詞“井蓋”同時(shí)滿(mǎn)足這兩個(gè)類(lèi)的類(lèi)別特征域判定條件,那么“井蓋”這個(gè)特征詞就同時(shí)屬于“雨水井蓋”與“電力井蓋”兩個(gè)類(lèi)的類(lèi)別特征域。

      應(yīng)用實(shí)驗(yàn)對(duì)本發(fā)明方法的有效性等進(jìn)行驗(yàn)證,實(shí)驗(yàn)驗(yàn)證及結(jié)果分析過(guò)程如下:

      本實(shí)驗(yàn)數(shù)據(jù)來(lái)源于合作研發(fā)的“城管通”應(yīng)用系統(tǒng)。該系統(tǒng)通過(guò)手機(jī)APP(有Android和iOS兩個(gè)版本)上報(bào)案件到服務(wù)端,服務(wù)端收到案件并對(duì)案件進(jìn)行分派處理。目前,該系統(tǒng)包括案件、指揮調(diào)度和人員精細(xì)化管理等五個(gè)子系統(tǒng),管理有34個(gè)責(zé)任網(wǎng)格,每個(gè)網(wǎng)格都有城管、環(huán)衛(wèi)、街道、市政、住建、園林、交警、工商等部門(mén),實(shí)現(xiàn)了案件上報(bào)、分類(lèi)、處置、監(jiān)督等業(yè)務(wù)流程的自動(dòng)化,從而支持多部門(mén)協(xié)同執(zhí)法。該系統(tǒng)日常用戶(hù)已接近5000人,每日從凌晨4點(diǎn)起包括環(huán)衛(wèi)工人在內(nèi)的各崗位工作人員就開(kāi)始上報(bào)案件,晚上的案件則上報(bào)到23點(diǎn)以后,平均每天上報(bào)案件數(shù)量超過(guò)2000條。針對(duì)如此龐大數(shù)量的案件、較長(zhǎng)的時(shí)間范圍,自動(dòng)分類(lèi)方法的研究顯得尤為重要。為了驗(yàn)證本文所提出的特征選擇方法對(duì)案件短文本的分類(lèi)效果,本文從案件數(shù)量最多的53種案件類(lèi)型(包括,私搭亂建、雨水箅子、道路不潔、綠地臟亂、樹(shù)木毀壞、道路破損、條幅廣告、亂堆物料,等)中選取53000個(gè)樣本集(其中每種案件選取樣本1000個(gè))。訓(xùn)練集與測(cè)試集的樣本數(shù)為9:1,即訓(xùn)練集有47700個(gè)樣本,而測(cè)試集有5300個(gè)樣本。

      應(yīng)用本文方法進(jìn)行案件短文本自動(dòng)分類(lèi)的具體流程如圖1所示,包括對(duì)訓(xùn)練文本集和測(cè)試文本集的短文本進(jìn)行預(yù)處理,對(duì)短文本進(jìn)行預(yù)處理之后,用前面提出的互鄰特征組合算法對(duì)短文本特征空間中的互鄰特征進(jìn)行組合,構(gòu)建類(lèi)別特征域,利用類(lèi)別特征域合并特征;采用tf-idf加權(quán)計(jì)算每個(gè)樣本特征向量,再采用分類(lèi)訓(xùn)練器通過(guò)分類(lèi)模型測(cè)試文本特征,進(jìn)而利用分類(lèi)器判定樣本類(lèi)別,最后對(duì)分類(lèi)效果進(jìn)行評(píng)價(jià)。

      特征處理方法的好壞可以直接影響最終的分類(lèi)性能,因此,可以通過(guò)評(píng)價(jià)分類(lèi)的效果來(lái)判斷特征處理方法的有效性。這里,我們采用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值等通用的文本分類(lèi)性能評(píng)價(jià)標(biāo)準(zhǔn)。具體公式如下:

      第j類(lèi)的準(zhǔn)確率:

      Pj=(lj/mj)×100% (4)

      其中,lj為第j類(lèi)分類(lèi)正確的分本數(shù),mj為分類(lèi)系統(tǒng)實(shí)際分類(lèi)為j的分本數(shù)。

      第j類(lèi)的召回率:

      Rj=(lj/nj)×100% (5)

      其中,lj為第j類(lèi)分類(lèi)正確的分本數(shù),nj為第j類(lèi)實(shí)際包含的文本數(shù)。

      第j類(lèi)的F1值:

      <mrow> <mi>F</mi> <msub> <mn>1</mn> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>+</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

      本實(shí)驗(yàn)中的分類(lèi)是多分類(lèi)問(wèn)題,因此采用微平均和宏平均兩種計(jì)算準(zhǔn)確率、召回率和F1值得方法。定義如下所示:

      宏平均準(zhǔn)確率:

      <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

      宏平均召回率:

      <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

      宏平均F1值:

      <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>F</mi> <mn>1</mn> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>&lt;</mo> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>+</mo> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

      微平均準(zhǔn)確率:

      <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

      微平均召回率:

      <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>n</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

      微平均F1值:

      <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>F</mi> <mn>1</mn> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>&times;</mo> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>+</mo> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

      實(shí)驗(yàn)結(jié)果及分析為:文檔頻率(DF)、信息增益(IG)、互信息(MI)以及CHI統(tǒng)計(jì)等特征選擇方法在英文文本分類(lèi)中有著很好的效果。本實(shí)驗(yàn)中分別對(duì)DF、MI、IG、CHI,以及通過(guò)類(lèi)別特征域進(jìn)行特征選擇的三種算法,即FDBC(采用現(xiàn)有的隸屬度函數(shù))、FDBC-N(采用本文提出的新隸屬度函數(shù)),以及本文方法(互鄰特征組合+本文提出的新隸屬度函數(shù))共七種方法進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)中分別比較了七種方法在保留1000,2000,4000,…,14000個(gè)特征時(shí),分類(lèi)系統(tǒng)的分類(lèi)宏平均準(zhǔn)確率、宏平均召回率、宏平均F1值以及微平均F1值。其中特征總數(shù)為102734,原始特征有14174個(gè),組合特征有88560個(gè)。實(shí)驗(yàn)結(jié)果分別如表1、表2、圖2和圖3所示。

      表1在不同特征數(shù)情況下各特征選擇算法對(duì)應(yīng)的宏平均準(zhǔn)確率

      表2在不同特征數(shù)情況下各特征選擇算法對(duì)應(yīng)的宏平均召回率

      由表1、表2、圖2和圖3綜合可見(jiàn),對(duì)每一組特征集,無(wú)論是宏平均值還是微平均值,基于類(lèi)別特征域進(jìn)行特征選擇的三種方法(FDBC、FDBC-N、本發(fā)明方法)在文本分類(lèi)效果和穩(wěn)定性上均明顯高于其它算法,特別是本發(fā)明方法和FDBC-N算法,優(yōu)勢(shì)尤其明顯。之所以會(huì)產(chǎn)生這么大的分類(lèi)效果差距,主要原因有:

      (1)本發(fā)明方法在進(jìn)行特征選擇之前先用互鄰特征組合算法對(duì)原始特征空間進(jìn)行了處理。在生成短語(yǔ)特征的同時(shí)擴(kuò)展了特征空間,使特征數(shù)量由14174個(gè)擴(kuò)展到了102734個(gè),這就使得后面在進(jìn)行特征選擇時(shí),有了更多的選擇空間。

      (2)DF、MI、CHI等算法是以包含某一特征的文檔數(shù)為衡量標(biāo)準(zhǔn)對(duì)特征進(jìn)行約減,保留特征越少,舍棄的特征越多,很多有利于提升分類(lèi)效果的特征被丟棄,導(dǎo)致分類(lèi)的效果有較大落差。并且案件短文本本身就特征稀疏,這樣特征選擇后會(huì)使數(shù)據(jù)稀疏問(wèn)題更加嚴(yán)重。而基于類(lèi)別特征域的特征選擇算法在特征約減時(shí),是將特征替換為相應(yīng)的類(lèi)標(biāo)識(shí)碼并加權(quán),過(guò)程中并沒(méi)有直接移除特征,不但沒(méi)有信息的丟失,而且在很大程度上解決了數(shù)據(jù)稀疏問(wèn)題,所以保留特征的數(shù)量對(duì)分類(lèi)性能的影響不大。

      (3)本發(fā)明中新的隸屬度函數(shù)充分考慮了類(lèi)內(nèi)類(lèi)間分散度和詞頻因素。在構(gòu)造類(lèi)別特征域時(shí)明顯要比只考慮文檔數(shù)目的互信息的方法好很多。

      盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1