本發(fā)明涉及一種通過分詞形式規(guī)范企業(yè)名稱的方法。
背景技術:
:隨著信息技術的飛速發(fā)展,企業(yè)決策分析中對數(shù)據(jù)的準確性依賴越來越強,企業(yè)名稱的完整性直接影響到后期的統(tǒng)計分析及企業(yè)決策,因此企業(yè)名稱的標準化處理非常重要。通常情況下,注冊公司名稱的組成是由行政區(qū)劃、字號、行業(yè)特點、組織形式依次組成,具體說明:行政區(qū)劃:是國家為了進行分級管理而實行的區(qū)域劃分。字號:應當由2個以上漢字組成,行政區(qū)劃不得用作字號,但縣以上行政區(qū)劃地名具有其他含義的除外。企業(yè)名稱也可以使用自然人或者投資人的姓名作為公司字號。行業(yè)特點:應當是反映企業(yè)經(jīng)濟活動性質(zhì)所屬國民經(jīng)濟行業(yè)或者企業(yè)經(jīng)營特點的用語。企業(yè)名稱中行業(yè)用語表述的內(nèi)容應當與企業(yè)經(jīng)營范圍一致。企業(yè)經(jīng)濟活動性質(zhì)分別屬于國民經(jīng)濟行業(yè)不同大類的應當選擇主要經(jīng)濟活動性質(zhì)所屬國民經(jīng)濟行業(yè)類別用語表述企業(yè)名稱中的行業(yè)。組織形式:根據(jù)企業(yè)經(jīng)濟活動性質(zhì)與國家有關法律法規(guī)確定的,有限公司、有限責任公司或者股份有限公司;工商注冊時,企業(yè)注冊的名稱格式大約分為3種:行政區(qū)劃名+字號+行業(yè)特點+組織形式,如:濟南托普沃信息科技有限公司字號+(行政區(qū)劃名)+行業(yè)特點+組織形式,如:途牛(南京)信息技術有限公司字號+行業(yè)特點+組織形式,如:小米科技有限責任公司而在實際的企業(yè)錄入過程中,記錄人員往往會往企業(yè)名稱上添加很多場景信息,例如:人名信息、手機號、特殊符號、日期等。這些不規(guī)范的企業(yè)名稱在做統(tǒng)計分析之前,必須進行企業(yè)名稱規(guī)范化處理。現(xiàn)階段的企業(yè)名稱規(guī)范化處理,即便去掉了名稱中的亂碼,規(guī)范了名稱的格式,但是效果仍然不明顯,后續(xù)人工數(shù)據(jù)清洗工作量還是非常巨大,企業(yè)必須為此花費很多資源。技術實現(xiàn)要素:本發(fā)明的目的是為克服上述現(xiàn)有技術的不足,提供了一種通過分詞形式規(guī)范企業(yè)名稱的方法。為實現(xiàn)上述目的,本發(fā)明采用下述技術方案:一種通過分詞形式規(guī)范企業(yè)名稱的方法,根據(jù)銷售記錄中的企業(yè)名稱的中文詞庫,將其中文詞庫中客戶的名稱信息歸納定義為12類詞性,通過這12類的詞性,對記錄中的客戶名稱進行分詞處理。具體實現(xiàn)步驟如下:一、接收企業(yè)名稱:接收需要處理的企業(yè)名稱;二、企業(yè)名稱標準化:對企業(yè)名稱格式進行規(guī)范化處理,依次包括名稱亂碼處理、附加信息清除處理、符號處理、數(shù)字轉義處理、語義轉化處理和輸出規(guī)范名稱處理步驟;三、企業(yè)名稱分詞:對名稱進行分詞處理,包括傳入第二步輸出的企業(yè)規(guī)范名稱、標準省市識別、標準單詞處理、清理冗余詞語、數(shù)字信息識別、終端嵌套處理和生成分詞步驟;四、輸出分詞后的企業(yè)名稱:輸出結果進行匯總、比對。本發(fā)明的有益效果是:本發(fā)明可以通過對企業(yè)客戶信息中雜亂不規(guī)范的客戶信息進行篩分處理,能將錄入的客戶信息根據(jù)地區(qū)、公司性質(zhì)、行業(yè)特點等進行自動分類標示,方便統(tǒng)計和調(diào)用,減少了大量的人工清洗名稱的工作,對企業(yè)后期統(tǒng)計分析及企業(yè)決策提供很好的便利性。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為12類詞性說明;圖2為企業(yè)名稱進行規(guī)范化處理流程圖;圖3為對企業(yè)名稱進行分詞處理流程圖。具體實施方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。一種通過分詞形式規(guī)范企業(yè)名稱的方法,根據(jù)銷售記錄中的企業(yè)名稱的中文詞庫,將其中文詞庫中客戶的名稱信息歸納定義為圖1中的12類詞性,通過這12類的詞性,對記錄中的客戶名稱進行分詞處理。具體實現(xiàn)步驟如下:一、接收需要處理的企業(yè)名稱,例如:#南京秦淮中國人民解放軍空軍航空醫(yī)學研究所附屬醫(yī)院(原:解放軍454院陳大夫tel:02584543211%s。二、名稱標準化分詞之前,首先對企業(yè)名稱進行規(guī)范化處理,具體流程如下圖2所示。流程說明:接受企業(yè)名稱:#南京秦淮中國人民解放軍空軍航空醫(yī)學研究所附屬醫(yī)院(原:解放軍454院陳大夫tel:02584543211%s。對名稱進行亂碼處理,例如:對企業(yè)名稱中附加信息進行清理,例如:對企業(yè)名稱中出現(xiàn)的符號進行規(guī)范,例如:對企業(yè)名稱中出現(xiàn)的數(shù)字進行轉義化處理,例如:對專有名詞進行語義化處理,例如:輸出整理后的規(guī)范企業(yè)名稱:南京秦淮空軍航空醫(yī)學研究所附屬醫(yī)院(原:解放軍第四五四醫(yī)院)。三、對企業(yè)名稱進行分詞對整理規(guī)范的企業(yè)名稱進行分詞處理,步驟如附圖3所示。流程說明:接受企業(yè)名稱:南京秦淮空軍航空醫(yī)學研究所附屬醫(yī)院(原:解放軍四五四院)。標準省市識別處理,例如:名稱轉化后南京p320101|p秦淮p320104|p對標準單次進行處理,例如:名稱轉化后航空醫(yī)學研究所航空|k醫(yī)研所|c清洗冗余詞語,例如:名稱轉化后南京秦淮p320104|p數(shù)字識別處理,例如:清洗名稱清洗后名稱四五四p四五四|m對終端嵌套處理,例如:輸出整理后的分詞企業(yè)名稱:p320104|p空軍|b航空|k醫(yī)研所|c附|n醫(yī)院|z(解放軍|b四五四|m醫(yī)院|z)。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁12