一種企業(yè)關(guān)聯(lián)關(guān)系識別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及關(guān)聯(lián)企業(yè)識別技術(shù)領(lǐng)域,具體涉及一種企業(yè)關(guān)聯(lián)關(guān)系識別方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著近幾年市場經(jīng)濟(jì)的飛速發(fā)展及國家對創(chuàng)業(yè)者的鼓勵及扶持,越來越多得大中型小型企業(yè)被注冊;同時隨著互聯(lián)網(wǎng)的高速發(fā)展,企業(yè)的登記信息、股東信息、變更信息等都變得越來越透明,甚至可以直接在互聯(lián)網(wǎng)上查到?,F(xiàn)有的企業(yè)信息查詢技術(shù)主要存在以下問題:
[0003]1.互聯(lián)網(wǎng)上找到的信息都是松散的、針對單個企業(yè)的個體,并沒有針對企業(yè)與企業(yè)、企業(yè)與個人之間的關(guān)聯(lián)關(guān)系。
[0004]2.互聯(lián)網(wǎng)上找到的信息錯蹤亂雜,標(biāo)準(zhǔn)不統(tǒng)一,如若想知道兩個企業(yè)間的關(guān)系,只能人工查找整理,或是去各地工商局走各種流程申請查詢,然后人工整理關(guān)聯(lián)。
[0005]3.直接獲取的數(shù)據(jù)字段通常包含大量的特殊字符、中間字符等,對于數(shù)據(jù)字段的準(zhǔn)確識別產(chǎn)生極大的影響,降低數(shù)據(jù)提取的準(zhǔn)確率。
[0006]4.不能從直接獲取的大量數(shù)據(jù)字段中準(zhǔn)確提取出有用的數(shù)據(jù)信息,更不能根據(jù)提取的數(shù)據(jù)字段準(zhǔn)確判斷出該數(shù)據(jù)字段是代表企業(yè)還是代表個人,這為以后的數(shù)據(jù)關(guān)聯(lián)關(guān)系識別造成了極大的困難。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的就是為了解決上述問題,提出了一種企業(yè)關(guān)聯(lián)關(guān)系識別方法及系統(tǒng),該方法及系統(tǒng)能夠?qū)崿F(xiàn)自動將有關(guān)系的企業(yè)關(guān)聯(lián)起來,使之可以快速的查找企業(yè)與企業(yè)之前的關(guān)系,無需人工查找與整理,極大地提高了工作效率。
[0008]為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0009]一種企業(yè)關(guān)聯(lián)關(guān)系識別方法,包括:
[0010]在一個服務(wù)器執(zhí)行該方法,所述服務(wù)器包括一個或多個處理器以及用于存儲由所述一個或多個處理器執(zhí)行的程序的存儲器;
[0011](I)建立統(tǒng)一數(shù)據(jù)格式的企業(yè)相關(guān)數(shù)據(jù)庫,所述數(shù)據(jù)庫包括基本數(shù)據(jù)庫和關(guān)聯(lián)數(shù)據(jù)庫;
[0012](2)通過網(wǎng)絡(luò)技術(shù)采集設(shè)定區(qū)域的企業(yè)相關(guān)數(shù)據(jù),并將所述數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換后存儲至基本數(shù)據(jù)庫;
[0013](3)調(diào)取企業(yè)相關(guān)數(shù)據(jù)庫中每個企業(yè)的相關(guān)數(shù)據(jù)字段,對所述數(shù)據(jù)字段進(jìn)行預(yù)處理,提取出代表企業(yè)相關(guān)信息的數(shù)據(jù)字段并存入基本數(shù)據(jù)庫;
[0014](4)提取企業(yè)股東數(shù)據(jù)字段,判斷所述數(shù)據(jù)字段是個人還是企業(yè),并將判斷結(jié)果存入基本數(shù)據(jù)庫中相應(yīng)企業(yè)的存儲路徑下;
[0015](5)對同一企業(yè)進(jìn)行數(shù)據(jù)對接:將企業(yè)名稱字段相同或者企業(yè)注冊號字段相同的企業(yè),合并至相同的存儲路徑下;
[0016](6)建立不同企業(yè)之間的數(shù)據(jù)關(guān)聯(lián):如果企業(yè)股東為另一企業(yè)名稱,則將兩企業(yè)進(jìn)行關(guān)聯(lián);如果兩個企業(yè)擁有相同名稱字段的人員,則將兩企業(yè)的存儲路徑進(jìn)行關(guān)聯(lián);將所述關(guān)聯(lián)信息存入關(guān)聯(lián)數(shù)據(jù)庫;
[0017](7)用戶客戶端進(jìn)行關(guān)聯(lián)企業(yè)信息查詢時,從關(guān)聯(lián)數(shù)據(jù)庫中調(diào)取關(guān)聯(lián)企業(yè),并從基本數(shù)據(jù)庫中查詢關(guān)聯(lián)企業(yè)的基本信息。
[0018]所述步驟(2)中通過網(wǎng)絡(luò)爬蟲手段采集設(shè)定區(qū)域的企業(yè)信息,所述企業(yè)信息包括但不限于:企業(yè)登記信息、股東信息、變更信息、經(jīng)營地址和聯(lián)系電話。
[0019]所述步驟(3)中調(diào)取企業(yè)相關(guān)數(shù)據(jù)庫中每個企業(yè)的相關(guān)數(shù)據(jù)字段,對所述數(shù)據(jù)字段進(jìn)行預(yù)處理的方法包括:
[0020]去除所述數(shù)據(jù)字段的首尾特殊字符;
[0021]判斷所述數(shù)據(jù)字段是否包含英文,如果是,則不處理;如果否,根據(jù)中間字符將所述數(shù)據(jù)字段分成多個字段;
[0022]判斷分割后的字段長度是否大于設(shè)定的長度,如果是,將分割后的字段按多個字段進(jìn)行處理;否則,去除特殊字符后,合并所有分割字段。
[0023]所述步驟(3)中代表企業(yè)相關(guān)信息的數(shù)據(jù)字段包括但不限于:企業(yè)名稱、股東信息、主要負(fù)責(zé)人和經(jīng)營人。
[0024]所述步驟(4)的具體方法為:
[0025]I)調(diào)取所有企業(yè)名稱的前兩位及后兩位字符,并統(tǒng)計其出現(xiàn)頻率;
[0026]2)將出現(xiàn)頻率大于設(shè)定頻率閾值t的字符,保存至集合M中;
[0027]3)提取企業(yè)A的股東數(shù)據(jù)字段,判斷字符長度是否大于設(shè)定長度,如果是,進(jìn)入步驟4);否則,判斷為個人;
[0028]4)提取所述企業(yè)A的股東數(shù)據(jù)字段的前兩位字符,判斷所述字符是否出現(xiàn)在集合M中,如果是,判斷為企業(yè);否則,進(jìn)入步驟5);
[0029]5)提取所述企業(yè)A的股東數(shù)據(jù)字段的后兩位字符,判斷所述字符是否出現(xiàn)在集合M中,如果是,判斷為企業(yè);否則,判斷為個人。
[0030]一種企業(yè)關(guān)聯(lián)關(guān)系識別的裝置,包括:
[0031]—個服務(wù)器,所述服務(wù)器包括一個或多個處理器以及用于存儲由所述一個或多個處理器執(zhí)行的程序的存儲器;
[0032]基本數(shù)據(jù)庫和關(guān)聯(lián)數(shù)據(jù)庫;
[0033]通過網(wǎng)絡(luò)技術(shù)采集設(shè)定區(qū)域的企業(yè)相關(guān)數(shù)據(jù)的單元,將所述數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換的單元,以及將轉(zhuǎn)換后數(shù)據(jù)存儲至基本數(shù)據(jù)庫的單元;
[0034]調(diào)取企業(yè)相關(guān)數(shù)據(jù)庫中每個企業(yè)的相關(guān)數(shù)據(jù)字段的單元,對所述數(shù)據(jù)字段進(jìn)行預(yù)處理的單元,提取出代表企業(yè)相關(guān)信息的數(shù)據(jù)字段并存入基本數(shù)據(jù)庫的單元;
[0035]提取企業(yè)股東數(shù)據(jù)字段的單元,判斷所述數(shù)據(jù)字段是個人還是企業(yè)的單元,將判斷結(jié)果存入基本數(shù)據(jù)庫中相應(yīng)企業(yè)的存儲路徑下的單元;
[0036]對同一企業(yè)進(jìn)行數(shù)據(jù)對接的單元:將企業(yè)名稱字段相同或者企業(yè)注冊號字段相同的企業(yè),合并至相同的存儲路徑下;
[0037](6)建立不同企業(yè)之間的數(shù)據(jù)關(guān)聯(lián)的單元:如果企業(yè)股東為另一企業(yè)名稱,則將兩企業(yè)進(jìn)行關(guān)聯(lián);如果兩個企業(yè)擁有相同名稱字段的人員,則將兩企業(yè)進(jìn)行關(guān)聯(lián);將所述關(guān)聯(lián)信息存入關(guān)聯(lián)數(shù)據(jù)庫;
[0038]進(jìn)行關(guān)聯(lián)企業(yè)信息查詢的單元:從關(guān)聯(lián)數(shù)據(jù)庫中調(diào)取關(guān)聯(lián)企業(yè),并從基本數(shù)據(jù)庫中查詢關(guān)聯(lián)企業(yè)的基本信息。
[0039]通過網(wǎng)絡(luò)爬蟲手段采集設(shè)定區(qū)域的企業(yè)信息,所述企業(yè)信息包括但不限于:企業(yè)登記信息、股東信息、變更信息、經(jīng)營地址和聯(lián)系電話。
[0040]對所述數(shù)據(jù)字段進(jìn)行預(yù)處理的單元包括:
[0041]去除所述數(shù)據(jù)字段的首尾特殊字符的單元;
[0042]判斷所述數(shù)據(jù)字段是否包含英文的單元,根據(jù)中間字符將所述數(shù)據(jù)字段分成多個字段的單元;
[0043]判斷分割后的字段長度是否大于設(shè)定的長度的單元以及對分割后數(shù)據(jù)字段進(jìn)行處理的單元。
[0044]代表企業(yè)相關(guān)信息的數(shù)據(jù)字段包括但不限于:企業(yè)名稱、股東信息、主要負(fù)責(zé)人和經(jīng)營人。
[0045]判斷所述數(shù)據(jù)字段是個人還是企業(yè)的單元包括:
[0046]調(diào)取所有企業(yè)名稱的前兩位及后兩位字符,并統(tǒng)計其出現(xiàn)頻率的單元;
[0047]將出現(xiàn)頻率大于設(shè)定頻率閾值t的字符,保存至集合M中的單元;
[0048]提取企業(yè)A的股東數(shù)據(jù)字段,判斷字符長度是否大于設(shè)定長度的單元;
[0049]提取所述企業(yè)A的股東數(shù)據(jù)字段的前兩位字符,判斷所述字符是否出現(xiàn)在集合M中的單元;
[0050]提取所述企業(yè)A的股東數(shù)據(jù)字段的后兩位字符,判斷所述字符是否出現(xiàn)在集合M中的單元。
[0051]本發(fā)明的有益效果是:
[0052]對數(shù)據(jù)字段進(jìn)行預(yù)處理,可以從大量的雜亂無章的、無規(guī)則的數(shù)據(jù)中提取出對本系統(tǒng)有用的正確的企業(yè)名稱及