口活動的情報。美國海關(guān)數(shù)據(jù)是特定于來自世界的水運進(jìn)口,而中國海關(guān)數(shù)據(jù)提供用向全世界的目的地的所有運輸方式的出口活動。在本示例中,源數(shù)據(jù)庫的并入提供了對中國公司A與美國的出口活動以及中國公司A與其它國家的出口活動的獨特視角。除了利用兩個海關(guān)來源之外,從全球數(shù)據(jù)庫140獲得附加的信息,其包括但不限于預(yù)測風(fēng)險評分、公司圖像信息以及從各種來源收集的其它數(shù)據(jù)點。
[0074]如上所述,步驟210-1、210_2至210-N中的每個步驟可以被唯一地配置成容納來自它們各自的數(shù)據(jù)源150-1、150-2至150-N的特定數(shù)據(jù)。圖4和圖5包括兩個示例性配置。
[0075]圖4是對來自數(shù)據(jù)源145中的數(shù)據(jù)源的數(shù)據(jù)執(zhí)行由步驟210-1和230進(jìn)行的處理400的示例,數(shù)據(jù)源145包含出口數(shù)據(jù)或者進(jìn)口數(shù)據(jù)。每日進(jìn)口 /出口數(shù)據(jù)401被發(fā)送至工作流程管理器403,并且被發(fā)送至HS碼匹配過程405或者被發(fā)送至對名稱和地址的自動解析407。HS碼匹配過程405還接收已經(jīng)由使用模糊技術(shù)411的匹配引擎處理的海關(guān)HS碼409。匹配引擎411與D3歸檔工作流程和文件管理服務(wù)器413以及數(shù)據(jù)庫服務(wù)器415進(jìn)行通信。此后,系統(tǒng)決定是否將HS碼與每日進(jìn)口數(shù)據(jù)進(jìn)行自動匹配417。如果自動匹配發(fā)生,則航運文件匹配到HS碼419。如果沒有自動匹配,則手動匹配421在用HS碼完成航運文件419之前發(fā)生。
[0076]在對名稱和地址進(jìn)行自動解析407之后,經(jīng)由文件傳送協(xié)議(FTP)在名稱匹配應(yīng)用程序431中對名稱進(jìn)行匹配。如果存在自動匹配433,則公司標(biāo)識符自動地附加至公司名稱435。如果沒有自動匹配433,則尋求具有公司標(biāo)識符的公司名稱的手動匹配437和439。如果在第一通道沒有發(fā)現(xiàn)匹配441,則在例如因特網(wǎng)上調(diào)查公司名稱443并且尋求手動匹配439。439處的手動匹配在具有與D&B手動匹配數(shù)據(jù)相鄰的提單(BOL)的分區(qū)屏上產(chǎn)生報告440。如果在第二通道上沒有發(fā)現(xiàn)匹配,則沒有完成匹配445。如果發(fā)現(xiàn)匹配441,則匹配的企業(yè)名稱用公司標(biāo)識符來附加435。此后,具有附加的公司標(biāo)識符的企業(yè)名稱435與具有HS碼451且儲存在知識庫數(shù)據(jù)庫453中的航運文件進(jìn)行合并。
[0077]圖5是對來自數(shù)據(jù)源145中的數(shù)據(jù)源的數(shù)據(jù)執(zhí)行由步驟210-1和步驟230進(jìn)行的處理500的示例,數(shù)據(jù)源145包含美國海關(guān)與邊境保護(hù)局美國自由信息法案(FOIA)進(jìn)口數(shù)據(jù)。
[0078]在501處,F(xiàn)OIA進(jìn)口文件包括具有每天約100MB大小的針對每天的單獨的文件。該文件具有固定大小記錄格式,其中每個記錄具有278個字符的長度。有8個記錄類型(1-7),其中記錄類型I用于第一次發(fā)生的單據(jù)通用信息,并且作為隨后發(fā)生的容器數(shù)據(jù)。FOIA文件的進(jìn)口逐行讀取文件并且將信息存儲在F1A進(jìn)口數(shù)據(jù)庫,用于保存完整的信息和結(jié)構(gòu)。該步驟填充了數(shù)據(jù)庫中的FOIA表。
[0079]為了發(fā)貨人、收貨人以及通知方的企業(yè)地址的高效存儲,相同的條目只存儲一次。因此導(dǎo)致重復(fù)相同的條目在FOIA發(fā)貨人、FOIA收貨人或FOIA通知方表以及在合適的映射表中的引用中只有一個條目。
[0080]在502處,在FOIA文件的成功進(jìn)口之后,可以開始自動處理。發(fā)貨人記錄與收貨人記錄的處理幾乎是相同的,但是事實上收貨人地址主要是美國地址,或使用的CA(加拿大)或MX(墨西哥)地址。地址識別和地址匹配是使用模糊搜索和實體標(biāo)簽的模式匹配和命名實體識別的混合。地址匹配的第一步是國家識別:在地址域中搜索國家名、國家簡寫或國家碼;搜索電話號并且試圖從國際國家呼叫碼來識別國家;如果不能夠識別出國家,則搜索收貨人加拿大郵政編碼__ ;如果還沒有識別出國家,則收貨人默認(rèn)是美國。在以下步驟中進(jìn)行美國地址的匹配:地址域的聯(lián)結(jié);針對采用幾個序列的州、城市、郵政編碼的組合,用幾個州和郵政編碼的書寫樣式來進(jìn)行模式匹配;將州、城市、郵政編碼與模糊服務(wù)器進(jìn)行匹配。如果匹配是無效的或低于給定的置信度,則使用缺少州、城市或郵政編碼的部分組合來持續(xù)進(jìn)行模式匹配。識別并且規(guī)范化街道;將州、城市、街道、郵政編碼與模糊服務(wù)器進(jìn)行匹配。
[0081]針對外國地址的匹配,沒有具有國家、州、城市、街道、郵政編碼的易于利用的國際數(shù)據(jù)庫。對于一般的國家例如墨西哥為收貨人且中國為發(fā)貨人,我們正在建立或者已經(jīng)建立了至少有國家、州、城市、郵政編碼的數(shù)據(jù)庫。針對城市1000、管理員1、管理員2以及國家信息來使用模糊匹配表給具有可能的地址標(biāo)簽(國家、州、省、區(qū)/縣、城市、郵政編碼)的詞或短語貼標(biāo)簽。找到組成有效地址的標(biāo)簽的最可能的匹配。與公司表進(jìn)行匹配。
[0082]如果國家、州、城市、街道或郵政信箱、郵政編碼以及名稱已經(jīng)填滿并且與匹配表進(jìn)行了驗證,則記錄不需要手動處理。在地址識別之后,地址條目與公司表進(jìn)行匹配,盡管該步驟在實際上沒有必要,因為該步驟將會在DUNS匹配的地址的重新進(jìn)口期間執(zhí)行。
[0083]在503處,貨物處理的任務(wù)是識別貨物描述,以及根據(jù)統(tǒng)一編碼表將貨物進(jìn)行分類并且分配正確的統(tǒng)一編號。
[0084]統(tǒng)一編碼表是具有2位至8位編碼(2位、4位、6位或8位)的層級分類表。換言之,針對給定的貨物描述必須找到最確切的統(tǒng)一編號。自動過程使用貨物描述并且可選地使用關(guān)于發(fā)貨人的信息來指導(dǎo)分類。自動過程由以下五個步驟組成:
[0085](i)識別單個貨物描述(亦即找到貨物描述的開始和結(jié)束);
[0086](ii)生成關(guān)鍵貨物記錄;
[0087](iii)試圖找到相同的關(guān)鍵描述記錄并且如果可能的話將其映射到現(xiàn)有的相同記錄上;
[0088](iv)規(guī)范化關(guān)鍵描述(例如移除訂單號等);以及
[0089](V)如果需要的話生成新的關(guān)鍵描述記錄。
[0090]針對該貨物描述檢查FOIA記錄在預(yù)期域中是否已經(jīng)有統(tǒng)一編號:
[0091]⑴使用模式匹配以在描述域中找到統(tǒng)一編號;
[0092](ii)使用自然語言處理(NLP)和模糊匹配以檢測統(tǒng)一編碼;
[0093](iii)使用訓(xùn)練的機器學(xué)習(xí)分類器以將規(guī)范化的描述分類為統(tǒng)一編號。分類器被設(shè)置為導(dǎo)致高拒絕的極低的錯誤率;以及
[0094](iv)通過使用針對分類的不同方法來使用第二訓(xùn)練的機器學(xué)習(xí)分類器。
[0095]機器學(xué)習(xí)分類器用以下進(jìn)行訓(xùn)練和測試:已經(jīng)使用其它方法進(jìn)行分類的一年的描述的約一半的描述,或者用之前提升訓(xùn)練的描述。使用10倍交叉驗證,拒絕標(biāo)準(zhǔn)被設(shè)置成導(dǎo)致極低的錯誤率。如果沒有檢測到統(tǒng)一編號,或者如果分類置信水平下降至低于可接受閾值,則必須使用在統(tǒng)一編號領(lǐng)域的專家的人類處理/鍵控來確定統(tǒng)一編號。
[0096]在504處,即使使用最先進(jìn)的技術(shù),計算機和軟件(還)不能以期望的高精確性自動地處理到100%。原因是經(jīng)常缺失的信息(沒有國家、城市、郵政編碼)、不正常的書寫樣式以及算法缺陷。無論何時算法執(zhí)行任務(wù)失敗,重要的是檢測到這個事實并將該任務(wù)發(fā)送給人類專家。在進(jìn)口處理的情況下有以下三種任務(wù):
[0097](i)手動地處理收貨人地址(大多是美國,主要因為缺少的域);
[0098](ii)手動地處理發(fā)貨人地址(外國地址,即使人類專家也經(jīng)常很難將外國地址進(jìn)行分類);以及
[0099](iii)手動地處理貨物描述以確定統(tǒng)一編號。
[0100]鍵控客戶端設(shè)計用于快速的數(shù)據(jù)錄入以及盡可能容易地保存,而同時允許高效地搜索信息(例如開始搜索、圖像搜索、地圖搜索或直接從鍵控客戶端翻譯)。針對收貨人的鍵控的鍵控客戶端由以下組成:包含來自沒有任何屬性的FOIA文件的原始信息的FOIA記錄的視圖;以及自動過程結(jié)果,其可能已經(jīng)識別國家、城市、州和街道,但是由于不完整的郵政編碼而無法自動地處理記錄。
[0101]在505處,用于貨物描述的手動處理的客戶端稍微更復(fù)雜些,因為有用的在于:不僅查看來自屬于一個貨物的一個或更多個FOIA貨物描述記錄的原始描述,并且查看在針對原始描述的自動過程和輸入正確的統(tǒng)一編號之后的預(yù)處理描述。也允許得到發(fā)貨人信息和收貨人信息以及完整的單據(jù)通用信息。除了集成在客戶端的搜索性能“搜索”、“幸運搜索”、“圖像搜索”以及“翻譯”之外,還允許使用來自描述的詞和短語來進(jìn)行針對統(tǒng)一編碼的模糊搜索。
[0102]出口被分成三個獨立的文件以保留關(guān)系,這三個獨立的文件使用來自數(shù)據(jù)庫表的唯一的標(biāo)識符。針對每個記錄類型有獨立的出口腳本。當(dāng)針對收貨人、發(fā)貨人或貨物的出口開始時,將那種類型的所有記錄出口至逗號分隔變量(CSV)文件。通常在一個完整月的自動處理結(jié)束之后開始出口,用于生成所有三種類型的每周出口。
[0103]在506處,針對發(fā)貨人和收貨人的出口公司文件被發(fā)送至D&B的DUNS FTP服務(wù)器(未示出)以進(jìn)行DUNS匹配。D&B的DUNS FTP服務(wù)器是在匹配過程執(zhí)行之前存儲信息的著陸區(qū)。在DUNS匹配之后,結(jié)果文件從D&B的DUNS FTP服務(wù)器下載,并且用來自DUNS匹配的信息來豐富全球數(shù)據(jù)庫140中的記錄。
[0104]在507處,收貨人數(shù)據(jù)和發(fā)貨人數(shù)據(jù)被傳送至D&B DUNS FTP服務(wù)器,并且從相同服務(wù)器上的目錄接收結(jié)果。結(jié)果文件不僅包含原始的記錄和DUNS號,而且包含一些關(guān)于匹配過程的信息(例如匹配碼和置信度)。
[0105]在508處,存儲在DUNS匹配之后的結(jié)果文件和裝運/貨物數(shù)據(jù)。
[0106]圖6是“用郵政信箱的優(yōu)化器標(biāo)準(zhǔn)輸入布局” 一公司數(shù)據(jù)的數(shù)據(jù)格式的示例。
[0107]圖7是商品/貨物數(shù)據(jù)的數(shù)據(jù)格式的示例。
[0108]系統(tǒng)100提供下面的優(yōu)點:
[0109](I)使得購買者和銷售者能夠基于被進(jìn)口或被出口的商品或產(chǎn)品來發(fā)現(xiàn)彼此(即基于被出口和被進(jìn)口的產(chǎn)品利用提單信息以檢測發(fā)貨人與收貨人之間的關(guān)系的網(wǎng)上企業(yè)對企業(yè)