054]關(guān)鍵字?jǐn)?shù)據(jù)庫17建模操作流程如圖3所示,關(guān)鍵字?jǐn)?shù)據(jù)庫17建模步驟包括:
[0055]步驟一:讀取歷史派件數(shù)據(jù);
[0056]步驟二:規(guī)范化歷史派件地址141 ;
[0057]步驟三:糾正歷史派件站點(diǎn)142 ;
[0058]步驟四:抽取關(guān)鍵字和關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)142 ;
[0059]步驟五:以關(guān)鍵字為索引建立關(guān)鍵字?jǐn)?shù)據(jù)庫17。
[0060]地址規(guī)范化單元151對(duì)讀取的歷史派件數(shù)據(jù)的派件地址141的規(guī)范化方法包括:
[0061]繁體漢字轉(zhuǎn)換為簡體漢字;
[0062]全角字符轉(zhuǎn)換為半角字符;
[0063]中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字;
[0064]大寫字母轉(zhuǎn)換為小寫字母;
[0065]過濾多余無地址意義符號(hào),只保留空格、括號(hào)和破折號(hào),保留英文單詞或數(shù)字之間空格;
[0066]經(jīng)過上述處理后得到只含有簡體漢字、半角符號(hào)、阿拉伯?dāng)?shù)字、小寫字母及有意義的空格、括號(hào)和破折號(hào)的規(guī)范化地址。
[0067]站點(diǎn)糾正單元152糾正歷史派件數(shù)據(jù)中的系統(tǒng)錯(cuò)誤和人工錯(cuò)誤的糾正方法包括:
[0068]使用道路數(shù)據(jù)庫12識(shí)別派件地址141中的路號(hào)信息,提取路號(hào)信息作為派件地址141的特征值;
[0069]使用興趣點(diǎn)數(shù)據(jù)庫13識(shí)別派件地址141中的興趣點(diǎn),提取興趣點(diǎn)信息作為派件地址141的特征值;
[0070]若派件地址141無法提取路號(hào)信息或興趣點(diǎn)信息,則將整個(gè)派件地址141作為特征值;
[0071]以派件地址141特征值為第一依據(jù),以派件站點(diǎn)142為第二依據(jù)進(jìn)行排序和分組,計(jì)算每個(gè)特征值對(duì)應(yīng)的派件站點(diǎn)142的比重,取比重最大的派件站點(diǎn)142作為該特征值對(duì)應(yīng)的派件地址141的最終派件站點(diǎn)142。
[0072]關(guān)鍵字抽取模塊16從歷史派件數(shù)據(jù)中抽取有效關(guān)鍵字及關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)142,作為站點(diǎn)自動(dòng)識(shí)別的數(shù)據(jù)基礎(chǔ):
[0073]關(guān)鍵字生成單元161通過對(duì)派件地址141的字符、數(shù)字和符號(hào)進(jìn)行拆分組合,生成各種可能組合的關(guān)鍵字,關(guān)鍵字生成單元161生成關(guān)鍵字的生成方法包括:
[0074]使用常用詞詞庫11對(duì)派件地址141進(jìn)行字典分詞,將派件地址141拆分為多個(gè)片段;
[0075]將派件地址141中的英文單詞和數(shù)字作為單獨(dú)片段;
[0076]將拆分后相鄰兩個(gè)片段進(jìn)行連接,保留含有連續(xù)兩個(gè)漢字及以上的片段連接,片段連接生成關(guān)鍵字;
[0077]關(guān)鍵字過濾單元162通過計(jì)算關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)142的分布情況,保留具有絕對(duì)優(yōu)勢(shì)派件站點(diǎn)142的關(guān)鍵字作為有效關(guān)鍵字,關(guān)鍵字過濾單元162過濾關(guān)鍵字的過濾方法包括:
[0078]以關(guān)鍵字為第一排序依據(jù),以派件站點(diǎn)142為第二排序依據(jù)進(jìn)行排序;
[0079]統(tǒng)計(jì)每個(gè)關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)142的比重;
[0080]保留派件站點(diǎn)142的比重不小于80%的占絕對(duì)優(yōu)勢(shì)的關(guān)鍵字。
[0081]地址輸入單元181獲取外部輸入的派件地址141 ;站點(diǎn)查詢單元182以關(guān)鍵字作為查詢條件,從關(guān)鍵字?jǐn)?shù)據(jù)庫17中查詢出這些關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)142 ;站點(diǎn)過濾單元183統(tǒng)計(jì)查詢出的各派件站點(diǎn)142的比重,保留比重不小于60%的占優(yōu)勢(shì)的派件站點(diǎn)142作為最終的派件站點(diǎn)142輸出,如果沒有比重不小于60%的占優(yōu)勢(shì)的派件站點(diǎn)142,則輸出未知結(jié)果。
[0082]總之,以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明申請(qǐng)專利范圍所作的均等變化與修飾,皆應(yīng)屬本發(fā)明專利的涵蓋范圍。
【主權(quán)項(xiàng)】
1.一種快遞自動(dòng)分揀系統(tǒng),其特征在于:包括常用詞詞庫(11)、道路數(shù)據(jù)庫(12)、興趣點(diǎn)數(shù)據(jù)庫(13)、歷史派件數(shù)據(jù)庫(14)、派件數(shù)據(jù)糾正模塊(15)、關(guān)鍵字抽取模塊(16)、關(guān)鍵字?jǐn)?shù)據(jù)庫(17)、站點(diǎn)自動(dòng)識(shí)別模塊(18),歷史派件數(shù)據(jù)庫(14)包括派件地址(141)和派件站點(diǎn)(142);常用詞詞庫(11)保存對(duì)派件地址(141)進(jìn)行字典分詞的常用詞組;道路數(shù)據(jù)庫(12)保存公路和街道數(shù)據(jù);興趣點(diǎn)數(shù)據(jù)庫(13)保存已知的具有確定名稱的地理位置;歷史派件數(shù)據(jù)庫(14)保存快遞系統(tǒng)歷史派件數(shù)據(jù);派件數(shù)據(jù)糾正模塊(15)通過道路數(shù)據(jù)庫(12)和興趣點(diǎn)數(shù)據(jù)庫(13)進(jìn)行派件地址(141)特征值提取,派件數(shù)據(jù)糾正模塊(15)整理和糾正歷史派件數(shù)據(jù),消除派件數(shù)據(jù)的系統(tǒng)偏差和人為錯(cuò)誤;關(guān)鍵字抽取模塊(16)對(duì)派件數(shù)據(jù)進(jìn)行分詞、拆分、組合、排序和統(tǒng)計(jì),抽取有效關(guān)鍵字和關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142),形成關(guān)鍵字?jǐn)?shù)據(jù)庫(17);關(guān)鍵字?jǐn)?shù)據(jù)庫(17)保存關(guān)鍵字和關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142),并以關(guān)鍵字為索引,為站點(diǎn)自動(dòng)識(shí)別模塊(18)提供派件站點(diǎn)(142)查詢;站點(diǎn)自動(dòng)識(shí)別模塊(18)通過對(duì)輸入的派件地址(141)進(jìn)行分詞、拆分、組合、查詢和統(tǒng)計(jì),得到輸入的派件地址(141)的派件站點(diǎn)(142) ο
2.根據(jù)權(quán)利要求1所述的一種快遞自動(dòng)分揀系統(tǒng),其特征在于:派件數(shù)據(jù)糾正模塊(15)包括地址規(guī)范化單元(151)和站點(diǎn)糾正單元(152),地址規(guī)范化單元(151)將派件地址(141)轉(zhuǎn)換為一致格式,站點(diǎn)糾正單元(152)統(tǒng)一具有相同特征值的派件地址(141)的派件站點(diǎn)(142) ο
3.根據(jù)權(quán)利要求1所述的一種快遞自動(dòng)分揀系統(tǒng),其特征在于:關(guān)鍵字抽取模塊(16)包括關(guān)鍵字生成單元(161)和關(guān)鍵字過濾單元(162);關(guān)鍵字生成單元(161)對(duì)派件地址(141)進(jìn)行拆分組合,生成一系列關(guān)鍵字;關(guān)鍵字過濾單元(162)使用排序、分組和統(tǒng)計(jì)的方法計(jì)算每個(gè)關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142)的比重,保留比重占絕對(duì)優(yōu)勢(shì)的關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142) ο
4.根據(jù)權(quán)利要求1所述的一種快遞自動(dòng)分揀系統(tǒng),其特征在于:站點(diǎn)自動(dòng)識(shí)別模塊(18)包括地址輸入單元(181)、關(guān)鍵字生成單元(161)、站點(diǎn)查詢單元(182)和站點(diǎn)過濾單元(183);地址輸入單元(181)輸入派件地址(141);關(guān)鍵字生成單元(161)對(duì)派件地址(141)進(jìn)行拆分組合,生成一系列關(guān)鍵字;站點(diǎn)查詢單元(182)從關(guān)鍵字?jǐn)?shù)據(jù)庫(17)中查詢關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142);站點(diǎn)過濾單元(183)統(tǒng)計(jì)派件站點(diǎn)(142)的比重,保留比重占優(yōu)勢(shì)的派件站點(diǎn)(142)作為輸出。
5.一種自動(dòng)分揀方法,其特征在于:自動(dòng)分揀步驟包括: 步驟一:關(guān)鍵字?jǐn)?shù)據(jù)庫(17)建模; 步驟二:掃描派件地址(141); 步驟三:匹配派件站點(diǎn)(142):若成功匹配派件站點(diǎn)(142),則將快遞物品扭轉(zhuǎn)入派件站點(diǎn)(142)對(duì)應(yīng)通道;若無法匹配派件站點(diǎn)(142),則將快遞物品扭轉(zhuǎn)入未識(shí)別通道進(jìn)行人工處理。
6.根據(jù)權(quán)利要求5所述的一種自動(dòng)分揀方法,其特征在于:關(guān)鍵字?jǐn)?shù)據(jù)庫(17)建模步驟包括: 步驟一:讀取歷史派件數(shù)據(jù); 步驟二:規(guī)范化歷史派件地址(141); 步驟三:糾正歷史派件站點(diǎn)(142); 步驟四:抽取關(guān)鍵字和關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142); 步驟五:以關(guān)鍵字為索引建立關(guān)鍵字?jǐn)?shù)據(jù)庫(17)。
7.根據(jù)權(quán)利要求6所述的一種自動(dòng)分揀方法,其特征在于:地址規(guī)范化單元(151)對(duì)讀取的歷史派件數(shù)據(jù)的派件地址(141)的規(guī)范化方法包括: 繁體漢字轉(zhuǎn)換為簡體漢字; 全角字符轉(zhuǎn)換為半角字符; 中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字; 大寫字母轉(zhuǎn)換為小寫字母; 過濾多余無地址意義符號(hào),只保留空格、括號(hào)和破折號(hào),保留英文單詞或數(shù)字之間空格; 經(jīng)過上述處理后得到只含有簡體漢字、半角符號(hào)、阿拉伯?dāng)?shù)字、小寫字母及有意義的空格、括號(hào)和破折號(hào)的規(guī)范化地址。
8.根據(jù)權(quán)利要求6所述的一種自動(dòng)分揀方法,其特征在于:站點(diǎn)糾正單元(152)糾正歷史派件數(shù)據(jù)中的系統(tǒng)錯(cuò)誤和人工錯(cuò)誤的糾正方法包括: 使用道路數(shù)據(jù)庫(12)識(shí)別派件地址(141)中的路號(hào)信息,提取路號(hào)信息作為派件地址(141)的特征值; 使用興趣點(diǎn)數(shù)據(jù)庫(13)識(shí)別派件地址(141)中的興趣點(diǎn),提取興趣點(diǎn)信息作為派件地址(141)的特征值; 若派件地址(141)無法提取路號(hào)信息或興趣點(diǎn)信息,則將整個(gè)派件地址(141)作為特征值; 以派件地址(141)特征值為第一依據(jù),以派件站點(diǎn)(142)為第二依據(jù)進(jìn)行排序和分組,計(jì)算每個(gè)特征值對(duì)應(yīng)的派件站點(diǎn)(142)的比重,取比重最大的派件站點(diǎn)(142)作為該特征值對(duì)應(yīng)的派件地址(141)的最終派件站點(diǎn)(142)。
9.根據(jù)權(quán)利要求6所述的一種自動(dòng)分揀方法,其特征在于:關(guān)鍵字生成單元(161)生成關(guān)鍵字的生成方法包括: 使用常用詞詞庫(11)對(duì)派件地址(141)進(jìn)行字典分詞,將派件地址(141)拆分為多個(gè)片段; 將派件地址(141)中的英文單詞和數(shù)字作為單獨(dú)片段; 將拆分后相鄰兩個(gè)片段進(jìn)行連接,保留含有連續(xù)兩個(gè)漢字及以上的片段連接,片段連接生成關(guān)鍵字。
10.根據(jù)權(quán)利要求6所述的一種自動(dòng)分揀方法,其特征在于:關(guān)鍵字過濾單元(162)過濾關(guān)鍵字的過濾方法包括: 以關(guān)鍵字為第一排序依據(jù),以派件站點(diǎn)(142)為第二排序依據(jù)進(jìn)行排序; 統(tǒng)計(jì)每個(gè)關(guān)鍵字對(duì)應(yīng)的派件站點(diǎn)(142)的比重; 保留派件站點(diǎn)(142)的比重不小于80%的占絕對(duì)優(yōu)勢(shì)的關(guān)鍵字。
【專利摘要】本發(fā)明涉及一種自動(dòng)分揀系統(tǒng),公開了一種快遞自動(dòng)分揀系統(tǒng)及自動(dòng)分揀方法,快遞自動(dòng)分揀系統(tǒng)包括常用詞詞庫、道路數(shù)據(jù)庫、興趣點(diǎn)數(shù)據(jù)庫、歷史派件數(shù)據(jù)庫、派件數(shù)據(jù)糾正模塊、關(guān)鍵字抽取模塊、關(guān)鍵字?jǐn)?shù)據(jù)庫和站點(diǎn)自動(dòng)識(shí)別模塊;自動(dòng)分揀方法主要步驟為關(guān)鍵字?jǐn)?shù)據(jù)庫建模、掃描地址、匹配站點(diǎn)。本發(fā)明提供一種快遞自動(dòng)分揀系統(tǒng)及自動(dòng)分揀方法,采用自動(dòng)分揀系統(tǒng),通過自動(dòng)分揀方法能在無人工干預(yù)環(huán)境下自動(dòng)完成快遞派件站點(diǎn)的識(shí)別,自動(dòng)實(shí)現(xiàn)快遞中轉(zhuǎn)站點(diǎn)和末端站點(diǎn)的分揀,并能保證極高的準(zhǔn)確率,解決了快遞行業(yè)采用傳統(tǒng)人工分揀方法和半自動(dòng)容易出錯(cuò)、誤操作且費(fèi)時(shí)費(fèi)力等問題,實(shí)現(xiàn)了計(jì)算機(jī)和機(jī)器自動(dòng)分揀,極大地提高了快遞行業(yè)分揀效率。
【IPC分類】B07C3-10, G06F17-30
【公開號(hào)】CN104624509
【申請(qǐng)?zhí)枴緾N201510023663
【發(fā)明人】趙良乾
【申請(qǐng)人】浙江百世技術(shù)有限公司
【公開日】2015年5月20日
【申請(qǐng)日】2015年1月16日