国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      中文地址分詞標(biāo)注方法_2

      文檔序號(hào):9217164閱讀:來(lái)源:國(guó)知局
      X,按順序輸出一行:
      [0068] a)如果該名稱(chēng)只有一個(gè)字,則輸出"xS" ;
      [0069] b)否則如果該字符是名稱(chēng)的最后一個(gè)字,輸出"xE",如"廈E";
      [0070] C)否則如果是名稱(chēng)的第一個(gè)字,輸出"XB",如"軟E";
      [0071] d)否則輸出"x I",如"軟I";
      [0072] 4)該行訓(xùn)練數(shù)據(jù)的所有地址單元信息處理完畢后輸出一個(gè)空行。
      [0073] 訓(xùn)練數(shù)據(jù)到標(biāo)注模型CRF++格式數(shù)據(jù)轉(zhuǎn)換方法如下:
      [0074] 1)對(duì)每行訓(xùn)練數(shù)據(jù),用空格進(jìn)行拆分得到地址單元信息組,如:{〃廣東/省〃,〃深 圳/市〃,〃南山區(qū)/區(qū)〃,〃高新中一道/道路〃,〃9號(hào)/路號(hào)〃,〃科技園/片區(qū)〃,〃軟件 大廈/樓棟〃,"713/房間〃};
      [0075] 2)對(duì)每個(gè)地址單元信息(如〃軟件大廈/樓棟〃),用斜線(xiàn)" /"進(jìn)行拆分,獲得一 個(gè)二元組,其中第一個(gè)為地址單元的名稱(chēng)(軟件大廈),第二個(gè)為標(biāo)注信息(樓棟);
      [0076] 3)對(duì)于地址名稱(chēng)(如"軟件大廈")的每個(gè)字符X,按順序輸出一行:"x標(biāo)注", 如"軟樓棟";
      [0077] 4)該行訓(xùn)練數(shù)據(jù)的所有地址單元信息處理完畢后輸出一個(gè)空行。
      [0078] 步驟14、定義特征模板。
      [0079] 針對(duì)不同的問(wèn)題,CRF++工具需要提供合理特征模板以便高效、合理的解決對(duì)應(yīng)的 問(wèn)題。本發(fā)明中采用如下模板:
      [0080] #Unigram
      [0081] U00: % x[-2, 0]
      [0082] U01: % x[-l, 0]
      [0083] U02: % x[0, 0]
      [0084] U03: % x[l, 0]
      [0085] U04: % x[2, 0]
      [0086] U05: % x[-2, 0]/% x[-l, 0]/% x[0, 0]
      [0087] U06: % x[-l, 0]/% x[0, 0]/% x[l, 0]
      [0088] U07: % x[0, 0]/% x[l, 0]/% x[2, 0]
      [0089] U08: % x[-l, 0]/% x[0, 0]
      [0090] U09: % x[0, 0]/% x[l, 0]
      [0091] #Bigram
      [0092] B步驟15、使用CRF++工具分別建立分詞模型和標(biāo)注模型。
      [0093] 使用CRF++工具提供的crf_learn命令分別訓(xùn)練兩個(gè)模型,訓(xùn)練命令格式如下:
      [0094] crf_learn-m num template_file train_file model_file〇
      [0095] 其中template_file為特征模板文件,train_file為訓(xùn)練數(shù)據(jù)文件,model_file 為獲得的模型文件,供以后使用;_m num參數(shù)可指定訓(xùn)練過(guò)程最大迭代步數(shù),如可設(shè)置 為-m 100,即最多迭代100步。crf_learn還有其他數(shù)個(gè)參數(shù)用于控制訓(xùn)練效果、訓(xùn)練時(shí) 間,具體可參看工具的幫助文檔。到此,分詞標(biāo)注的2個(gè)模型建立完畢,接下來(lái)就可使用該 模型解決具體的地址分詞、標(biāo)注問(wèn)題。使用分詞標(biāo)簽B、I、E、S雖然降低了速度,但是可以 提升分詞標(biāo)注結(jié)果的準(zhǔn)確度。分成分詞和標(biāo)注2個(gè)模型可以最終加快中文地址分詞標(biāo)注的 處理速度。
      [0096] 步驟16、對(duì)于欲分詞標(biāo)注的地址中出現(xiàn)的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符以 及多個(gè)連續(xù)阿拉伯?dāng)?shù)字字符或英文字母字符,以該預(yù)先唯一指定的單個(gè)阿拉伯?dāng)?shù)字字符或 英文字母字符替換,同時(shí)保存替換前的阿拉伯?dāng)?shù)字字符或英文字母字符。
      [0097] 由于建立模型時(shí)對(duì)數(shù)字字母進(jìn)行了特殊處理,相應(yīng)的模型使用時(shí)也需要對(duì)字母數(shù) 據(jù)進(jìn)行處理,即將所有連續(xù)的字母數(shù)字用1替換,同時(shí)將替換了的原數(shù)字字母按順序保存 起來(lái),以便后續(xù)還原。如輸入:
      [0098] 深圳市福田區(qū)福田村牛巷坊89號(hào)4層02室;
      [0099] 處理后為:
      [0100] 深圳市福田區(qū)福田村牛巷坊1號(hào)1層1室;
      [0101] 同時(shí)保存替換的3個(gè)字母數(shù)字組:{ "89" "4" "02"}。
      [0102] 步驟17、然后使用CRF++工具對(duì)欲分詞標(biāo)注的地址進(jìn)行分詞標(biāo)注。
      [0103] 地址經(jīng)上一步處理后可用CRF++工具進(jìn)行分析,用分詞模型和標(biāo)注模型分別獲取 每個(gè)字的分詞標(biāo)簽和標(biāo)注標(biāo)簽,如下:
      [0104] 分詞標(biāo)簽:
      [0105] 深/B圳/I市/E福/B田/I區(qū)/E福/B田/I村/E牛/B巷/I坊/E1/B 號(hào) /E1/B層/I1/1 室/E;
      [0106] 標(biāo)注標(biāo)簽:
      [0107] 深/市圳/市市/市福/區(qū)田/區(qū)區(qū)/區(qū)福/片區(qū)田/片區(qū)村/片區(qū)牛 /片區(qū)巷/片區(qū)坊/片區(qū)1/樓棟號(hào)/樓棟1/房間層/房間1/房間室/房間。
      [0108] 解析每個(gè)字的分詞標(biāo)簽和標(biāo)注標(biāo)簽,過(guò)程如下:
      [0109] a)首先建立一個(gè)字的緩存區(qū),初始為空,并從頭開(kāi)始按順序處理輸入地址的每個(gè) 字;
      [0110] b)將字存入緩存區(qū),然后判斷該字的分詞標(biāo)簽;
      [0111] c)如果該字的分詞標(biāo)簽表示字在詞首或詞中且非最后一個(gè)字,則繼續(xù)處理下一個(gè) 字;
      [0112] d)否則取出緩存區(qū)所有的字并組成一個(gè)詞,且該詞的標(biāo)注屬性為緩存區(qū)中字的標(biāo) 注標(biāo)簽,將結(jié)果輸出,清空緩存區(qū)。
      [0113] 按順序處理完輸入地址的每個(gè)字后,可得中文地址的分詞與標(biāo)注結(jié)果,對(duì)于示例 輸入,其解析結(jié)果如下:
      [0114] 深圳市/市福田區(qū)/區(qū)福田村/片區(qū)牛巷坊/片區(qū)1號(hào)/樓棟1層1室/房 間。
      [0115] 步驟18、在分詞標(biāo)注結(jié)果中還原替換前的阿拉伯?dāng)?shù)字字符或英文字母字符。
      [0116] 獲得分詞標(biāo)注結(jié)果后,需將替換了的字母數(shù)字按順序還原,還原后結(jié)果如下:
      [0117] 深圳市/市福田區(qū)/區(qū)福田村/片區(qū)牛巷坊/片區(qū)89號(hào)/樓棟4層02室/ 房間。
      [0118] 至此得到了中文地址的最終分詞標(biāo)注結(jié)果。實(shí)驗(yàn)證明,本發(fā)明分詞標(biāo)注的準(zhǔn)確率 可達(dá)95%,遠(yuǎn)高于其他方法。
      [0119] 綜上所述,本發(fā)明的中文地址分詞標(biāo)注方法的準(zhǔn)確率高。
      [0120] 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種中文地址分詞標(biāo)注方法,其特征在于,包括: 步驟11、對(duì)挑選出的地址數(shù)據(jù)進(jìn)行人工分詞標(biāo)注,以作為訓(xùn)練數(shù)據(jù); 步驟12、對(duì)于該訓(xùn)練數(shù)據(jù)或挑選出的地址數(shù)據(jù)中出現(xiàn)的單個(gè)阿拉伯?dāng)?shù)字字符或英文字 母字符以及多個(gè)連續(xù)阿拉伯?dāng)?shù)字字符或英文字母字符,以預(yù)先唯一指定的單個(gè)阿拉伯?dāng)?shù)字 字符或英文字母字符替換; 步驟13、采用分詞標(biāo)簽和標(biāo)注標(biāo)簽分別將該訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成CRF++工具所需要的格 式; 步驟14、定義特征模板; 步驟15、使用CRF++工具分別建立分詞模型和標(biāo)注模型; 步驟16、對(duì)于欲分詞標(biāo)注的地址中出現(xiàn)的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符以及多 個(gè)連續(xù)阿拉伯?dāng)?shù)字字符或英文字母字符,以該預(yù)先唯一指定的單個(gè)阿拉伯?dāng)?shù)字字符或英文 字母字符替換,同時(shí)保存替換前的阿拉伯?dāng)?shù)字字符或英文字母字符; 步驟17、然后使用CRF++工具對(duì)欲分詞標(biāo)注的地址進(jìn)行分詞標(biāo)注; 步驟18、在分詞標(biāo)注結(jié)果中還原替換前的阿拉伯?dāng)?shù)字字符或英文字母字符。2. 根據(jù)權(quán)利要求1所述的中文地址分詞標(biāo)注方法,其特征在于,所述分詞標(biāo)簽包括表 示字在詞首的標(biāo)簽,表示字在詞中的標(biāo)簽,表示字在詞尾的標(biāo)簽,以及表示單個(gè)字成詞的標(biāo) 簽。3. 根據(jù)權(quán)利要求1所述的中文地址分詞標(biāo)注方法,其特征在于,所述標(biāo)注標(biāo)簽包括省、 市、區(qū)、街道、社區(qū)、道路、路號(hào)、片區(qū)、樓棟及房間。4. 根據(jù)權(quán)利要求1所述的中文地址分詞標(biāo)注方法,其特征在于,步驟17包括用該分詞 模型和標(biāo)注模型分別獲取每個(gè)字的分詞標(biāo)簽和標(biāo)注標(biāo)簽以及解析每個(gè)字的分詞標(biāo)簽和標(biāo) 注標(biāo)簽。5. 根據(jù)權(quán)利要求4所述的中文地址分詞標(biāo)注方法,其特征在于,解析每個(gè)字的分詞標(biāo) 簽和標(biāo)注標(biāo)簽的過(guò)程包括: a) 首先建立一個(gè)字的緩存區(qū),初始為空,并從頭開(kāi)始按順序處理輸入地址的每個(gè)字; b) 將字存入緩存區(qū),然后判斷該字的分詞標(biāo)簽; c) 如果該字的分詞標(biāo)簽表示字在詞首或詞中且非最后一個(gè)字,則繼續(xù)處理下一個(gè)字; d) 否則取出緩存區(qū)所有的字并組成一個(gè)詞,且該詞的標(biāo)注屬性為緩存區(qū)中字的標(biāo)注標(biāo) 簽,將結(jié)果輸出,清空緩存區(qū)。6. 根據(jù)權(quán)利要求1所述的中文地址分詞標(biāo)注方法,其特征在于,所述預(yù)先唯一指定的 單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符為1。7. 根據(jù)權(quán)利要求1所述的中文地址分詞標(biāo)注方法,其特征在于,所述步驟15中使用 CRF++工具提供的crf_learn命令訓(xùn)練分詞模型和標(biāo)注模型。8. 根據(jù)權(quán)利要求7所述的中文地址分詞標(biāo)注方法,其特征在于,訓(xùn)練分詞模型和標(biāo)注 模型的過(guò)程迭代100步。
      【專(zhuān)利摘要】本發(fā)明涉及一種中文地址分詞標(biāo)注方法。該方法包括:步驟11、人工分詞標(biāo)注挑選出的地址數(shù)據(jù)作為訓(xùn)練數(shù)據(jù);步驟12、對(duì)出現(xiàn)的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符以及多個(gè)連續(xù)阿拉伯?dāng)?shù)字字符或英文字母字符,以指定的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符替換;步驟13、訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成CRF++工具需要的格式;步驟14、定義特征模板;步驟15、使用CRF++工具分別建立分詞模型和標(biāo)注模型;步驟16、地址中出現(xiàn)的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符以及多個(gè)連續(xù)阿拉伯?dāng)?shù)字字符或英文字母字符,以該指定的單個(gè)阿拉伯?dāng)?shù)字字符或英文字母字符替換;步驟17、用CRF++工具分詞標(biāo)注;步驟18、還原替換前的阿拉伯?dāng)?shù)字字符或英文字母字符。本發(fā)明的中文地址分詞標(biāo)注方法的準(zhǔn)確率高。
      【IPC分類(lèi)】G06F17/27
      【公開(kāi)號(hào)】CN104933023
      【申請(qǐng)?zhí)枴緾N201510239133
      【發(fā)明人】王明興, 賈西貝
      【申請(qǐng)人】深圳市華傲數(shù)據(jù)技術(shù)有限公司
      【公開(kāi)日】2015年9月23日
      【申請(qǐng)日】2015年5月12日
      當(dāng)前第2頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1