定二者電話匹配,進(jìn)而所述目標(biāo)酒店與所述待匹配酒店也自動(dòng)匹配;否則,二者電話不匹配,此時(shí)進(jìn)入下一步,即傳真匹配的操作。
[0047]傳真匹配的操作包括:
[0048]按照酒店傳真數(shù)據(jù)清洗及匹配規(guī)則對(duì)傳真號(hào)碼進(jìn)行清洗;
[0049]與對(duì)方傳真號(hào)碼進(jìn)行匹配;
[0050]若傳真號(hào)碼不存在或不匹配時(shí),與對(duì)方座機(jī)進(jìn)行匹配;
[0051]若所述目標(biāo)酒店與所述待匹配酒店的傳真號(hào)碼相同或存在包含關(guān)系時(shí),則確定二者傳真匹配,進(jìn)而所述目標(biāo)酒店與所述待匹配酒店也自動(dòng)匹配;否則,二者傳真不匹配,此時(shí)進(jìn)入下一步,即地址匹配的操作。
[0052]地址匹配的操作包括:
[0053]按照酒店地址數(shù)據(jù)清洗及匹配規(guī)則(具體參見下文)對(duì)地址進(jìn)行清洗;
[0054]判斷地址是否可以精確到門牌號(hào);
[0055]若所述目標(biāo)酒店與所述待匹配酒店雙方都有門牌號(hào)且門牌號(hào)相同,則地址匹配;
[0056]若雙方都有門牌號(hào)但門牌號(hào)不同,則進(jìn)入經(jīng)瑋度匹配;
[0057]若雙方有一方?jīng)]有門牌號(hào),則進(jìn)行無門牌號(hào)匹配;
[0058]無門牌號(hào)時(shí),判斷酒店類型是否為農(nóng)家樂、客棧、農(nóng)莊等;
[0059]如果是農(nóng)家樂、客棧、農(nóng)莊等,則必須同時(shí)滿足地址包含且經(jīng)瑋度的距離小于500米,只有這樣才表示地址匹配,進(jìn)而所述目標(biāo)酒店與所述待匹配酒店也自動(dòng)匹配,反之,則地址也不匹配,進(jìn)而在電話、傳真、地址均不匹配的情況下,所述目標(biāo)酒店與所述待匹配酒店為疑似匹配;
[0060]如果不是農(nóng)家樂、客棧、農(nóng)莊等,則判斷地址是否匹配(即二者地址相同或存在包含與被包含的關(guān)系),若地址匹配,則所述目標(biāo)酒店與所述待匹配酒店也自動(dòng)匹配;
[0061]如果不是農(nóng)家樂、客棧、農(nóng)莊等,且地址不匹配,則判斷經(jīng)瑋度,如果二者經(jīng)瑋度的距離小于500米,則所述目標(biāo)酒店與所述待匹配酒店自動(dòng)匹配,否則二者為疑似匹配。
[0062]若經(jīng)過上述的各項(xiàng)匹配操作后發(fā)現(xiàn)所述目標(biāo)酒店與所述待匹配酒店的電話、傳真、地址、經(jīng)瑋度均不匹配,則所述目標(biāo)酒店與所述待匹配酒店即為疑似匹配。在這種情況下,若滿足0.8 ( X〈1的所述待匹配酒店的數(shù)量多于一個(gè),且利用待匹配酒店計(jì)算出的所述相似度不同時(shí),則選擇相似度最高的一個(gè)待匹配酒店作為疑似匹配,若所述相似度相同,則判斷待匹配酒店在半年內(nèi)是否有價(jià)格數(shù)據(jù),如果半年內(nèi)無價(jià)格數(shù)據(jù),則排除,若果半年內(nèi)有價(jià)格數(shù)據(jù)的待匹配酒店的數(shù)量仍多于一個(gè),則選擇基礎(chǔ)房型最多的一個(gè)待匹配酒店作為疑似匹配。
[0063]若0.5 < X〈0.8,且待匹配酒店有多個(gè)時(shí),提取計(jì)算出的相似度最高的5個(gè)執(zhí)行第三匹配操作,所述第三匹配操作為:
[0064]判斷所述待匹配酒店的信息數(shù)據(jù)中是否存在與所述目標(biāo)酒店相匹配的電話或傳真且同時(shí)存在與所述目標(biāo)酒店相匹配的地址(即判斷電話或傳真與地址是否同時(shí)匹配),若是,則所述目標(biāo)酒店與所述待匹配酒店自動(dòng)匹配,若否,則判斷所述待匹配酒店的信息數(shù)據(jù)中是否存在與所述目標(biāo)酒店相匹配的電話、傳真或地址,若存在,則所述目標(biāo)酒店與所述待匹配酒店疑似匹配,若不存在,則所述目標(biāo)酒店與所述待匹配酒店不匹配。
[0065]在第三匹配操作中,只有在滿足四維匹配條件(即所處城市+名稱+(電話或傳真)+地址)時(shí),所述目標(biāo)酒店與所述待匹配酒店才自動(dòng)匹配,其中電話、傳真、地址及經(jīng)瑋度的匹配的操作與第二匹配操作中相同,對(duì)于地址匹配,在滿足以下兩個(gè)條件之一時(shí),視為匹配:1、雙方有門牌號(hào),且門牌號(hào)相同;2、有一方或雙方無門牌號(hào),且酒店類型不是農(nóng)家樂等,雙方地址存在包含關(guān)系,則視為匹配;
[0066]在第三匹配操作中,若僅滿足三維匹配條件(即所處城市+名稱+(電話或傳真或地址)),則所述目標(biāo)酒店與所述待匹配酒店為疑似匹配;若滿足疑似匹配條件的待匹配酒店存在多個(gè),則選擇計(jì)算出的相似度最高的一個(gè)作為疑似匹配;
[0067]在第三匹配操作中,若僅滿足二維匹配條件,即所述目標(biāo)酒店與所述待匹配酒店只有所處城市及名稱相匹配,而電話、傳真、地址均不匹配時(shí),由于名稱的相似度很低,所以此時(shí)所述目標(biāo)酒店與所述待匹配酒店視為不匹配。
[0068]若X〈0.5,則所述目標(biāo)酒店與所述待匹配酒店不匹配;此時(shí),可以獲取當(dāng)前所處城市所屬的一級(jí)城市,提取該一級(jí)城市下的所有酒店,進(jìn)行重新匹配,如果一級(jí)城市酒店計(jì)算出的相似度X仍小于0.5,則進(jìn)一步可提取所有無城市酒店進(jìn)行匹配,如果所有無城市酒店計(jì)算出的相似度X仍小于0.5,則確定目標(biāo)酒店與待匹配酒店均不匹配。
[0069]在本發(fā)明中,各數(shù)據(jù)清洗及匹配規(guī)則具體如下:
[0070]酒店所處城市數(shù)據(jù)清洗及匹配規(guī)則,具體如下:
[0071]I)所有其他供應(yīng)商酒店的所處城市與目標(biāo)供應(yīng)商的目標(biāo)酒店的所處城市都需要有匹配關(guān)系,(根據(jù)人工匹配酒店數(shù)據(jù),提取城市對(duì)應(yīng)關(guān)系,修正城市mapping表)
[0072]2)目標(biāo)供應(yīng)商的城市均有級(jí)連關(guān)系表,每個(gè)城市都必須找到對(duì)應(yīng)的一級(jí)城市
[0073]3)提取酒店所在城市所屬的一級(jí)城市
[0074]1.一級(jí)城市:省下面的第一層,即省會(huì)或地級(jí)市
[0075]4)找定一級(jí)城市名稱,可獲取該一級(jí)城市及其所包括縣、區(qū)的所有酒店
[0076]a)無城市信息的酒店處理
[0077]1.從經(jīng)瑋度中提取城市信息
[0078]i1.從地址中提取城市信息
[0079]ii1.從酒店名稱中提取城市信息
[0080]iv.人工處理
[0081]酒店名稱匹配規(guī)則,具體如下:
[0082]1.酒店名稱相似度按照不同部分進(jìn)行計(jì)算
[0083]I)地域名稱匹配規(guī)則
[0084]a)雙方都有地域名稱,且相同或包含關(guān)系時(shí),地域匹配,得0.05分
[0085]b) 一方有地域名稱時(shí),地域匹配,得0.05分
[0086]c)雙方都有地域,但不相同時(shí),不得分
[0087]2)酒店名稱核心部分(核心詞、分店名、曾用名等)匹配規(guī)則
[0088]a)酒店曾用名與現(xiàn)用名分開,作為兩個(gè)酒店名稱分別比較;有一個(gè)匹配即為匹配
[0089]b)酒店名稱核心詞與分店名稱分別比較,即核心詞比對(duì)方核心詞;分店名比對(duì)方分店名;
[0090]c)分店名稱比較時(shí),去掉末尾的“店”字,及前綴地域詞進(jìn)行比較
[0091]d)核分部分的相似度算法從框架的字符串相似比較
[0092]3)通用名稱匹配規(guī)則
[0093]a)雙方都有通用名稱,且通用名稱完全相同時(shí),匹配,得0.1分
[0094]b)雙方都有通用名稱,且通用名稱有包含關(guān)系時(shí)(例:酒店、度假酒店),得0.05分
[0095]c)雙方都有通用名稱,且通用名稱不同,不得分
[0096]d)有一方?jīng)]有通用名稱時(shí),匹配,得0.1分
[0097]2.不同部分字符類型權(quán)重不同
[0098]a)地域名稱權(quán)重占5% (0.05分)
[0099]b)酒店名稱核心部分(核心詞、分店名)占85%,有分店名時(shí);有分店名稱時(shí),分店名占30% ;(0.85分)
[0100]c)通用名稱權(quán)重占10% (0.1分)
[0101]d)地域名稱權(quán)重+核心部分權(quán)重+通用名稱權(quán)重=I
[0102]3.不同部分字符類型權(quán)重可配置
[0103]酒店電話數(shù)據(jù)清洗及匹配規(guī)則,具體如下:
[0104]I)過濾掉括號(hào)O及O內(nèi)所有內(nèi)容
[0105]2)過濾掉所有漢字
[0106]3)數(shù)據(jù)分割,出現(xiàn)以下字符時(shí),把號(hào)碼分成兩部分,逗號(hào)、頓號(hào)Λ正反斜框,空格
[0107]4)判斷區(qū)號(hào)及分機(jī)_(中劃線)前數(shù)字>4位,則為分機(jī),刪除;_(中劃前)前數(shù)字〈=4位,則為區(qū)號(hào)
[0108]5)電話類型
[0109]a)座機(jī):區(qū)號(hào)+電話號(hào)碼
[0110]b)手機(jī)
[0111]c) 400 電話
[0112]6)根據(jù)數(shù)字位數(shù)判斷電話類型,
[0113]a)去掉區(qū)號(hào)后,數(shù)字為7-8位,類型為座機(jī)
[0114]b)數(shù)字為11位,且以I開頭,類型為手機(jī)
[