一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法
【專利摘要】本發(fā)明公開(kāi)了一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,從格式不一的不同運(yùn)價(jià)單中分析出其中的共性,對(duì)不同的運(yùn)價(jià)信息分別分析歸納出不同的信息檢索提取規(guī)則,從而提取所需的運(yùn)價(jià)信息。運(yùn)價(jià)信息主要包括價(jià)單基本信息、航程信息、航程運(yùn)價(jià)、附加運(yùn)價(jià)等。最后根據(jù)出發(fā)地、中轉(zhuǎn)站、目的地、單程或往返、艙位等區(qū)別,將價(jià)單拆分成多條航程信息,并保存為統(tǒng)一的格式。本發(fā)明可以準(zhǔn)確、快速地從運(yùn)價(jià)單中提取出格式統(tǒng)一的航程信息。
【專利說(shuō)明】—種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及資訊檢索【技術(shù)領(lǐng)域】,具體涉及一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法。
【背景技術(shù)】
[0002]隨著生活質(zhì)量的提高和交通運(yùn)輸?shù)陌l(fā)展,現(xiàn)在有越來(lái)越多的人開(kāi)始選擇乘坐飛機(jī)出行,于是商旅集團(tuán)將面臨著大量的機(jī)票運(yùn)價(jià)單需要處理。傳統(tǒng)的處理方式,是通過(guò)人工地閱讀運(yùn)價(jià)單,并將讀到的價(jià)單信息手動(dòng)地錄入系統(tǒng)。然而,不同運(yùn)價(jià)單的格式大相徑庭,就連相同航司的不同價(jià)單都存在不少差異。因此通過(guò)人工方式進(jìn)行處理,常常需要耗費(fèi)許多人力與時(shí)間。
[0003]基于以上情況,我們提出了一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,代替了人工錄入的方式,從而大量地節(jié)省了人力與時(shí)間。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)當(dāng)前手工提取運(yùn)價(jià)單信息技術(shù)的不足,提供了一種智能解析并提取excel運(yùn)價(jià)單信息的方法。本發(fā)明的目的是通過(guò)智能解析運(yùn)價(jià)單,提取運(yùn)價(jià)信息,將價(jià)單拆分成多條航程信息,并保存為統(tǒng)一的格式輸出。具體的技術(shù)方案如下所述。
[0005]一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,包括以下步驟:
(1)對(duì)大量已有價(jià)單進(jìn)行分析;
(2)將價(jià)單按不同格式進(jìn)行分類;
(3)對(duì)已分類的價(jià)單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍;
(4)在鎖定的檢索范圍內(nèi),分析歸納所需提取的運(yùn)價(jià)信息的檢索提取規(guī)則。
[0006](5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù);
(6)在表頭位置下一行開(kāi)始進(jìn)行逐格掃描,找出所有包含價(jià)格信息的單元格,每一個(gè)價(jià)格信息可以拆分成一條航程;
(7)根據(jù)分析歸納的檢索提取規(guī)則,找出步驟(6)中所有價(jià)格對(duì)應(yīng)的航程屬性,并以統(tǒng)一的格式保存;
(8 )重復(fù)步驟(5 )到(7 ),直到找不到下一個(gè)表頭標(biāo)志,則對(duì)所有表格拆分完畢。
[0007]更具體的,步驟(I)中所述的分析為:根據(jù)所要提取的運(yùn)價(jià)信息,初步分析不同價(jià)單之間的異同。其中所要提取的運(yùn)價(jià)信息包括,出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時(shí)間、最小停留時(shí)間,以及成人運(yùn)價(jià)等航程屬性。
[0008]更具體的,步驟(2)中的分類方法為:根據(jù)步驟(I)的初步分析,將所需信息存儲(chǔ)方式相近或相同的具有較大共性的價(jià)單歸類。
[0009]更具體的,步驟(3)的目的在于縮小檢索范圍,提高檢索速度。
[0010]更具體的,步驟(4)所述中,分析所需提取的運(yùn)價(jià)信息的檢索提取規(guī)則包含以下步驟:
(a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志;
(b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系。
[0011]更具體的,所述步驟(5)中,表頭通常含有以下航程屬性:
(a)路線,其中包含出發(fā)地與中轉(zhuǎn)站(如有中轉(zhuǎn)站)的三字碼,并以分隔;
(b)航程類型,包括單程和往返程兩類;
(c)訂座艙位,艙位信息由艙位碼表示,為單個(gè)大寫(xiě)英文字母;
(d)有效期。
[0012]更具體的,步驟(6)中價(jià)格信息的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲(chǔ)價(jià)格信息的單元格,記錄價(jià)格單元格的總個(gè)數(shù)。
[0013]更具體的,一個(gè)價(jià)格信息單元對(duì)應(yīng)一條航程,步驟(7)根據(jù)步驟(6)中所查找到的價(jià)格單元對(duì)航程進(jìn)行拆分:
Ca)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志;
(b)根據(jù)步驟(4)中分析總結(jié)的,所需運(yùn)價(jià)信息與檢索標(biāo)志之間的關(guān)系,找出價(jià)格信息單元對(duì)應(yīng)的所有運(yùn)價(jià)信息。
[0014](c)對(duì)每一個(gè)價(jià)格信息單元重復(fù)步驟(a)和(b),直到將表格按照統(tǒng)一格式拆分成多條航程。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:本發(fā)明通過(guò)將excel運(yùn)價(jià)單進(jìn)行歸類,并分別歸納出檢索提取規(guī)則,從而智能解析提取出所需的運(yùn)價(jià)信息,提高檢索速度。
【專利附圖】
【附圖說(shuō)明】
[0016]圖1為本發(fā)明所述一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法流程示意圖。
【具體實(shí)施方式】
[0017]為了讓本領(lǐng)域的技術(shù)人員能夠更好地了解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的闡述。
[0018]如圖1所示,本發(fā)明揭示了一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法包括以下步驟:
(I)對(duì)大量已有價(jià)單進(jìn)行分析:根據(jù)所要提取的信息,初步分析不同價(jià)單之間的異同。其中所要提取的信息包括,出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時(shí)間、最小停留時(shí)間,以及成人運(yùn)價(jià)等航程屬性。
[0019](2)將價(jià)單按不同格式進(jìn)行分類,把運(yùn)價(jià)信息存儲(chǔ)方式相近或相同的具有較大共性的價(jià)單歸類。
[0020](3)對(duì)已分類的價(jià)單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍,以縮小檢索范圍,提高檢索速度。
[0021](4)在鎖定的檢索范圍內(nèi),分析所需提取的運(yùn)價(jià)信息的檢索提取規(guī)則:
(a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志;
(b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系。
[0022](5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù),表頭通常含有以下航程屬性:
(a)路線,其中包含出發(fā)地與中轉(zhuǎn)站(如有中轉(zhuǎn)站)的三字碼,并以分隔;
(b)航程類型,包括單程和往返程兩類;
(c)訂座艙位,艙位信息由艙位碼表示,為單個(gè)大寫(xiě)英文字母;
(d)有效期。
[0023](6)價(jià)格信息單元的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲(chǔ)價(jià)格信息的單元格,記錄價(jià)格單元格的總個(gè)數(shù)。
[0024](7)找出步驟(6)中所有價(jià)格對(duì)應(yīng)的航程屬性,一個(gè)價(jià)格信息單元對(duì)應(yīng)一條拆分,包括以下步驟:
Ca)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志;
(b)根據(jù)步驟(4)中分析總結(jié)的,所需運(yùn)價(jià)信息與檢索標(biāo)志之間的關(guān)系,找出價(jià)格信息單元對(duì)應(yīng)的所有運(yùn)價(jià)信息。
[0025](c)對(duì)每一個(gè)價(jià)格信息單元重復(fù)步驟(a)和(b),直到將價(jià)單按照統(tǒng)一格式拆分成多條航程。
[0026](8)重復(fù)步驟(5)到(7),直到找不到下一個(gè)表頭標(biāo)志,則對(duì)所有表格拆分完畢。
[0027]本實(shí)施例只是本發(fā)明的較優(yōu)實(shí)施方式,需要說(shuō)明的是,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,其特征在于,包括以下步驟: (1)對(duì)大量已有價(jià)單進(jìn)行分析:根據(jù)所要提取的運(yùn)價(jià)信息,初步分析不同價(jià)單之間的異同,其中所要提取的運(yùn)價(jià)信息包括出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時(shí)間、最小停留時(shí)間以及成人運(yùn)價(jià)航程屬性; (2)將價(jià)單按不同格式進(jìn)行分類,分類方法為:根據(jù)步驟(I)的初步分析,將所需信息存儲(chǔ)方式相近或相同的具有較大共性的價(jià)單歸類; (3)對(duì)已分類的價(jià)單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍; (4)在鎖定的檢索范圍內(nèi),分析歸納所需提取的運(yùn)價(jià)信息的檢索提取規(guī)則,具體包含以下步驟: (a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志; (b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系; (5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù); (6)在表頭位置下一行開(kāi)始進(jìn)行逐格掃描,找出所有包含價(jià)格信息的單元格,每一個(gè)價(jià)格信息拆分成一條航程; (7)根據(jù)分析歸納的檢索提取規(guī)則,找出步驟(6)中所有價(jià)格對(duì)應(yīng)的航程屬性,并以統(tǒng)一的格式保存; (8 )重復(fù)步驟(5 )到(7 ),直到找不到下一個(gè)表頭標(biāo)志,則對(duì)所有表格拆分完畢。
2.根據(jù)權(quán)利要求1所述智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,其特征在于:所述步驟(5)中,表頭含有以下航程屬性: (a)路線,其中包含出發(fā)地與中轉(zhuǎn)站三字碼,并以分隔; (b)航程類型,包括單程和往返程兩類; (c)訂座艙位,艙位信息由艙位碼表示,為單個(gè)大寫(xiě)英文字母; (d)有效期。
3.根據(jù)權(quán)利要求1所述智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,其特征在于:步驟(6)所述價(jià)格信息的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲(chǔ)價(jià)格信息的單元格,記錄價(jià)格單元格的總個(gè)數(shù)。
4.根據(jù)權(quán)利要求1所述智能解析excel格式國(guó)際機(jī)票運(yùn)價(jià)單的方法,其特征在于:一個(gè)價(jià)格信息單元對(duì)應(yīng)一條航程,步驟(7)中根據(jù)步驟(6)所查找到的價(jià)格單元對(duì)航程進(jìn)行拆分,包括以下步驟: (a)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志; (b)根據(jù)步驟(4)中分析總結(jié)的,所需運(yùn)價(jià)信息與檢索標(biāo)志之間的關(guān)系,找出價(jià)格信息單元對(duì)應(yīng)的所有運(yùn)價(jià)信息; (c)對(duì)每一個(gè)價(jià)格信息單元重復(fù)步驟(a)和(b),直到將表格按照統(tǒng)一格式拆分成多條航程。
【文檔編號(hào)】G06F17/30GK104133861SQ201410336305
【公開(kāi)日】2014年11月5日 申請(qǐng)日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】黃翰, 葉樹(shù)錦, 盧爾昂, 郝志峰 申請(qǐng)人:華南理工大學(xué)