本發(fā)明涉及船舶檢測(cè),尤其是涉及一種融vhf通信語音信息的vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)方法。
背景技術(shù):
1、隨著經(jīng)濟(jì)全球化的發(fā)展,各國(guó)之間的貨物往來頻繁,絕大多數(shù)貨物的運(yùn)輸目前主要通過水上交通來完成,而水上交通的發(fā)展離不開船舶交通管理中心的管理,船舶交通管理中心通過與所轄水域內(nèi)船舶的語音互動(dòng)等方式,不間斷地為后者實(shí)施監(jiān)管和提供服務(wù),交通管制人員工作期間,必須時(shí)刻保持高度專注,以便能夠隨時(shí)接收來自船用甚高頻(veryhigh?frequency,vhf)、船舶自動(dòng)識(shí)別系統(tǒng)(automatic?identification?system,ais)、視頻監(jiān)控(closed?circuit?television,cctv)等設(shè)備的信息,并對(duì)其進(jìn)行快速分析,做出適時(shí)的決策,目前船舶數(shù)量日益增多,存在部分船舶還沒有到船舶交通服務(wù)(vessel?trafficservice,vts)的服務(wù)區(qū),就向交通管制人員報(bào)告的現(xiàn)象,這樣的無效報(bào)告信息不僅會(huì)占用為數(shù)不多的人力資源,降低交通管制效率,同時(shí)也會(huì)增加交通管制人員本就繁雜工作的工作負(fù)擔(dān)。
2、目前對(duì)于如何檢測(cè)vts服務(wù)區(qū)外報(bào)告船舶并沒有給出較好的方案,現(xiàn)階段研究主要以ais數(shù)據(jù)為基礎(chǔ),通過數(shù)據(jù)智能分析船舶的運(yùn)行軌跡,預(yù)測(cè)其軌跡狀況,來輔助交通管制人員做出決策。少部分研究以船舶與交通管制人員的通信語料文本數(shù)據(jù)為基礎(chǔ),通過深度學(xué)習(xí)模型來挖掘其中的關(guān)鍵信息如:船名、目的地和靠泊等,以此輔助交通管制人員做出決策。
3、上述方法并不能檢測(cè)出vts服務(wù)區(qū)外報(bào)告船舶,同時(shí)也無法有效的將交通管制人員從應(yīng)對(duì)vhf各類船舶報(bào)告的繁雜、重復(fù)、低效的工作中有效的解放出來。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種融vhf通信語音信息的vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)方法。通過對(duì)挖掘的vhf語料中關(guān)鍵信息進(jìn)一步處理,結(jié)合ais數(shù)據(jù),利用vhf語料和ais系統(tǒng)兩方面數(shù)據(jù),對(duì)vts服務(wù)區(qū)外船舶實(shí)現(xiàn)精確檢測(cè),該方法可擴(kuò)展水上智能交通系統(tǒng),減輕交管的工作壓力,并提高船舶報(bào)告信息的有效性。
2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
3、根據(jù)本發(fā)明的一個(gè)方面,提供了一種融vhf通信語音信息的vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)方法,所述方法將ais數(shù)據(jù)與vhf通信語料文本結(jié)合起來,并基于casrel實(shí)體關(guān)系抽取語料文本數(shù)據(jù),包括如下步驟:
4、s1、獲取vhf通信語音數(shù)據(jù)和ais數(shù)據(jù),并進(jìn)行預(yù)處理;
5、s2、將預(yù)處理后的vhf通信語音數(shù)據(jù)分為第一數(shù)據(jù)集、第二數(shù)據(jù)集;通過第一數(shù)據(jù)集對(duì)vhf語音識(shí)別模型進(jìn)行訓(xùn)練,將第二數(shù)據(jù)集通過訓(xùn)練后的vhf語音識(shí)別模型轉(zhuǎn)譯為語料文本數(shù)據(jù);
6、所述vhf語音識(shí)別模型包括聲學(xué)模型和語言模型;
7、s3、基于casrel實(shí)體關(guān)系抽取模型對(duì)s2中所獲取的語料文本數(shù)據(jù)中進(jìn)行抽取,得到特征信息;
8、s4、將s3中獲取的特征信息分為兩類,包括:含當(dāng)前位置的特征信息和不含當(dāng)前位置的特征信息;并分別進(jìn)行位置檢測(cè),從而得到vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)結(jié)果。進(jìn)一步地,所述vhf語音識(shí)別模型包括聲學(xué)模型和語言模型。
9、作為優(yōu)選的方案,s1中的vhf通信語音數(shù)據(jù)由vhf語音采集裝置進(jìn)行采集,ais數(shù)據(jù)由ais數(shù)據(jù)采集裝置進(jìn)行采集;
10、進(jìn)一步地,所述vhf語音采集裝置由vhf接收天線、vhf接收機(jī)與存儲(chǔ)設(shè)備組成,用于采集不同甚高頻頻道的vhf通信語音數(shù)據(jù);
11、進(jìn)一步地,所述ais數(shù)據(jù)采集裝置由ais接收天線、ais接收機(jī)與存儲(chǔ)設(shè)備組成,用于接收并存儲(chǔ)一定范圍的ais數(shù)據(jù)。作為優(yōu)選的方案,所述的s1中的預(yù)處理包括數(shù)據(jù)清洗、將海事的文本語料中殘缺的句子剔除和對(duì)長(zhǎng)句子斷句;
12、進(jìn)一步地,對(duì)于vhf通信語音數(shù)據(jù):根據(jù)聲紋識(shí)別技術(shù)對(duì)其進(jìn)行波形分割、切片,實(shí)現(xiàn)每一個(gè)切片對(duì)應(yīng)一段完整的航運(yùn)對(duì)話,并為這段對(duì)話打上時(shí)間標(biāo)簽;
13、進(jìn)一步地,對(duì)于ais數(shù)據(jù):將ais數(shù)據(jù)中的船名與船名庫進(jìn)行匹配,糾正ais數(shù)據(jù)中存在的船名錯(cuò)誤或不一致的情況,同時(shí)保證其他信息正確。
14、作為優(yōu)選的方案,所述s2中對(duì)vhf語音識(shí)別模型進(jìn)行訓(xùn)練具體步驟包括:
15、訓(xùn)練聲學(xué)模型:從所獲取的vhf通信語音數(shù)據(jù)中,按預(yù)設(shè)比例劃分出第一數(shù)據(jù)集和第二數(shù)據(jù)集,針對(duì)第一數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行特征提取,將提取的特征用于通用聲學(xué)模型的訓(xùn)練,并評(píng)估模型性能,優(yōu)化模型參數(shù),得到契合海事領(lǐng)域的聲學(xué)模型;
16、訓(xùn)練語言模型:收集海事領(lǐng)域文本信息,構(gòu)建海事領(lǐng)域文本數(shù)據(jù)庫,將其文本數(shù)據(jù)用于通用語言模型的訓(xùn)練,并評(píng)估模型性能,優(yōu)化模型參數(shù),得到契合海事領(lǐng)域的語言模型。
17、進(jìn)一步地,所述vhf語音識(shí)別模型訓(xùn)練過程包括:
18、獲取包含vhf語音音頻數(shù)據(jù)和海事領(lǐng)域文本數(shù)據(jù);將預(yù)處理后的vhf通信語音數(shù)據(jù)分為第一數(shù)據(jù)集、第二數(shù)據(jù)集;通過第一數(shù)據(jù)集對(duì)vhf語音識(shí)別模型進(jìn)行訓(xùn)練;
19、其中,第一數(shù)據(jù)集包含訓(xùn)練集、測(cè)試集和驗(yàn)證集;
20、將訓(xùn)練數(shù)據(jù)集分別用于現(xiàn)有通用的聲學(xué)模型和語言模型的訓(xùn)練;
21、根據(jù)模型在驗(yàn)證集上的表現(xiàn)進(jìn)行參數(shù)調(diào)整,并使用測(cè)試集來評(píng)估模型性能,最后完成所述vhf語音識(shí)別模型的訓(xùn)練過程。
22、作為優(yōu)選的方案,所述s2中轉(zhuǎn)譯的具體過程為:
23、s201、在所獲取的vhf通信語音數(shù)據(jù)中,對(duì)剩余部分的vhf語音數(shù)據(jù)提取特征,輸入到所述的聲學(xué)模型中,再對(duì)聲學(xué)模型輸出的音節(jié)序列進(jìn)行解碼將其轉(zhuǎn)換為詞序列;
24、s202、通過所述語言模型確定有可能的詞序列,并利用搜索算法,在所有可能的詞序列中,選擇出概率最高的一個(gè)作為最終文本的輸出;
25、s203、對(duì)上述的文本輸出進(jìn)行后處理,最后對(duì)所輸出的文本進(jìn)行人工抽檢,并保留其對(duì)應(yīng)的時(shí)間信息,將其存入到vhf語料文本數(shù)據(jù)庫中,即為最終轉(zhuǎn)譯得到語料文本數(shù)據(jù);
26、進(jìn)一步地,所述vhf語音識(shí)別模型轉(zhuǎn)譯過程包括:
27、獲取已切片好的vhf通信語音數(shù)據(jù),其中每一個(gè)切片都對(duì)應(yīng)一輪完整的航運(yùn)交通對(duì)話;
28、將語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后對(duì)這些數(shù)字信號(hào)進(jìn)行處理和分析,提取出其中的特征;
29、通過預(yù)訓(xùn)練的vhf語音識(shí)別模型,從提取出來的特征中識(shí)別出對(duì)應(yīng)的文本,完成所述vhf語音識(shí)別模型轉(zhuǎn)譯過程。
30、進(jìn)一步地,所述后處理包括糾錯(cuò)、標(biāo)點(diǎn)和對(duì)海事領(lǐng)域?qū)I(yè)術(shù)語進(jìn)行標(biāo)準(zhǔn)化處理。
31、作為優(yōu)選的方案,s3中的casrel實(shí)體關(guān)系抽取模型包括句子編碼部分和級(jí)聯(lián)解碼部分;
32、進(jìn)一步地,所述句子編碼部分通過bert的embedding層和雙向transformer層來獲取每個(gè)字符的特征向量表示,這些向量被用作主體識(shí)別和主客體關(guān)系識(shí)別模塊的輸入;
33、進(jìn)一步地,所述級(jí)聯(lián)解碼部分通過主體識(shí)別模塊來提取句子中的主體信息,然后通過主客體關(guān)系識(shí)別模塊來關(guān)聯(lián)與關(guān)系對(duì)應(yīng)的客體實(shí)體,進(jìn)而實(shí)現(xiàn)實(shí)體關(guān)系抽取。
34、作為優(yōu)選的方案,s3中所述基于casrel實(shí)體關(guān)系抽取模型對(duì)s2中所獲取的語料文本數(shù)據(jù)進(jìn)行抽取,結(jié)合船名庫得到特征信息的步驟具體為;
35、s301、基于casrel實(shí)體關(guān)系提取模型,對(duì)s2中得到的語料文本數(shù)據(jù)進(jìn)行抽取得到特征信息,特征信息包括主體即船名、客體即地名和關(guān)系;
36、s302、結(jié)合船名庫將船名轉(zhuǎn)為相應(yīng)的拼音或補(bǔ)全本身為拼音但缺少阿拉伯?dāng)?shù)字部分的船名,使其與ais數(shù)據(jù)中船名結(jié)構(gòu)保持一致;
37、s303、保留其時(shí)間信息,根據(jù)vhf語料文本中船舶報(bào)告位置特點(diǎn);
38、船名與地名之間存在關(guān)系包括:當(dāng)前位置、未來位置和模糊位置;
39、進(jìn)一步地,所述當(dāng)前位置即為船舶當(dāng)前所在地點(diǎn);
40、進(jìn)一步地,所述未來位置即為船舶將要去的地點(diǎn);
41、進(jìn)一步地,所述模糊位置即為船舶報(bào)告位置信息模糊。
42、進(jìn)一步地,所述casrel實(shí)體關(guān)系抽取模型訓(xùn)練過程包括:
43、獲取包含vhf語料文本數(shù)據(jù);
44、基于所述數(shù)據(jù),通過在語料標(biāo)注平臺(tái)對(duì)語料數(shù)據(jù)進(jìn)行船名、位置、關(guān)系信息標(biāo)注,將其存儲(chǔ)為json數(shù)據(jù)格式,在這個(gè)過程中,首先以句子為基礎(chǔ),對(duì)其中的詞語單元進(jìn)行標(biāo)注。完成標(biāo)注后,按照特定的比例將數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
45、將獲得的訓(xùn)練集用于casrel實(shí)體關(guān)系抽取模型的訓(xùn)練;
46、根據(jù)模型在驗(yàn)證集上的表現(xiàn)進(jìn)行參數(shù)調(diào)整,并使用測(cè)試集來評(píng)估模型性能,最后完成所述casrel實(shí)體關(guān)系模型的訓(xùn)練過程。
47、進(jìn)一步地,所述casrel實(shí)體關(guān)系抽取模型的具體思路包括:
48、首先將經(jīng)過預(yù)處理的vhf語料文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的bert模塊。這個(gè)模塊的核心編碼部分是transformer結(jié)構(gòu),它通過調(diào)整權(quán)重系數(shù)矩陣來反映同一句子中各字符間的關(guān)聯(lián)程度,從而輸出每個(gè)字符的詞向量表示。
49、在獲取每個(gè)字符的詞向量表示之后,利用每個(gè)字符的詞向量表示來預(yù)測(cè)主語實(shí)體的開始和結(jié)束位置;
50、根據(jù)預(yù)測(cè)出的主語實(shí)體的開始和結(jié)束位置,通過加和平均的方法計(jì)算出每個(gè)主語實(shí)體的向量表示。
51、將每個(gè)字符的向量表示和預(yù)測(cè)出的主語實(shí)體的向量表示結(jié)合起來,然后通過遍歷關(guān)系字典,為每個(gè)關(guān)系構(gòu)建映射函數(shù),這些函數(shù)將被用于預(yù)測(cè)客體實(shí)體。
52、最終輸出實(shí)體關(guān)系三元組,即為所需要的特征信息('船名','關(guān)系','地名')。
53、進(jìn)一步地,即將船舶與所報(bào)告地點(diǎn)的關(guān)系分為三類:當(dāng)前位置、未來位置和模糊位置,同時(shí),在上述海事語料中也存在一個(gè)船名對(duì)應(yīng)多個(gè)地點(diǎn)的情況,即存在重疊三元組,目前大多數(shù)抽取三元組的方法是抽取出主體實(shí)體和客體實(shí)體,每一個(gè)實(shí)體對(duì)都有其標(biāo)簽,標(biāo)簽即為兩實(shí)體間關(guān)系來進(jìn)行處理,但這種方法對(duì)于抽取重疊三元組并不適用,而采用級(jí)聯(lián)二進(jìn)制標(biāo)注框架能很好的解決這個(gè)問題,即采用casrel實(shí)體關(guān)系抽取模型對(duì)vhf語料文本進(jìn)行抽取,為方便后續(xù)計(jì)算的需要,將抽取得到的特征信息分為兩類:含當(dāng)前位置特征信息和不含當(dāng)前位置(未來位置、模糊位置)特征信息。
54、作為優(yōu)選的方案,所述的s4中的特征信息分類包括:含當(dāng)前位置特征信息和不含當(dāng)前位置特征信息;
55、進(jìn)一步地,所述的不含當(dāng)前位置特征信息包括:未來位置特征信息和模糊位置特征信息。
56、作為優(yōu)選的方案,所述的的s4中的檢測(cè)位置具體為:
57、進(jìn)一步地,對(duì)于含當(dāng)前位置的特征信息,獲取其地名,將其在vts服務(wù)區(qū)地名庫進(jìn)行檢索,從而檢測(cè)出對(duì)應(yīng)的vts服務(wù)區(qū)外報(bào)告船舶;
58、進(jìn)一步地,對(duì)于不含當(dāng)前位置的特征信息,獲取其船名,將其與ais數(shù)據(jù)中船名進(jìn)行船名相似度計(jì)算,得到與ais數(shù)據(jù)中船名的相似度排名,之后結(jié)合預(yù)先設(shè)定的特定閾值,篩選出滿足特定閾值且最相似的船名,獲取其船舶點(diǎn)坐標(biāo),計(jì)算該點(diǎn)到多邊形vts服務(wù)區(qū)各頂點(diǎn)的向量并對(duì)向量間夾角求和,判斷其在精度范圍內(nèi)是否等于2π,輸出不等于2π的船舶點(diǎn),該點(diǎn)船舶即對(duì)應(yīng)為vts服務(wù)區(qū)外報(bào)告船舶,從而得到vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)結(jié)果。
59、作為優(yōu)選的方案,所述的船名相似度計(jì)算具體包括:
60、計(jì)算vhf語料不含當(dāng)前位置得特征信息中船名字符串與ais數(shù)據(jù)船名字符串之間的重合字符偏距和未重合字符偏距;
61、計(jì)算兩船名字符串之間的總偏距,進(jìn)而得到偏距相似度,即船名相似度。
62、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
63、1、本發(fā)明中所述方法將ais數(shù)據(jù)與vhf通信語料文本結(jié)合起來,并基于casrel實(shí)體關(guān)系抽取語料文本數(shù)據(jù),通過獲取vhf通信語音數(shù)據(jù)和ais數(shù)據(jù),并進(jìn)行預(yù)處理;對(duì)vhf語音識(shí)別模型進(jìn)行訓(xùn)練,將獲取的vhf通信語音數(shù)據(jù)通過訓(xùn)練后的vhf語音識(shí)別模型轉(zhuǎn)譯為語料文本數(shù)據(jù);基于casrel實(shí)體關(guān)系抽取模型進(jìn)行抽取所獲取的語料文本數(shù)據(jù),結(jié)合船名庫得到特征信息;將獲取的特征信息分為兩類,并進(jìn)行位置檢測(cè),從而完成vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)。為檢測(cè)vts服務(wù)區(qū)外船舶提供了解決方案,實(shí)現(xiàn)對(duì)vts服務(wù)區(qū)外報(bào)告船舶檢測(cè)。
64、2、本發(fā)明中所述方法,不僅局限于利用ais信息,還考慮本身vhf語料文本中船舶報(bào)告位置特點(diǎn),根據(jù)位置特征,將抽取得到的特征信息特征信息分為含當(dāng)前位置特征信息和不含當(dāng)前位置特征信息;通過分類的方式能盡可能利用每一類特征信息的特點(diǎn)來提高檢測(cè)的精度,對(duì)于含當(dāng)前位置的特征信息,獲取其地名信息,可直接在地名庫中進(jìn)行檢索,實(shí)現(xiàn)快速有效的檢測(cè)出vts服務(wù)區(qū)外報(bào)告船舶。
65、3、本發(fā)明中所述方法,對(duì)于所述的不含當(dāng)前位置特征信息的,獲取其船名,將其與ais數(shù)據(jù)中船名進(jìn)行船名相似度計(jì)算,得到ais數(shù)據(jù)中船名的相似度排名;并設(shè)定特定閾值,取滿足特定閾值且最相似的船名,獲取其船舶點(diǎn)坐標(biāo),計(jì)算該點(diǎn)到多邊形vts服務(wù)區(qū)各頂點(diǎn)的向量并求和向量間夾角,判斷其在精度范圍內(nèi)是否等于2π,輸出不等于2π的船舶點(diǎn),即該點(diǎn)對(duì)應(yīng)船舶為vts服務(wù)區(qū)外報(bào)告船舶,從而檢測(cè)出vts服務(wù)區(qū)外報(bào)告船舶,在判斷相似船舶所在位置時(shí),充分利用ais信息,獲取相似船舶坐標(biāo)點(diǎn)和多邊形vts服務(wù)區(qū)各頂點(diǎn)坐標(biāo),將其轉(zhuǎn)化為平面上一點(diǎn)是否在多邊形內(nèi)問題,從多維變?yōu)榈途S,大大降低了問題的復(fù)雜程度,簡(jiǎn)化計(jì)算。
66、4、本發(fā)明中所述方法通過將vhf語料文本中船舶位置信息和船名信息與ais數(shù)據(jù)進(jìn)行聯(lián)合判斷,對(duì)聲學(xué)模型與語言模型進(jìn)行訓(xùn)練,評(píng)估模型性能,優(yōu)化模型參數(shù),得到契合海事領(lǐng)域的聲學(xué)模型;實(shí)現(xiàn)對(duì)vts服務(wù)區(qū)外報(bào)告船舶的高效和精準(zhǔn)的檢測(cè);