本發(fā)明涉及信息搜索,特別涉及了一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法。
背景技術:
1、隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新技術的興起,帶動電網(wǎng)公司智能電網(wǎng)建設的不斷推進,電網(wǎng)公司所擁有的電力數(shù)據(jù)資產(chǎn)正以前所未有的速度在不斷地增長。面對數(shù)量巨大、來源分散、格式多樣的電力數(shù)據(jù),如何從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力,是電網(wǎng)公司當前急需解決的問題。隨著電網(wǎng)企業(yè)數(shù)據(jù)中心功能建設不斷完善,大量的業(yè)務系統(tǒng)電力數(shù)據(jù)接入到數(shù)據(jù)中心,包括企業(yè)中的結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。
2、這些電力數(shù)據(jù)數(shù)量巨大、來源分散、缺乏數(shù)據(jù)間關聯(lián)關系。但傳統(tǒng)的店里數(shù)據(jù)搜索方式僅能夠搜索文檔資料等非結構化的數(shù)據(jù),且在面對復雜的電力系統(tǒng)時,不能完全滿足電力數(shù)據(jù)知識搜索需求,導致電力數(shù)據(jù)搜索過程復雜,搜索效率低下且搜索不準確,電力數(shù)據(jù)業(yè)務知識獲取難度大。面對龐大的數(shù)據(jù)資源,電網(wǎng)企業(yè)無法快速、準確地從中搜索到數(shù)據(jù)知識、識別數(shù)據(jù)關系、挖掘數(shù)據(jù)價值。
技術實現(xiàn)思路
1、本發(fā)明的目的是克服現(xiàn)有技術中存在的電力數(shù)據(jù)業(yè)務知識搜索過程復雜且搜索不準確,電力數(shù)據(jù)業(yè)務知識獲取難度大的問題,提供了一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,通過搭建的知識圖譜來搜索查詢相關的知識卡片,可以更深入的理解用戶的搜索需求,并根據(jù)需求返回給用戶較為精確和個性化的查詢結果,搜索過程更加簡單,搜索結果更加準確,能夠快速、準確地獲取電力數(shù)據(jù)業(yè)務知識。
2、為了實現(xiàn)上述目的,本發(fā)明采用以下技術方案:
3、一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,包括下列步驟:
4、s1:從電力數(shù)據(jù)結構化數(shù)據(jù)中抓取第一實體,對抓取的第一實體進行處理;
5、s2:從數(shù)據(jù)源中進行第二實體抽取,構建第一實體與第二實體之間的關系,獲取具有唯一標識的實體,構建電力數(shù)據(jù)知識圖譜;
6、s3:構建知識圖譜索引結構,對電力數(shù)據(jù)知識圖譜變化進行同步更新;
7、s4:獲取用戶搜索請求,對用戶搜索請求進行匹配,將匹配結果映射至知識圖譜的實體與關系中,基于知識圖譜內的結構返回搜索結果。
8、本發(fā)明通過構建電力數(shù)據(jù)知識圖譜,并在此基礎上進行智能搜索,通過智能搜索的方式降低用戶獲取所需電力數(shù)據(jù)知識的難度,提高搜索知識的反饋準確度,提升電力數(shù)據(jù)工作的效率和精確度、減輕電力數(shù)據(jù)工作者的勞動強度,更好的支撐多元融合高彈性電網(wǎng)的構建和實施。同時提升電力數(shù)據(jù)自動化程度,確保公司各項電力數(shù)據(jù)工作精確、高效、智能。從根源去解決目前電力數(shù)據(jù)存在的問題,為公司提供先進、高效、智能的電力數(shù)據(jù)能力,增強公司在售電側放開后的供電服務競爭力,為電網(wǎng)企業(yè)帶來更多的經(jīng)濟效益。
9、作為優(yōu)選,所述步驟s4包括:利用雙向最大匹配算法對用戶的搜索請求進行分詞;根據(jù)分詞結果對用戶搜索請求進行分類;確定用戶搜索請求針對的實體,得到待檢索三元組;對所述待檢索三元組形成確立匹配的搜索語句,進行智能搜索。
10、作為優(yōu)選,所述索引結構利用網(wǎng)格文件對采集類數(shù)據(jù)進行組織索引,并在創(chuàng)建索引時與計算用戶需要的聚集值。
11、作為優(yōu)選,對用戶的搜索請求進行分詞時包括:將用戶搜索請求按照詞語的最大長度進行分割,然后從左到右在預設字典中進行匹配;將用戶搜索請求按照詞語的最大長度進行分割,然后從右到左在預設字典中進行匹配;若兩次匹配的分詞結果相同,則返回分詞結果,若兩次匹配的分詞結果不相同,則返回分詞個數(shù)較少的分詞結果,若分詞個數(shù)相同,則返回詞長度大的分詞結果。
12、作為優(yōu)選,基于模糊識別算法從用戶搜索請求中提取實體,將用戶搜索請求的類型作為關系,得到待檢索三元組;在知識圖譜中搜索與所述待檢索三元組匹配的三元組,并計算信息相似度;將在知識圖譜中得到的三元組以及對應的相似度作為智能搜索結果返回給用戶。
13、作為優(yōu)選,所述根據(jù)分詞結果對用戶搜索請求進行分類包括:對分詞結果進行意識識別,得到用戶搜索請求的編碼以及目的,作為用戶搜索請求的類型。
14、作為優(yōu)選,所述步驟s1包括:分析電力數(shù)據(jù)數(shù)據(jù),利用淺層語義模型計算出電力數(shù)據(jù)實體具有層級關系的詞集,所述層級關系利用相似度表示,得到某一電力數(shù)據(jù)實體詞向量的相近詞集;將所述相近詞集進行分級,建立與所述詞向量相關的語義實時擴展聯(lián)想。
15、作為優(yōu)選,對分詞進行匹配時,若匹配成功,將該分詞從搜索請求中提??;若匹配失敗,則將匹配詞的長度-1再進行分詞,直到搜索請求中的所有單詞都被拆分。
16、作為優(yōu)選,索引結構使用鍵值數(shù)據(jù)庫存儲,以基于key的方式讀取。
17、作為優(yōu)選,將所述相近詞集進行分級包括:關鍵詞,根據(jù)關鍵詞利用預演模型計算得出的一級詞聯(lián)想,在一級詞聯(lián)想集合基礎上得到的二級詞聯(lián)想以及在二級詞聯(lián)想集合基礎上得到的三級詞聯(lián)想。
18、因此,本發(fā)明具有如下有益效果:
19、1、通過構建電力數(shù)據(jù)規(guī)劃業(yè)務知識圖譜,對業(yè)務知識進行結構化管理,將業(yè)務需求與數(shù)據(jù)資源結合起來,并在知識圖譜的基礎上進行智能搜索,通過智能搜索的方式降低用戶獲取所需電力數(shù)據(jù)知識的難度,提高搜索知識的反饋準確度,提升電力數(shù)據(jù)工作的效率和精確度、減輕電力數(shù)據(jù)工作者的勞動強度,更好的支撐多元融合高彈性電網(wǎng)的構建和實施。
20、2、通過知識圖譜與智能搜索技術,幫助用戶更好地理解電力數(shù)據(jù)各類知識之間的關系,幫助用戶更好地發(fā)現(xiàn)數(shù)據(jù)的價值。
1.一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,所述步驟s4包括:利用雙向最大匹配算法對用戶的搜索請求進行分詞;根據(jù)分詞結果對用戶搜索請求進行分類;確定用戶搜索請求針對的實體,得到待檢索三元組;對所述待檢索三元組形成確立匹配的搜索語句,進行智能搜索。
3.根據(jù)權利要求1所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,所述索引結構利用網(wǎng)格文件對采集類數(shù)據(jù)進行組織索引,并在創(chuàng)建索引時與計算用戶需要的聚集值。
4.根據(jù)權利要求2所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,對用戶的搜索請求進行分詞時包括:將用戶搜索請求按照詞語的最大長度進行分割,然后從左到右在預設字典中進行匹配;將用戶搜索請求按照詞語的最大長度進行分割,然后從右到左在預設字典中進行匹配;若兩次匹配的分詞結果相同,則返回分詞結果,若兩次匹配的分詞結果不相同,則返回分詞個數(shù)較少的分詞結果,若分詞個數(shù)相同,則返回詞長度大的分詞結果。
5.根據(jù)權利要求2或4所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,基于模糊識別算法從用戶搜索請求中提取實體,將用戶搜索請求的類型作為關系,得到待檢索三元組;在知識圖譜中搜索與所述待檢索三元組匹配的三元組,并計算信息相似度;將在知識圖譜中得到的三元組以及對應的相似度作為智能搜索結果返回給用戶。
6.根據(jù)權利要求2或4所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,所述根據(jù)分詞結果對用戶搜索請求進行分類包括:對分詞結果進行意識識別,得到用戶搜索請求的編碼以及目的,作為用戶搜索請求的類型。
7.根據(jù)權利要求1或2或3或4所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,所述步驟s1包括:分析電力數(shù)據(jù)數(shù)據(jù),利用淺層語義模型計算出電力數(shù)據(jù)實體具有層級關系的詞集,所述層級關系利用相似度表示,得到某一電力數(shù)據(jù)實體詞向量的相近詞集;將所述相近詞集進行分級,建立與所述詞向量相關的語義實時擴展聯(lián)想。
8.根據(jù)權利要求4所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,對分詞進行匹配時,若匹配成功,將該分詞從搜索請求中提??;若匹配失敗,則將匹配詞的長度-1再進行分詞,直到搜索請求中的所有單詞都被拆分。
9.根據(jù)權利要求1或2或3所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,索引結構使用鍵值數(shù)據(jù)庫存儲,以基于key的方式讀取。
10.根據(jù)權利要求7所述的一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法,其特征在于,將所述相近詞集進行分級包括:關鍵詞,根據(jù)關鍵詞利用預演模型計算得出的一級詞聯(lián)想,在一級詞聯(lián)想集合基礎上得到的二級詞聯(lián)想以及在二級詞聯(lián)想集合基礎上得到的三級詞聯(lián)想。