一種時間序列關聯(lián)的信息檢索方法【
技術領域:
】[0001]本發(fā)明涉及數(shù)據(jù)庫、數(shù)據(jù)挖掘、信息檢索等領域,尤其涉及時間序列數(shù)據(jù)分析和挖掘。【
背景技術:
】[0002]對于時間序列在文本數(shù)據(jù)庫中的主題信息檢索問題,目前還沒有公開的解決方法。盡管如此,工業(yè)界已經提出了針對時間序列與文本數(shù)據(jù)的聯(lián)合分析方法。比如,通過提取文本表達式概括時間序列,可以有效利用時間序列的結構化特征實現(xiàn)時間序列的相似性檢索;基于單詞動態(tài)時間變化性質的相似性分析,能夠在較大程度上改進語義相關詞匯的查找方法;另外,最新提出的方法通過使用基于詞匯時間動態(tài)性質計算的權重,可以很好地改進文本檢索的質量。但是,以上方法的缺陷在于它們無法實現(xiàn)詞匯的動態(tài)選擇,而導致查詢結果對不同時間序列查詢的針對性不強。[0003]另外一類最新的聯(lián)合分析方法是因果主題挖掘方法。該類方法基于概率主題模式,對與輸入時間序列有因果關系的文本主題自動建模。然而,該類方法具有復雜的參數(shù)評價過程,需要用戶具備一定的專家知識,這在實際應用中難以保證。[0004]在金融領域,基于文本數(shù)據(jù)(如新聞)的股票價格預測方法也被提出。該類方法的主要目標是從文本數(shù)據(jù)中查找具有預測意義的詞匯,并根據(jù)它們在出現(xiàn)最頻繁的時間段內對股票價格的影響進行標記,進而實現(xiàn)金融時間序列的預測。這類方法大多基于回歸和分類的初始化,難以用于解決時間序列在文本數(shù)據(jù)庫的相關主題查詢問題?!?br/>發(fā)明內容】[0005]本發(fā)明要解決的問題是如何以時間序列作為輸入,從文本數(shù)據(jù)庫查詢出與其相關的文本主題信息。為了解決該問題,本發(fā)明提出了時間序列關聯(lián)的信息檢索方法。[0006]本發(fā)明的目的是通過以下技術方案實現(xiàn)的:一種時間序列關聯(lián)的信息檢索方法,包括以下步驟:[0007](1)數(shù)據(jù)預處理,具體包括以下子步驟:[0008](1.1)依次讀取文本數(shù)據(jù)庫的每個文本文件d;[0009](1.2)除去文本文件d中所有停用詞,并以d的發(fā)布時間作為時間戳t對其標記;[0010](1.3)以時間戳t作為索引項,對文本數(shù)據(jù)庫構建B+-樹索引I;[0011](2)詞匯相關性度量,具體包括以下子步驟:[0012](2.1)按照查詢時間序列Q的時間戳順序,依次從索引I中查詢時間戳為&的文本集合Q,構造Q的相關文本集合C;[0013](2.2)對每個文本子集Ci統(tǒng)計詞頻分布,分別為各詞匯termj構造詞頻時間序列TF-Seque』;[0014](2.3)基于動態(tài)時間彎曲距離,分別計算各詞頻時間序列TF_SeqUej與查詢時間序列Q的相似度,作為相應詞匯ternij與Q的相關度term_corrj,并構造詞匯相關度表table;[0015](3)文本主題相關性度量,具體包括以下子步驟:[0016](3.1)查詢詞匯相關度表table,獲取屯中各詞匯與Q的相關度;根據(jù)詞匯相關度,對屯的所有詞匯按照由大到小的順序排列,保留前N個詞匯作為主題詞匯集S;計算S中所有詞匯相關度的平均值作為文本屯的主題相關度。[0017](3.2)根據(jù)文本主題相關度,對C的所有文本文件按照由大到小的順序排列,保留前k個文本作為查詢結果予以返回。[0018]進一步地,所述步驟2.2包括以下子步驟:[0019](2.2.1)分別計算(^中各詞匯tern^的出現(xiàn)次數(shù),并作為tern^在時間戳、的詞頻;[0020](2.2.2)將詞匯tern^在所有時間戳的詞頻依次相連,為其構造詞頻時間序列。[0021]進一步地,所述步驟2.3包括以下子步驟:[0022](2.3.1)初始化詞匯相關度表table,對查詢時間序列Q做z-規(guī)范化處理,得到Q'{(X1,ti),(X2,tg),???,(Xi,,???,(Xn,tn)};[0023](2.3.2)依次讀取相關文本集合C的每條詞頻時間序列TF_Sequej,并作z-規(guī)范化處理,得到TF_Seque'』={(TF,wt),(TF,2j,t2),???,(TF,nj,tn)};[0024](2.3.3)創(chuàng)建動態(tài)規(guī)劃表Tab并對其進行初始化;[0025](2.3.4)依次計算Q'的第1個元素值與TF_SeqUe'』的n個元素值之間的差的絕對值,并存入Tab第1行;[0026](2.3.5)依次計算TF_SeqUe'」的第1個元素值與Q'的n個元素值之間的差的絕對值,并存入Tab第1列;[0027](2.3.6)利用動態(tài)規(guī)劃方法,依次掃描Q'的第2到第n個元素值和TF_Seque'#勺第2到第n個元素值,計算Tab(2:n,2:n)的每個單元值,包括以下子步驟;[0028](2.3.6.1)順序掃描Q',依次計算其第i個元素值與TF_SeqUe'」的各元素值之差的絕對值;[0029](2.3.6.2)根據(jù)先行后列的順序掃描1&13(2:11,2:11),在每個單元1&匕(1,1)中,首先比較Tab(i-1,1)、Tab(i,1-1)和Tab(i-1,1-1)的大小,選擇最小值記為min,然后計算X'i_TF'u|+min的值賦予Table(i,1);[0030](2.3.7)對Tab(n,n)的值取倒數(shù),作為term」的詞匯相關度,加入詞匯相關度表table〇[0031]本發(fā)明的有益效果是:[0032]1、有效解決了時序數(shù)據(jù)與文本數(shù)據(jù)的交互查詢問題,基于文本主題信息為時間序列波動模式提供了合理的解釋,在時序數(shù)據(jù)與文本數(shù)據(jù)的聯(lián)合分析與挖掘任務中具有重要作用。[0033]2、在詞匯相關性度量步驟中,基于動態(tài)時間彎曲距離的度量方法,可有效克服詞頻時間序列與查詢時間序列在時間軸上的局部伸縮和相位偏移,從而充分考慮了時間序列波動模式與影響因素的因果關系。[0034]3、在文本主題相關度計算步驟中,只基于最相關的若干詞匯進行計算,保證了本發(fā)明對文本主題信息的敏感性及相關度判斷的準確性。【附圖說明】[0035]圖1為時間序列關聯(lián)的信息檢索方法流程圖;[0036]圖2基于動態(tài)時間彎曲距離計算詞匯相關度流程圖?!揪唧w實施方式】[0037]下面結合附圖對本發(fā)明作進一步詳細說明。[0038]如圖1所示,本發(fā)明一種時間序列關聯(lián)的信息檢索方法,包括以下步驟:當前第1頁1 2