一種基于平行坐標系的海量文件流轉可視化方法
【專利摘要】本發(fā)明專利涉及一種基于平行坐標系的海量文件流轉可視化方法。首先,對文件流轉數(shù)據(jù)進行預處理,轉換為中間表示;其次,將中間表示數(shù)據(jù)集轉換為虛擬坐標集合,作為平行坐標系的可視化數(shù)據(jù)源;然后,根據(jù)虛擬坐標集合繪制平行坐標系,平行坐標上的點表示單位,點與點之間的折線表示流轉關系;最后,根據(jù)數(shù)據(jù)特征或人機交互對平行坐標系的報送流程進行高亮顯示和過慮顯示;本發(fā)明的優(yōu)點是能夠支持海量文件報送的可視化管理,提高管理效率。
【專利說明】
-種基于平行坐標系的海量文件流轉可視化方法
技術領域
[0001] 本發(fā)明專利設及一種基于平行坐標系的海量文件流轉可視化方法。首先,對文件 流轉數(shù)據(jù)進行預處理,轉換為中間表示;其次,將中間表示數(shù)據(jù)集轉換為虛擬坐標集合,作 為平行坐標系的可視化數(shù)據(jù)源;然后,根據(jù)虛擬坐標集合繪制平行坐標系,平行坐標上的點 表示單位,點與點之間的折線表示流轉關系;最后,根據(jù)數(shù)據(jù)特征或人機交互對平行坐標系 的報送流程進行高亮顯示和過慮顯示;本發(fā)明的優(yōu)點是能夠支持海量文件報送的可視化管 理,提高管理效率。
【背景技術】
[0002] 數(shù)據(jù)可視化是利用人眼的感知能力對數(shù)據(jù)進行交互的可視化表達W增強認知的 技術,它將不可見或難W直接顯示的數(shù)據(jù)轉化為可感知的圖形、符號、顏色、紋理等,增強數(shù) 據(jù)識別效率,傳遞有效信息,其基本方法是將每一個數(shù)據(jù)項作為單個圖像元素表示,將大量 的數(shù)據(jù)集合構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值W多維數(shù)據(jù)的形式表示,可W從不同 的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。
[0003] 數(shù)據(jù)可視化分析是指在數(shù)據(jù)分析、數(shù)據(jù)挖掘時,利用支持信息可視化的用戶界面 W及支持分析過程的人機交互方式與技術,有效融合計算機的計算能力和人的認知能力, 獲得對于大規(guī)模數(shù)據(jù)集的桐察能力。
[0004] 隨著互聯(lián)網(wǎng)的快速發(fā)展和應用,政府部口和企事業(yè)單位部署了許多網(wǎng)上辦公系 統(tǒng),運些系統(tǒng)往往會產(chǎn)生海量文件,并在不同部口、不同單位之間進行流轉,運些海量文件 的流轉信息由于結構復雜、數(shù)據(jù)體量較大,難W依靠人來發(fā)現(xiàn)其中存在的規(guī)律,比如文件的 流向、文件的時間、文件處理的及時性等。為此,基于可視化技術將海量文件的流轉W可視 化方式展現(xiàn)出來具有較重要的意義,運有助于直觀的發(fā)現(xiàn)文件流轉過程中的規(guī)律性知識。
[0005] 平行坐標技術在90年代初由Inse化erg和Dimsdale提出的,它克服了傳統(tǒng)的笛卡 爾直角坐標系易耗盡空間、難W表達=維W上數(shù)據(jù)的難題,它將多維數(shù)據(jù)通過多條水平(或 者垂直)等距離的平行軸映射到二維平面上,每一條軸線代表一個屬性維,軸線上的取值范 圍從對應屬性的最小值到最大值均勻分布。運樣,每一個數(shù)據(jù)項都可W依據(jù)其屬性維度取 值而用一條跨越多調平行軸的折線段表示,相似的對象就具有相似的折現(xiàn)走向趨勢。平行 坐標系為分析多維數(shù)據(jù)提供了有效的可視化手段。
[0006] 國內(nèi)外許多學者和研究機構對平行坐標系可視化也進行了相關的研究。Gen等人 (IEEE Transaction on Visualization and Computer Graphics,2011)建立了一種具有 多角度的柱狀圖平行坐標,進行具體的量化分析和處理,表示某個維度屬性上的一個區(qū)域 內(nèi)的數(shù)量,W及支持用戶根據(jù)密度和角度進行多維分析,從而更直觀高效的展現(xiàn)數(shù)據(jù)在某 個維度上的分布特征;化hMyung-Hoe(Computational Statistics and Data Analysis, 2008)提出了一種增強的平行坐標圖,運種圖對變量進行最優(yōu)化重新排列,運些變量間的距 離是成比例的,并且把變量和數(shù)據(jù)點用光滑的曲線連接,此外,該文還提出了在平行坐標圖 中各變量軸間可W是非等間距的思想;Xu Yonghong化ecture Notes in Computer Science, 2007)提出了基于平行坐標及其優(yōu)化的平行篩可視化分類方法,該方法利用線性 判別進行子空間捜索,利用決策樹進行分類;Harri Sii;rtola(Interacting with Computers,2006)主要介紹了當前平行坐標瀏覽器的可交互技術,并在文字上比較了其可 視化設計思想。同時,研究了可視化平行坐標的直接可用性;Natsuhiko Kumasakaa (Computational Statistics and Data Analysis,2008)提出了一種基于平行坐標圖的新 的高維數(shù)據(jù)可視化方法一一紡織圖,它是在平行坐標圖的基礎上調整和設置坐標軸的刻 度,并同時選擇連接的線,用每一線代表一種屬性,使它們盡可能水平的排列。奮旭君(計算 機應用研究,2005)等提出了一種分層平行坐標對數(shù)據(jù)集進行分層顯示,克服當數(shù)據(jù)集很大 時顯示的數(shù)據(jù)層次混亂,并應用到聚類分析中;陳誼(系統(tǒng)仿真學報,2013)等人提出了一種 簡單、快捷的多視圖協(xié)同可視化方法,充分利用各種可視化技術的優(yōu)點,從不同的視角掲示 多維數(shù)據(jù),在平行坐標中嵌入直方圖等統(tǒng)計方法來解決局部可視化的缺陷。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要克服現(xiàn)有技術的上述特點,提供一種基于平行坐標系的海量文件流轉可 視化方法。
[0008] -種基于平行坐標系的海量文件流轉可視化方法,包括W下步驟:
[0009] (1)對海量文件流轉數(shù)據(jù)預處理;
[0010] 將海量文件、投遞單位、接受單位進行預處理,轉換為一個結構化數(shù)據(jù)集,該結構 化數(shù)據(jù)集所采用的數(shù)據(jù)結構可W表示為一個=元組:
[0011] Da1:aSubmision= (Fileld'FromDeptId'AcceptDeptId)
[0012] 其中:FileId表示流轉文件標識,F(xiàn)romDeptId表示流轉文件的投遞單位, AcceptDeptId表示流轉文件的接受單位;
[0013] (2)將結構化數(shù)據(jù)集轉換為中間表示數(shù)據(jù)集;
[0014] 對結構化數(shù)據(jù)集進行重組,W流轉文件標識為Key, W流轉文件的投遞單位和接受 單位為化Iue進行重組,可W表示為如下一個鍵值對列表:
[0015] !"611191)31:31 = <FileId,(FromD邱tId,Acc邱tD邱tid)〉
[0016] (3)對中間表示數(shù)據(jù)集進行重組;
[0017] (3.1) W流轉文件標識為Key,將K巧相同的化Iue值作為ValueLi St,構建鍵值對列 表并按照流轉Key從小到大進行排序,該表示如下:
[0018] !"611191)31:32 = (FileId)^lueLisO
[0019] 其中,F(xiàn)i IeId流轉文件標識,ValueLiSt= {(FYomDeptId)AcceptDeptId)}表示 Fi IeId相同的二元組列表集合;
[0020] (3.2)將鍵值對集合中文件流轉過程相同的Key進行合并,合并為流轉文件標識列 表K巧List,可表示為如下:
[0021 ] =
[0022] 其中,KeyLi St = {Fi leld}表示文件流轉過程相同的流轉文件標識列表, 化IueList表示文件流轉過程集合;
[0023] (4)將中間表示鍵值對集合中的化IueList轉換為一個虛擬坐標集合;
[0024] 遍歷中間表示鍵值對集合中的ValueList,將其轉換為相應平行坐標軸上的虛擬 坐標集合,該虛擬坐標集合對應平行坐標軸上面的虛擬坐標,表示如下:
[0025] VirDa1:a = <KeyList ,Vir 化 lueList〉
[0026] 其中:K巧List表示報送流程相同的文件列表,Vir化IueList=Ki,axisi) I i表示 坐標軸編號,axi SI表示該值在坐標軸i上的虛擬坐標};
[0027] (5)根據(jù)虛擬坐標軸集合繪制平行坐標系;
[00%] (5.1)設定平行坐標系坐標軸個數(shù)與軸距;
[0029] 根據(jù)虛擬坐標集合中VirValueList中坐標個數(shù)的最大值,設定為平行坐標軸的個 數(shù),然后根據(jù)對應分辨率設置平行坐標軸的軸距;
[0030] (5.2)將虛擬坐標集合映射為平行坐標系的物理坐標集合;
[0031] 將虛擬坐標集合Vir化IueList映射為平行坐標系的物理坐標集合。相應的物理坐 標中X坐標是根據(jù)虛擬坐標集合每個坐標點的第一個分量得到平行坐標系中相對應的X軸 所對應的X坐標,即Xi ;相應的物理坐標中Y坐標根據(jù)虛擬坐標集合的第二個分量設定平行 坐標系中在Xi軸對應的坐標點的Y坐標。由此可得到相應的物理坐標點(Xi,Y);
[0032] (5.3)畫出平行坐標系之間的折線;
[0033] 遍歷每個虛擬坐標集合中相應的物理坐標點(Xi,Y),連成對應的折線;
[0034] (6)對平行坐標系的報送流程進行高亮顯示和過慮顯示;
[0035] (6.1)根據(jù)數(shù)據(jù)特征高亮顯示平行坐標系中的可視化元素;
[0036] 根據(jù)文件數(shù)據(jù)特征,局部高亮顯示平行坐標系中的點與折線,W凸顯運些文件的 報送特征;
[0037] (6.2)根據(jù)用戶輸入過慮顯示平行坐標系中的可視化元素;
[0038] 采取人機交互方式,篩選出用戶感興趣的平行坐標系的可視化元素,W提高人機 交互式體驗。
[0039] 海量的文件的流轉數(shù)據(jù)具有結構復雜體量巨大、流向參差不齊等特點,為了分析 挖掘海量文件流轉數(shù)據(jù)中的規(guī)律性知識,本發(fā)明專利提供了一種基于平行坐標系的海量文 件流轉可視化方法,通過對流轉數(shù)據(jù)建模、流轉數(shù)據(jù)映射、流轉數(shù)據(jù)可視化、交互式分析等 手段提供了有效的可視化手段,運在大數(shù)據(jù)背景下分析海量文件的流轉特征具有重要的作 用。
[0040] 本發(fā)明的優(yōu)點主要表現(xiàn)是:本發(fā)明提出的可視化方法能夠對海量文件在不同部口 之間的流轉情況進行可視化管理,并結合文件特征、人機交互等對平行坐標系進行高亮顯 示和過慮顯示,提高管理效率和用戶體驗。
【附圖說明】
[0041 ]圖1.將虛擬坐標集合映射為平行坐標系的物理坐標集合
[0042] 圖2.根據(jù)物理坐標集合繪制相應平行坐標系中的折線
[0043] 圖3.基于平行坐標系的海量文件流轉可視化結果
[0044] 圖4.根據(jù)文件特征高亮顯示平行坐標系
[0045] 圖5.根據(jù)用戶輸入過慮顯示平行坐標系;
【具體實施方式】
[0046] 下面結合附圖,對本發(fā)明做進一步說明。
[0047] W表1所示的文件流轉數(shù)據(jù)集為例,W兩千份流轉文件為數(shù)據(jù)源,對本發(fā)明專利的 實施方式進行說明,步驟如下:
[0048] 表1文件流轉數(shù)據(jù)集
[0049]
[(K)加]注:n = 2000,m = 500分別為正整數(shù)
[0051] (1)對海量文件流轉數(shù)據(jù)預處理;
[0052] 將海量文件、投遞單位、接受單位進行預處理,轉換為一個結構化數(shù)據(jù)集,表1中的 文件流轉數(shù)據(jù)可W表示為如下=元組集合:
[0053] {(F1,D1,D2),(F1,D2,D3),(F1,D3,D4),(F2,D2,D3),
[0054] (F2,D3,D4),(F2,D4,D5),(F2,D5,D6),
[0化5] (F3,D3,D5),(F3,D5,D7),
[0化6] (F4,D3,D5),(F4,D5,D7)}
[0057] (2)將結構化數(shù)據(jù)集轉換為中間表示數(shù)據(jù)集;
[0058] 對結構化數(shù)據(jù)集進行重組,W流轉文件標識為Key, W流轉文件的投遞單位和接受 單位為化Iue進行重組,可表示為如下中間表示數(shù)據(jù)集:
[0059] KFl,(Dl,D2)>,<F1,(D2,D3)>,<F1,(D3,D4)>,
[0060] <F2,(D2,D3)〉,<F2,(D3,D4)〉,<F2,(D4,D5)〉,<F2,(D5,D6)〉,
[0061 ] <F3,(D3,D5)〉,<F3,(D5,D7)〉,
[0062] <F4,(D3,D5)〉,<F4,(D5,D7)〉}
[0063] (3)對中間表示數(shù)據(jù)集進行重組;
[0064] (3.1) W流轉文件標識為Key,將K巧相同的化Iue值作為ValueList,構建鍵值對列 表并按照流轉Key從小到大進行排序,得到:
[00化](<F1,{(D1,D2),(D2,D3),(D3,D4)}〉,
[0066] <F2,{(D2,D3),(D3,D4),(D4,D5),(D5,D6)}〉,
[0067] <F3,{(D3,D5),(D5,D7)}〉,
[006引 <F4,{(D3,D5),(D5,D7)}〉}
[0069] (3.2)將鍵值對集合中文件流轉過程相同的Key進行合并,合并為流轉文件標識列 表KeyList,得到:
[0070] (<{F1},{(D1,D2),(D2,D3),(D3,D4)}〉,
[0071] <{F2},{(D2,D3),(D3,D4),(D4,D5),(D5,D6)}〉,
[0072] <{F3,F(xiàn)4},{(D3,D5),(D5,D7)}〉}
[0073] (4)將中間表示鍵值對集合中的化IueList轉換為一個虛擬坐標集合;
[0074] 遍歷中間表示鍵值對集合中的ValueList,將其轉換為相應平行坐標軸上的虛擬 坐標集合Vir化IueList,該集合對應平行坐標軸上面的虛擬坐標,得到:
[0075] {<{F1M(1,D1),(2,D2),(3,D3),(4,D4)}〉
[0076] <{F2},{(1,D2),(2,D3),(3,D4),(4,D5),(5,D6)}>
[0077] <{F3,F(xiàn)4},{(1,D3)(2,D5),(3,D7)}〉}
[0078] (5)根據(jù)虛擬坐標軸集合繪制平行坐標系;
[0079] (5.1)設定平行坐標系坐標軸個數(shù)與軸距;
[0080] 根據(jù)虛擬坐標集合中VirValueList中坐標個數(shù)的最大值,目陽2文件報送流程中虛 擬坐標集合中坐標個數(shù)5設定平行坐標軸的個數(shù),包括X1、X2、X3、X4、X5,然后根據(jù)對應分辨 率設置平行坐標軸的軸距;
[0081] (5.2)將虛擬坐標集合映射為平行坐標系的物理坐標集合;
[0082] 將虛擬坐標集合Vir化IueList映射為平行坐標系的物理坐標集合。相應的物理坐 標中X坐標是根據(jù)虛擬坐標集合每個坐標點的第一個分量得到平行坐標系中相對應的X軸 所對應的X坐標,即Xi ;相應的物理坐標中Y坐標根據(jù)虛擬坐標集合的第二個分量設定平行 坐標系中在Xi軸對應的坐標點的Y坐標。W< {F1},{(1,Dl),(2,D2),(3,D3),(4,D4)}〉為例, 得到相應的物理坐標點,如圖1所示;
[0083] (5.3)畫出平行坐標系之間的折線;
[0084] 遍歷每個虛擬坐標集合中相應的物理坐標點,連成對應的折線,如圖2所示,海量 流轉文件流轉的平行坐標可視化結果如圖3所示;
[0085] (6)對平行坐標系的報送流程進行高亮顯示和過慮顯示;
[0086] (6.1)根據(jù)數(shù)據(jù)特征高亮顯示平行坐標系中的可視化元素;
[0087] 根據(jù)文件的報送時間段,高亮顯示平行坐標系中的點與折線,W凸顯運些文件在 整體報送中的報送特征,如圖4所示;
[0088] (6.2)根據(jù)用戶輸入過慮顯示平行坐標系中的可視化元素;
[0089] 采取人機交互方式,篩選出接收單位是D1、D2、D3的文件報送情況,顯示結果如圖5 所示。
【主權項】
1. 一種基于平行坐標系的海量文件流轉可視化方法,包括以下步驟: (1) 對海量文件流轉數(shù)據(jù)預處理; 將海量文件、投遞單位、接受單位進行預處理,轉換為一個結構化數(shù)據(jù)集,該結構化數(shù) 據(jù)集所采用的數(shù)據(jù)結構可以表示為一個三元組: DataSubmision=(FileId,F(xiàn)romDeptId,AcceptDeptId) 其中:?;1161(1表示流轉文件標識,?1'〇111〇6。1:1(1表示流轉文件的投遞單位,4〇〇6。丨〇6口1:1(1 表示流轉文件的接受單位; (2) 將結構化數(shù)據(jù)集轉換為中間表示數(shù)據(jù)集; 對結構化數(shù)據(jù)集進行重組,以流轉文件標識為Key,以流轉文件的投遞單位和接受單位 為Value進行重組,可以表示為如下一個鍵值對列表: TempDatal=〈FileId,(FromDeptId,AcceptDeptId)> (3) 對中間表示數(shù)據(jù)集進行重組; (3.1) 以流轉文件標識為Key,將Key相同的Value值作為ValueList,構建鍵值對列表并 按照流轉Key從小到大進行排序,該表示如下: TempData2 =〈FileId,ValueList> 其中,F(xiàn)ile Id流轉文件標識,ValueList ={ (FromDeptlcUAcceptDeptld)}表不File Id 相同的二元組列表集合; (3.2) 將鍵值對集合中文件流轉過程相同的Key進行合并,合并為流轉文件標識列表 KeyList,可表示為如下: TempData3 =〈KeyList,ValueList> 其中,KeyList= {Fileld}表示文件流轉過程相同的流轉文件標識列表,ValueList表 示文件流轉過程集合; (4) 將中間表示鍵值對集合中的ValueList轉換為一個虛擬坐標集合; 遍歷中間表示鍵值對集合中的ValueList,將其轉換為相應平行坐標軸上的虛擬坐標 集合,該虛擬坐標集合對應平行坐標軸上面的虛擬坐標,表示如下: VirData = <KeyList ,VirValueList> 其中:KeyList表示報送流程相同的文件列表,VirValueList={(i,axisI) I i表示坐標 軸編號,axi s I表示該值在坐標軸i上的虛擬坐標}; (5) 根據(jù)虛擬坐標軸集合繪制平行坐標系; (5.1) 設定平行坐標系坐標軸個數(shù)與軸距; 根據(jù)虛擬坐標集合中VirValueLi st中坐標個數(shù)的最大值,設定為平行坐標軸的個數(shù), 然后根據(jù)對應分辨率設置平行坐標軸的軸距; (5.2) 將虛擬坐標集合映射為平行坐標系的物理坐標集合; 將虛擬坐標集合VirValueList映射為平行坐標系的物理坐標集合。相應的物理坐標中 X坐標是根據(jù)虛擬坐標集合每個坐標點的第一個分量得到平行坐標系中相對應的X軸所對 應的X坐標,即Xi ;相應的物理坐標中Y坐標根據(jù)虛擬坐標集合的第二個分量設定平行坐標 系中在Xi軸對應的坐標點的Y坐標。由此可得到相應的物理坐標點(Xi,Y); (5.3) 畫出平行坐標系之間的折線; 遍歷每個虛擬坐標集合中相應的物理坐標點(Xi,Y),連成對應的折線; (6)對平行坐標系的報送流程進行高亮顯示和過慮顯示; (6.1) 根據(jù)數(shù)據(jù)特征高亮顯示平行坐標系中的可視化元素; 根據(jù)文件數(shù)據(jù)特征,局部高亮顯示平行坐標系中的點與折線,以凸顯這些文件的報送 特征; (6.2) 根據(jù)用戶輸入過慮顯示平行坐標系中的可視化元素; 采取人機交互方式,篩選出用戶感興趣的平行坐標系的可視化元素,以提高人機交互 式體驗。
【文檔編號】G06Q10/06GK106021529SQ201610354920
【公開日】2016年10月12日
【申請日】2016年5月25日
【發(fā)明人】張元鳴, 高亞琳, 肖剛, 陸佳煒, 徐俊, 葉成龍
【申請人】浙江工業(yè)大學