所屬的技術(shù)人員能夠理解,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“平臺”。本發(fā)明再一個實施例中,提供一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源系統(tǒng),該系統(tǒng)能夠用于實現(xiàn)上述時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法,具體的,該時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源系統(tǒng)包括數(shù)據(jù)模塊、構(gòu)建模塊、編碼模塊、訓(xùn)練模塊以及溯源模塊。其中,數(shù)據(jù)模塊,獲取患者時空軌跡數(shù)據(jù)并進(jìn)行清洗和預(yù)處理,得到預(yù)處理后的患者時空軌跡數(shù)據(jù)集;構(gòu)建模塊,基于高中低三等級風(fēng)險劃分制度和傳染理論,為高風(fēng)險省份構(gòu)建理論傳播鏈;編碼模塊,使用多種編碼方式將患者時空軌跡數(shù)據(jù)集編碼為患者特征;訓(xùn)練模塊,基于構(gòu)建的理論傳播鏈和編碼得到的患者特征,使用構(gòu)建正負(fù)樣本的無監(jiān)督學(xué)習(xí)方式為高風(fēng)險省份訓(xùn)練溯源模型;溯源模塊,加載訓(xùn)練好的溯源模型,將溯源模型學(xué)習(xí)到的包含傳播模式信息的節(jié)點表示能力遷移到另一個相關(guān)高風(fēng)險省份,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建。本發(fā)明再一個實施例中,提供了一種終端設(shè)備,該終端設(shè)備包括處理器以及存儲器,所述存儲器用于存儲計算機程序,所述計算機程序包括程序指令,所述處理器用于執(zhí)行所述計算機存儲介質(zhì)存儲的程序指令。處理器可能是中央處理單元(central?processingunit,cpu),還可以是其他通用處理器、數(shù)字信號處理器(digital?signal?processor、dsp)、專用集成電路(application?specific?integrated?circuit,asic)、現(xiàn)成可編程門陣列(field-programmable?gate?array,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等,其是終端的計算核心以及控制核心,其適于實現(xiàn)一條或一條以上指令,具體適于加載并執(zhí)行一條或一條以上指令從而實現(xiàn)相應(yīng)方法流程或相應(yīng)功能;本發(fā)明實施例所述的處理器可以用于時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法的操作,包括:獲取患者時空軌跡數(shù)據(jù)并進(jìn)行清洗和預(yù)處理,得到預(yù)處理后的患者時空軌跡數(shù)據(jù)集;基于高中低三等級風(fēng)險劃分制度和傳染理論,為高風(fēng)險省份構(gòu)建理論傳播鏈;使用多種編碼方式將患者時空軌跡數(shù)據(jù)集編碼為患者特征;基于構(gòu)建的理論傳播鏈和編碼得到的患者特征,使用構(gòu)建正負(fù)樣本的無監(jiān)督學(xué)習(xí)方式為高風(fēng)險省份訓(xùn)練溯源模型;加載訓(xùn)練好的溯源模型,將溯源模型學(xué)習(xí)到的包含傳播模式信息的節(jié)點表示能力遷移到另一個相關(guān)高風(fēng)險省份,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建。本發(fā)明再一個實施例中,本發(fā)明還提供了一種存儲介質(zhì),具體為計算機可讀存儲介質(zhì)(memory),所述計算機可讀存儲介質(zhì)是終端設(shè)備中的記憶設(shè)備,用于存放程序和數(shù)據(jù)。可以理解的是,此處的計算機可讀存儲介質(zhì)既可以包括終端設(shè)備中的內(nèi)置存儲介質(zhì),當(dāng)然也可以包括終端設(shè)備所支持的擴展存儲介質(zhì),可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。計算機可讀存儲介質(zhì)提供存儲空間,該存儲空間存儲了終端的操作系統(tǒng)。并且,在該存儲空間中還存放了適于被處理器加載并執(zhí)行的一條或一條以上的指令,這些指令可以是一個或一個以上的計算機程序(包括程序代碼)。需要說明的是,此處的計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任一合適的組合。計算機可讀存儲介質(zhì)還包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任一合適的組合??勺x存儲介質(zhì)還可以是可讀存儲介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。可讀存儲介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任一合適的組合??梢砸砸环N或多種程序設(shè)計語言的任一組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算設(shè)備上執(zhí)行、部分地在用戶設(shè)備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設(shè)備上部分在遠(yuǎn)程計算設(shè)備上執(zhí)行、或者完全在遠(yuǎn)程計算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算設(shè)備的情形中,遠(yuǎn)程計算設(shè)備可以通過任一種類的網(wǎng)絡(luò),包括局域網(wǎng)(lan)或廣域網(wǎng)(wan),連接到用戶計算設(shè)備,或者,可以連接到外部計算設(shè)備(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。可由處理器加載并執(zhí)行計算機可讀存儲介質(zhì)中存放的一條或一條以上指令,以實現(xiàn)上述實施例中有關(guān)時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法的相應(yīng)步驟;計算機可讀存儲介質(zhì)中的一條或一條以上指令由處理器加載并執(zhí)行如下步驟:獲取患者時空軌跡數(shù)據(jù)并進(jìn)行清洗和預(yù)處理,得到預(yù)處理后的患者時空軌跡數(shù)據(jù)集;基于高中低三等級風(fēng)險劃分制度和傳染理論,為高風(fēng)險省份構(gòu)建理論傳播鏈;使用多種編碼方式將患者時空軌跡數(shù)據(jù)集編碼為患者特征;基于構(gòu)建的理論傳播鏈和編碼得到的患者特征,使用構(gòu)建正負(fù)樣本的無監(jiān)督學(xué)習(xí)方式為高風(fēng)險省份訓(xùn)練溯源模型;加載訓(xùn)練好的溯源模型,將溯源模型學(xué)習(xí)到的包含傳播模式信息的節(jié)點表示能力遷移到另一個相關(guān)高風(fēng)險省份,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建。請參閱圖4,終端設(shè)備為計算機設(shè)備,該實施例的計算機設(shè)備60包括:處理器61、存儲器62以及存儲在存儲器62中并可在處理器61上運行的計算機程序63,該計算機程序63被處理器61執(zhí)行時實現(xiàn)實施例中的時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法,為避免重復(fù),此處不一一贅述?;蛘?,該計算機程序63被處理器61執(zhí)行時實現(xiàn)實施例時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源系統(tǒng)中各模型/單元的功能,為避免重復(fù),此處不一一贅述。計算機設(shè)備60可以是桌上型計算機、筆記本、掌上電腦及云端服務(wù)器等計算設(shè)備。計算機設(shè)備60可包括,但不僅限于,處理器61、存儲器62。本領(lǐng)域技術(shù)人員可以理解,圖4僅僅是計算機設(shè)備60的示例,并不構(gòu)成對計算機設(shè)備60的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如計算機設(shè)備還可以包括輸入輸出設(shè)備、網(wǎng)絡(luò)接入設(shè)備、總線等。所稱處理器61可以是中央處理單元(central?processing?unit,cpu),還可以是其它通用處理器、中央處理器、圖形處理器、數(shù)字信號處理器(digital?signal?processor,dsp)、專用集成電路(application?specific?integrated?circuit,asic)、現(xiàn)場可編程門陣列(field-programmable?gate?array,fpga)或者其它可編程邏輯器件、分立門或者晶體管邏輯器件、基于量子計算的數(shù)據(jù)處理邏輯器、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。存儲器62可以是計算機設(shè)備60的內(nèi)部存儲單元,例如計算機設(shè)備60的硬盤或內(nèi)存。存儲器62也可以是計算機設(shè)備60的外部存儲設(shè)備,例如計算機設(shè)備60上配備的插接式硬盤,智能存儲卡(smart?media?card,smc),安全數(shù)字(secure?digital,sd)卡,閃存卡(flash?card)等。進(jìn)一步地,存儲器62還可以既包括計算機設(shè)備60的內(nèi)部存儲單元也包括外部存儲設(shè)備。存儲器62用于存儲計算機程序以及計算機設(shè)備所需的其它程序和數(shù)據(jù)。存儲器62還可以用于暫時地存儲已經(jīng)輸出或者將要輸出的數(shù)據(jù)。本技術(shù)所提供的各實施例中所使用的對存儲器、數(shù)據(jù)庫或其它介質(zhì)的任何引用,均可包括非易失性和易失性存儲器中的至少一種。非易失性存儲器可包括只讀存儲器(read-only?memory,rom)、磁帶、軟盤、閃存、光存儲器、高密度嵌入式非易失性存儲器、阻變存儲器(reram)、磁變存儲器(magnetoresistive?random?access?memory,mram)、鐵電存儲器(ferroelectric?random?access?memory,fram)、相變存儲器(phase?change?memory,pcm)、石墨烯存儲器等。易失性存儲器可包括隨機存取存儲器(random?access?memory,ram)或外部高速緩沖存儲器等。作為說明而非局限,ram可以是多種形式,比如靜態(tài)隨機存取存儲器(static?random?access?memory,sram)或動態(tài)隨機存取存儲器(dynamic?randomaccess?memory,dram)等。本技術(shù)所提供的各實施例中所涉及的數(shù)據(jù)庫可包括關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫中至少一種。非關(guān)系型數(shù)據(jù)庫可包括基于區(qū)塊鏈的分布式數(shù)據(jù)庫等,不限于此。本技術(shù)所提供的各實施例中所涉及的處理器可為通用處理器、中央處理器、圖形處理器、數(shù)字信號處理器、可編程邏輯器、基于量子計算的數(shù)據(jù)處理邏輯器等,不限于此。請參閱圖5,終端設(shè)備600為電子設(shè)備,電子設(shè)備以通用計算設(shè)備的形式表現(xiàn)。電子設(shè)備的組件可以包括但不限于:至少一個處理單元610、至少一個存儲單元620、連接不同平臺組件(包括存儲單元620和處理單元610)的總線630、顯示單元640等。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元610執(zhí)行,使得處理單元610執(zhí)行本說明書上述方法部分中描述的根據(jù)本發(fā)明各種示例性實施方式的步驟。例如,處理單元610可以執(zhí)行如圖1中所示的步驟。存儲單元620可以包括易失性存儲單元形式的可讀介質(zhì),例如隨機存取存儲單元(ram)6201和/或高速緩存存儲單元6202,還可以進(jìn)一步包括只讀存儲單元(rom)6203。存儲單元620還可以包括具有一組(至少一個)程序模塊6205的程序/實用工具6204,這樣的程序模塊6205包括但不限于:操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)??偩€630可以為表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結(jié)構(gòu)中的任一總線結(jié)構(gòu)的局域總線。電子設(shè)備600也可以與一個或多個外部設(shè)備700(例如鍵盤、指向設(shè)備、藍(lán)牙設(shè)備等)通信,還可與一個或者多個使得用戶能與該電子設(shè)備600交互的設(shè)備通信,和/或與使得該電子設(shè)備600能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如路由器、調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口650進(jìn)行。并且,電子設(shè)備600還可以通過網(wǎng)絡(luò)適配器660與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。網(wǎng)絡(luò)適配器660可以通過總線630與電子設(shè)備600的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合電子設(shè)備600使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲平臺等。為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中的描述和所示的本發(fā)明實施例的組件可以通過各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。實驗環(huán)境及參數(shù)設(shè)置:使用python語言編寫。在windows11系統(tǒng)、cuda?11.6版、pytorch?2.2.0版、python3.9版和nvidia?geforce?rtx?3050ti下運行。使用adam優(yōu)化器對檢測方法進(jìn)行了200個epoch訓(xùn)練,學(xué)習(xí)率為0.01,自編碼器隱藏層單元為128,輸出維度為8,圖神經(jīng)網(wǎng)絡(luò)隱藏層單元為100,輸出維度為8。評估指標(biāo):通過損失判斷模型擬合的效果,損失越低模型訓(xùn)練效果越好,損失趨于穩(wěn)定即可結(jié)束模型訓(xùn)練。表4:局部實驗結(jié)果表5:子鏈患者的局部信息實驗結(jié)果:本發(fā)明在患者時空軌跡數(shù)據(jù)的基礎(chǔ)上,標(biāo)記傳播組,訓(xùn)練溯源模型,構(gòu)建傳播鏈,自動生成模式更具多樣化的病毒傳播鏈。表4給出了河南省利用溯源模型生成的實驗結(jié)果的局部子鏈,表5給出了子鏈中患者的局部信息。實驗表明時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播與溯源方法的有效性。綜上所述,本發(fā)明一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法及系統(tǒng),提出一個可以面向大規(guī)?;颊邤?shù)據(jù)的具有可擴展性和傳播模式多樣性的病毒傳播鏈自動構(gòu)建模型;該模型利用患者時空軌跡數(shù)據(jù)中的移動軌跡信息、病毒接觸情況和臨床癥狀分別從人際傳播角度、交通傳播角度和事件傳播角度構(gòu)建符合傳染理論的設(shè)定傳播鏈。并基于編碼后的患者特征,為高風(fēng)險省份訓(xùn)練出一個先利用自編碼器降維患者特征為更具代表性的特征嵌入,后利用sageconv圖卷積模塊挖掘數(shù)據(jù)潛在傳播模式的溯源模型;進(jìn)一步地,相關(guān)高風(fēng)險省份利用訓(xùn)練好的溯源模型,將模型學(xué)習(xí)到的傳播模式和節(jié)點特征表示能力遷移至本地省份中應(yīng)用,自動生成基于傳染理論的具有多種傳播模式的病毒傳播鏈。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元、模塊完成,即將所述裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。另外,各功能單元、模塊的具體名稱也只是為了便于相互區(qū)分,并不用于限制本技術(shù)的保護(hù)范圍。上述系統(tǒng)中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述或記載的部分,可以參見其它實施例的相關(guān)描述。本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本發(fā)明中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。在本發(fā)明所提供的實施例中,應(yīng)該理解到,所揭露的裝置/終端和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置/終端實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。以上內(nèi)容僅為說明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護(hù)范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動,均落入本發(fā)明權(quán)利要求書的保護(hù)范圍之內(nèi)。
背景技術(shù):
1、在病毒傳播防控和公共衛(wèi)生研究領(lǐng)域中,經(jīng)常需要面向省市范圍快速準(zhǔn)確地了解病毒傳播的傳播模式、關(guān)鍵路徑和核心源頭,并基于分析研究結(jié)果劃分傳播風(fēng)險等級地區(qū)和人群,制定具有針對性的防控措施與政策。然而,面向海量高維的患者時空軌跡數(shù)據(jù)高效構(gòu)建符合真實情況的病毒傳播鏈需要具備特定專業(yè)知識與數(shù)據(jù)分析能力的專家人力和時間成本,對于大多數(shù)地方政府和衛(wèi)生防控部門來說是一項沉重的任務(wù)。大多數(shù)基于人工篩查與分析方式構(gòu)建的時空軌跡病毒傳播鏈通常存在時效性差、可擴展性弱的問題,其中包括因人工排查需要耗費大量時間導(dǎo)致的傳播鏈構(gòu)建速度難以匹配病毒傳播擴散速度和傳播模式改變的問題。此外,專家人力難以支撐患者的傳播擴散數(shù)量出現(xiàn)指數(shù)級增長的情況。因此,開發(fā)一種能夠利用神經(jīng)網(wǎng)絡(luò)高效處理省份級別數(shù)據(jù)規(guī)模、挖掘患者數(shù)據(jù)間潛在傳播特點、自動構(gòu)建多傳播模式病毒傳播鏈的傳播鏈生成方法對于開展大數(shù)據(jù)支撐下的病毒傳播模式研究、監(jiān)測高風(fēng)險地區(qū)病毒發(fā)展變化和加強衛(wèi)生防控工作具有重要意義。
2、傳統(tǒng)的病毒傳播鏈構(gòu)建方法主要依賴于專家知識或固定傳播模式,缺乏時效性和靈活性。這些方法通常無法適應(yīng)病毒的大規(guī)模爆發(fā)和病毒擴散發(fā)展的需求,而且難以自動生成具有多傳播模式的病毒傳播鏈條。此外,這些方法無法充分挖掘各級衛(wèi)生防控部門收集的大量患者時空軌跡數(shù)據(jù)中的潛在數(shù)據(jù)特征,無法捕捉患者數(shù)據(jù)之間的關(guān)聯(lián)性和傳播模式信息,導(dǎo)致構(gòu)建出的病毒傳播鏈不具有可擴展性和與實際情況的一致性。
3、具體而言,病毒的時空軌跡傳播鏈構(gòu)建任務(wù)主要存在兩個難點。
4、第一,患者時空軌跡數(shù)據(jù)量大、維度高,導(dǎo)致采用人工方法難以快速生成具有一定時效性的病毒傳播鏈。
5、第二,患者時空軌跡數(shù)據(jù)中包含大量與當(dāng)前病毒傳播情況具有高度關(guān)聯(lián)性的傳播模式特點。
6、因此,如何根據(jù)患者數(shù)據(jù)自動生成真實且具有多傳播模式的病毒傳播鏈?zhǔn)钱?dāng)前研究的一個關(guān)鍵方向。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于針對上述現(xiàn)有技術(shù)中的不足,提供一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法及系統(tǒng),用于解決現(xiàn)有方法時效性差、可擴展性弱,無法應(yīng)對大規(guī)模患者數(shù)據(jù)以及多傳播模式的構(gòu)建難題的技術(shù)問題,實現(xiàn)患者時空軌跡數(shù)據(jù)的自動處理、病毒傳播鏈的自動化生成,實現(xiàn)傳播鏈的生成速度和傳播擴散速度的最大化匹配。
2、本發(fā)明采用以下技術(shù)方案:
3、一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法,包括以下步驟:
4、獲取患者時空軌跡數(shù)據(jù)并進(jìn)行清洗和預(yù)處理,得到預(yù)處理后的患者時空軌跡數(shù)據(jù)集;
5、基于高中低三等級風(fēng)險劃分制度和傳染理論,為高風(fēng)險省份構(gòu)建理論傳播鏈;
6、使用多種編碼方式將得到的患者時空軌跡數(shù)據(jù)集編碼為患者特征;
7、基于構(gòu)建的理論傳播鏈和編碼得到的患者特征,使用構(gòu)建正負(fù)樣本的無監(jiān)督學(xué)習(xí)方式為高風(fēng)險省份訓(xùn)練溯源模型;
8、加載訓(xùn)練好的溯源模型,將溯源模型學(xué)習(xí)到的包含傳播模式信息的節(jié)點表示能力遷移到另一個相關(guān)高風(fēng)險省份,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建。
9、優(yōu)選地,預(yù)處理后的患者時空軌跡數(shù)據(jù)集具體為:
10、獲得全國范圍內(nèi)的多個監(jiān)測站點以及各地方衛(wèi)生部門記錄的患者數(shù)據(jù),包括患者的人口統(tǒng)計信息,移動軌跡信息,病毒接觸情況、流行病學(xué)時間線和臨床癥狀;
11、根據(jù)官方指定門戶網(wǎng)站收集到全國各個省份為期一年半的患者時空軌跡數(shù)據(jù)并進(jìn)行清洗。
12、優(yōu)選地,清洗具體為:
13、分析屬性列的信息含義,刪除傳達(dá)重復(fù)信息或與傳播鏈構(gòu)建任務(wù)關(guān)聯(lián)度最低的屬性列;
14、對各個屬性列的數(shù)值進(jìn)行分析,去除缺失值總數(shù)占比超過患者總?cè)藬?shù)70%的無效屬性列;
15、分析數(shù)據(jù)行信息,刪除包含錯誤信息的無效數(shù)據(jù)行,修改或去除引入噪聲的不準(zhǔn)確數(shù)據(jù),篩選并刪除信息不完整的數(shù)據(jù)行;
16、將清洗和預(yù)處理后的患者時空軌跡數(shù)據(jù)存儲起來。
17、優(yōu)選地,為高風(fēng)險省份構(gòu)建理論傳播鏈具體為:
18、對于每個交通傳播組,分析其成員之間的人際傳播組關(guān)系,將組內(nèi)包含的所有人際傳播組的所有人際傳播組成員與現(xiàn)有交通傳播組成員合并,擴展現(xiàn)有的交通傳播組成員,并將擴展后的交通傳播組標(biāo)記為一條傳播鏈;
19、對于每個事件傳播組,分析其成員之間的人際傳播組關(guān)系,將組內(nèi)包含的所有人際傳播組的所有人際傳播組成員與現(xiàn)有事件傳播組成員合并,擴展現(xiàn)有的事件傳播組成員,并將擴展后的事件傳播組標(biāo)記為一條傳播鏈;
20、對于未構(gòu)造傳播鏈的患者,如果存在患者屬于同一人際傳播組,則將其標(biāo)記為同一條傳播鏈。
21、優(yōu)選地,對當(dāng)前高風(fēng)險省份患者進(jìn)行傳播組標(biāo)記具體如下:
22、將患者病毒接觸情況當(dāng)中人際接觸關(guān)系和臨床癥狀當(dāng)中病毒類型相同的患者標(biāo)記為一組人際傳播組;
23、將患者移動軌跡信息當(dāng)中目的地、到達(dá)時間和臨床癥狀當(dāng)中病毒類型相同的患者標(biāo)記為一組交通傳播組;
24、將患者病毒接觸情況當(dāng)中活動地點和臨床癥狀當(dāng)中病毒類型相同的患者標(biāo)記為一組事件傳播組。
25、優(yōu)選地,對于每一條標(biāo)記的傳播鏈,具體操作如下:
26、根據(jù)患者病毒接觸情況中的人際接觸關(guān)系構(gòu)建患者連邊,并根據(jù)患者病毒接觸情況中的可能接觸病毒時間確定連邊方向,即起始節(jié)點的可能接觸病毒時間要晚于終止節(jié)點。
27、將剩余未連接的患者節(jié)點與已連接的終止節(jié)點根據(jù)可能接觸病毒時間進(jìn)行排序,遵循起始節(jié)點的可能接觸病毒時間要晚于終止節(jié)點(的原則,按照排序結(jié)果為患者構(gòu)造有向邊。
28、將當(dāng)前省份包含的所有傳播鏈構(gòu)造的所有有向邊以txt格式存儲。
29、優(yōu)選地,使用多種編碼方式將患者時空軌跡數(shù)據(jù)編碼為患者特征具體為:
30、根據(jù)患者數(shù)據(jù)中不同屬性的數(shù)值特點,使用獨熱編碼方式對人口統(tǒng)計信息當(dāng)中的性別、臨床癥狀當(dāng)中的病毒類型和嚴(yán)重程度屬性進(jìn)行編碼;
31、使用標(biāo)簽編碼方式對人口統(tǒng)計信息當(dāng)中的省份和城市、移動軌跡信息當(dāng)中的出發(fā)地和目的地、病毒接觸情況當(dāng)中的活動地點屬性進(jìn)行編碼;
32、使用哈希編碼方式對病毒接觸情況中的人際接觸關(guān)系屬性進(jìn)行編碼;
33、使用時間戳編碼方式對移動軌跡信息當(dāng)中的到達(dá)時間、病毒接觸情況當(dāng)中的可能接觸病毒時間、流行病學(xué)時間線當(dāng)中首次出現(xiàn)癥狀時間和確診時間屬性進(jìn)行編碼。
34、優(yōu)選地,溯源模型為多層圖神經(jīng)網(wǎng)絡(luò),包括一個自編碼器和一個由多個sageconv圖卷積模塊構(gòu)建的多層圖神經(jīng)網(wǎng)絡(luò),并具有生成節(jié)點特征嵌入能力的鏈路預(yù)測模型,使用開源的深度學(xué)習(xí)庫pytorch訓(xùn)練溯源模型。
35、優(yōu)選地,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建具體為:
36、采用點積計算的方法為當(dāng)前高風(fēng)險省份包含的所有患者關(guān)系計算其節(jié)點嵌入相似性,并與預(yù)先設(shè)定的傳播閾值進(jìn)行比較;設(shè)置傳播閾值θ=0,如果相似性計算結(jié)果低于預(yù)先設(shè)定的傳播閾值θ,兩個患者之間不存在傳播關(guān)系;如果相似性計算結(jié)果高于設(shè)定的傳播閾值θ,兩個患者之間存在傳播關(guān)系,并根據(jù)患者病毒接觸情況當(dāng)中的可能接觸病毒時間確定患者間的傳播方向,遵循被傳染者的可能接觸病毒時間晚于傳染者的原則。
37、第二方面,本發(fā)明實施例提供了一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源系統(tǒng),包括:
38、數(shù)據(jù)模塊,獲取患者時空軌跡數(shù)據(jù)并進(jìn)行清洗和預(yù)處理,得到預(yù)處理后的患者時空軌跡數(shù)據(jù)集;
39、構(gòu)建模塊,基于高中低三等級風(fēng)險劃分制度和傳染理論,為高風(fēng)險省份構(gòu)建理論傳播鏈;
40、編碼模塊,使用多種編碼方式將患者時空軌跡數(shù)據(jù)集編碼為患者特征;
41、訓(xùn)練模塊,基于構(gòu)建的理論傳播鏈和編碼得到的患者特征,使用構(gòu)建正負(fù)樣本的無監(jiān)督學(xué)習(xí)方式為高風(fēng)險省份訓(xùn)練溯源模型;
42、溯源模塊,加載訓(xùn)練好的溯源模型,將溯源模型學(xué)習(xí)到的包含傳播模式信息的節(jié)點表示能力遷移到另一個相關(guān)高風(fēng)險省份,利用計算節(jié)點相似性實現(xiàn)相關(guān)高風(fēng)險省份的傳播鏈構(gòu)建。
43、第三方面,一種計算機設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法的步驟。
44、第四方面,本發(fā)明實施例提供了一種計算機可讀存儲介質(zhì),包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法的步驟。
45、與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果:
46、一種時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法,首先對患者時空軌跡數(shù)據(jù)進(jìn)行清洗和預(yù)處理;然后通過高中低三等級劃分制度和傳染理論為高風(fēng)險省份構(gòu)建假定病毒傳播鏈,并將預(yù)處理過的患者時空軌跡數(shù)據(jù)編碼為患者特征;之后基于構(gòu)建的理論傳播鏈和編碼的患者特征,為全國高風(fēng)險省份訓(xùn)練溯源模型;最后利用傳播鏈知識遷移的方式,將從當(dāng)前高風(fēng)險省份傳播鏈數(shù)據(jù)集中學(xué)習(xí)到的傳播模式遷移到另一個相關(guān)的高風(fēng)險省份的傳播鏈構(gòu)建任務(wù)中;學(xué)習(xí)相關(guān)高風(fēng)險省份的節(jié)點特征嵌入,通過點積計算為其構(gòu)建病毒傳播鏈;本發(fā)明生成的病毒傳播鏈與真實情況高度符合,同時具有可擴展性和傳播模式多樣性。
47、進(jìn)一步的,患者時空軌跡數(shù)據(jù)集的設(shè)置基于大數(shù)據(jù)分析的基本原理,即數(shù)據(jù)量的廣度和深度決定了模型的學(xué)習(xí)能力和分析結(jié)果的準(zhǔn)確性。通過從多個來源收集患者數(shù)據(jù),能夠涵蓋各種不同的傳播場景,使得模型在應(yīng)對不同疫情發(fā)展情況時更具適應(yīng)性。此外,數(shù)據(jù)集的多維度特征(如人口統(tǒng)計、移動軌跡、接觸史等)可以幫助模型在分析過程中全面捕捉患者之間的復(fù)雜關(guān)系,從而更準(zhǔn)確地識別出病毒傳播鏈中的關(guān)鍵節(jié)點和傳播路徑。
48、進(jìn)一步的,數(shù)據(jù)清洗的原理基于數(shù)據(jù)處理的核心理念,即“數(shù)據(jù)質(zhì)量決定分析結(jié)果的質(zhì)量”。在時空軌跡數(shù)據(jù)的清洗過程中,首先通過刪除冗余和低關(guān)聯(lián)度的屬性列,減少數(shù)據(jù)維度,降低模型復(fù)雜性,使得模型訓(xùn)練過程更加高效和穩(wěn)定。其次,通過去除缺失值過多的屬性和無效數(shù)據(jù)行,可以顯著降低數(shù)據(jù)噪聲,提高模型對關(guān)鍵特征的敏感性,減少誤判的風(fēng)險。此外,清洗數(shù)據(jù)還涉及對錯誤信息的修正和噪聲數(shù)據(jù)的刪除。錯誤信息如果不加以處理,可能會導(dǎo)致模型在傳播鏈構(gòu)建中產(chǎn)生偏差,從而影響傳播鏈的準(zhǔn)確性和防控措施的科學(xué)性。同時,數(shù)據(jù)清洗還可以提高數(shù)據(jù)集的可操作性和可理解性,使得數(shù)據(jù)在后續(xù)的編碼和建模過程中更加有效地發(fā)揮作用。
49、進(jìn)一步的,構(gòu)建理論傳播鏈的原理基于病毒傳播的基本流行病學(xué)理論以及高風(fēng)險省份的特殊性。在疫情高發(fā)地區(qū),病毒的傳播路徑往往更加復(fù)雜和多樣化,單純依靠數(shù)據(jù)驅(qū)動的方法可能難以及時捕捉到關(guān)鍵的傳播鏈條。理論傳播鏈的構(gòu)建利用了交通傳播組、事件傳播組和人際傳播組的關(guān)系分析,將這些組內(nèi)和組間的關(guān)系進(jìn)行系統(tǒng)化的整合。通過對已知傳播模式的分析,推測出潛在的傳播路徑,從而減少模型在實際數(shù)據(jù)分析中的計算負(fù)擔(dān)。此外,理論傳播鏈還為處理未構(gòu)造傳播鏈的患者提供了初始參考框架,使得后續(xù)的傳播鏈自動化生成更為精準(zhǔn)和高效。
50、進(jìn)一步的,對患者進(jìn)行傳播組標(biāo)記的原理基于流行病學(xué)中的接觸傳播理論和病毒傳播路徑的多樣性。不同傳播組反映了病毒傳播的不同方式,如人際傳播、空間移動傳播和特定事件傳播。通過將患者數(shù)據(jù)按傳播組進(jìn)行分類和標(biāo)記,可以更有效地劃分和組織數(shù)據(jù),減少模型在處理數(shù)據(jù)時的負(fù)擔(dān)。標(biāo)記后的數(shù)據(jù)使得傳播鏈構(gòu)建更加模塊化和系統(tǒng)化,模型能夠更準(zhǔn)確地識別和分析不同傳播途徑中的關(guān)鍵節(jié)點。這不僅提高了病毒傳播鏈的生成速度,也增強了模型在不同場景中的適用性和靈活性。此外,傳播組標(biāo)記還提供了對高風(fēng)險省份中病毒傳播路徑的初步理解,使得在后續(xù)的傳播鏈生成和模型訓(xùn)練過程中能夠更有針對性地進(jìn)行數(shù)據(jù)處理和分析。這種方法特別適用于疫情高發(fā)地區(qū)的快速溯源需求,有助于及時制定相應(yīng)的防控措施。
51、進(jìn)一步的,對標(biāo)記傳播鏈進(jìn)行設(shè)置的原理基于圖論中的有向圖概念。在病毒傳播鏈構(gòu)建中,患者之間的傳播關(guān)系可以被看作是一個有向圖中的邊,邊的方向表示病毒從傳染者傳播到被感染者的過程。通過將患者間的傳播關(guān)系表示為有向邊,并根據(jù)時間順序進(jìn)行排序和連接,可以清晰地描述病毒在整個傳播鏈中的流動過程。這種方法有助于將復(fù)雜的病毒傳播過程可視化,使得傳播鏈的結(jié)構(gòu)更加直觀和易于分析。同時,記錄和存儲這些有向邊數(shù)據(jù)便于進(jìn)一步的數(shù)據(jù)共享和分析使用,也為防控決策提供了詳細(xì)的關(guān)鍵節(jié)點和傳播路徑的參考。
52、進(jìn)一步的,將患者時空軌跡數(shù)據(jù)編碼為特征的原理基于特征工程中的特征表示和數(shù)據(jù)預(yù)處理方法。不同的編碼方式適用于不同類型的數(shù)據(jù),能夠幫助模型更有效地學(xué)習(xí)和理解數(shù)據(jù)中的信息。例如,獨熱編碼可以避免類別屬性之間的排序關(guān)系帶來的誤導(dǎo),而標(biāo)簽編碼則有助于保留順序信息。哈希編碼則是為了減少高維數(shù)據(jù)的維度,避免維度災(zāi)難,同時保持?jǐn)?shù)據(jù)的有效性。時間戳編碼可以幫助模型保留時間信息的重要性,使得模型能夠在時間維度上進(jìn)行合理的推理。通過使用多種編碼方式,將患者數(shù)據(jù)中各類屬性轉(zhuǎn)化為適合模型處理的數(shù)值形式,不僅提高了模型的學(xué)習(xí)效率,還減少了信息丟失的可能性。編碼后的數(shù)據(jù)能夠更準(zhǔn)確地反映患者行為的特點和病毒傳播的潛在路徑,提升了模型在構(gòu)建傳播鏈時的預(yù)測能力和泛化能力。
53、進(jìn)一步的,溯源模型的設(shè)置基于圖神經(jīng)網(wǎng)絡(luò)(gnn)理論、自編碼器理論和鏈路預(yù)測模型理論。gnn能夠處理和學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的節(jié)點嵌入表示,尤其適合捕捉和分析節(jié)點之間的復(fù)雜關(guān)系。在病毒傳播溯源中,患者之間的傳播關(guān)系天然符合圖結(jié)構(gòu)的數(shù)據(jù)表示方式。通過圖卷積(sageconv)模塊,模型能夠逐層提取節(jié)點特征,同時考慮到鄰居節(jié)點的影響,從而更全面地學(xué)習(xí)傳播路徑中的關(guān)鍵特征。自編碼器在模型中的作用是對輸入數(shù)據(jù)進(jìn)行降噪和特征提取,進(jìn)一步提高模型的表示能力,尤其是在處理高維度的時空軌跡數(shù)據(jù)時。鏈路預(yù)測模型則利用學(xué)到的節(jié)點特征嵌入進(jìn)行邊的預(yù)測,即識別哪些患者之間可能存在傳播關(guān)系,并推測出傳播方向。這種方法的好處在于它可以基于數(shù)據(jù)自動生成傳播鏈,而不是依賴手工規(guī)則或先驗知識,極大地提高了溯源的自動化程度和效率。
54、進(jìn)一步的,利用計算節(jié)點相似性構(gòu)建傳播鏈的原理基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點嵌入表示和相似性度量。在圖神經(jīng)網(wǎng)絡(luò)中,每個患者節(jié)點的特征通過模型學(xué)習(xí)得到了一個高維度的嵌入表示,這個表示可以概括患者的時空軌跡、接觸史、癥狀等多維信息。通過計算這些嵌入表示的相似性(例如通過點積計算),可以量化患者之間的傳播關(guān)系強度。設(shè)定傳播閾值的作用在于過濾掉不太可能存在傳播關(guān)系的節(jié)點對,確保模型只識別出高度相關(guān)的傳播鏈條。這種方法能夠有效降低構(gòu)建傳播鏈時的錯誤率,提高傳播鏈的真實性和準(zhǔn)確性。
55、可以理解的是,上述第二方面的有益效果可以參見上述第一方面中的相關(guān)描述,在此不再贅述。
56、綜上所述,本發(fā)明通過利用時空軌跡數(shù)據(jù)驅(qū)動的病毒傳播溯源方法,實現(xiàn)了從數(shù)據(jù)清洗、特征編碼到傳播鏈構(gòu)建的全過程自動化。這大大減少了對人工篩查和分析的依賴,提高了病毒傳播鏈構(gòu)建的速度,使得溯源過程能夠更快速地適應(yīng)病毒傳播的速度和模式變化。此外,通過使用多層圖神經(jīng)網(wǎng)絡(luò)(gnn)和多種特征編碼方式,本發(fā)明能夠精準(zhǔn)地捕捉患者時空軌跡數(shù)據(jù)中的復(fù)雜特征和潛在傳播模式;利用節(jié)點相似性計算和閾值過濾,確保了傳播鏈的構(gòu)建符合實際傳播情況,極大地提升了溯源分析的準(zhǔn)確性;同時,通過引入包含自編碼器和圖卷積模塊的多層圖神經(jīng)網(wǎng)絡(luò),本發(fā)明的溯源模型能夠自動學(xué)習(xí)和提取患者數(shù)據(jù)中的關(guān)鍵特征,并生成符合實際情況的傳播鏈條。該智能化模型顯著降低了人力成本,同時提高了對大規(guī)模、高維度數(shù)據(jù)的處理能力;在社會價值方面,本發(fā)明能夠有效利用大量患者時空軌跡數(shù)據(jù),自動構(gòu)建病毒傳播鏈,為公共衛(wèi)生部門提供科學(xué)、數(shù)據(jù)驅(qū)動的決策支持;不僅有助于及時識別高風(fēng)險地區(qū)和傳播路徑,還能夠為精準(zhǔn)的疫情防控措施提供依據(jù)。
57、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。