国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文件快速識(shí)別方法

      文檔序號(hào):8339751閱讀:228來(lái)源:國(guó)知局
      一種文件快速識(shí)別方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及文件處理,特別涉及一種應(yīng)用安裝文件的處理方法。
      【背景技術(shù)】
      [0002] 在移動(dòng)應(yīng)用領(lǐng)域中,開(kāi)發(fā)者將應(yīng)用程序提交給應(yīng)用市場(chǎng),用戶(hù)通過(guò)應(yīng)用市場(chǎng)下載 應(yīng)用。但是官方市場(chǎng)內(nèi)依然無(wú)法避免惡意軟件的存在;安全保障機(jī)制不夠完善,導(dǎo)致惡意軟 件的比例居高不下。其中,嵌入已知代碼和偽裝應(yīng)用安裝文件是主要威脅。現(xiàn)有的技術(shù)方 案采用反編譯工具或者動(dòng)態(tài)行為分析工具得到應(yīng)用行為序列,對(duì)行為序列進(jìn)行預(yù)處理得到 行為序列特征,通過(guò)比較行為序列特征的距離得到應(yīng)用是否被偽裝的量化數(shù)據(jù)。該方法可 以識(shí)別應(yīng)用代碼的改變,但是行為序列特征的提取容易受到代碼混淆技術(shù)的影響,因而在 針對(duì)實(shí)際問(wèn)題進(jìn)行分析時(shí)具有一定的局限性。
      [0003] 因此,針對(duì)相關(guān)技術(shù)中所存在的上述問(wèn)題,目前尚未提出有效的解決方案。

      【發(fā)明內(nèi)容】

      [0004] 為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出了一種文件快速識(shí)別方法,包 括:
      [0005] 分析應(yīng)用安裝文件屬性,選擇特定文件類(lèi)型,并根據(jù)不同的文件類(lèi)型采用不同的 特征提取過(guò)程來(lái)提取文件的內(nèi)容特征,獲取應(yīng)用安裝文件的不同版本之間各種類(lèi)型文件的 相似度,通過(guò)加權(quán)后的相似度總和來(lái)識(shí)別偽裝的應(yīng)用安裝文件。
      [0006] 優(yōu)選地,所述應(yīng)用安裝文件以壓縮文件的形式存在,文件內(nèi)部以目錄的形式組織 存放可執(zhí)行字節(jié)碼文件、證書(shū)文件和資源文件,其中可執(zhí)行字節(jié)碼存儲(chǔ)在類(lèi)文件中;證書(shū)文 件是應(yīng)用的簽名文件;資源文件包括數(shù)據(jù)庫(kù)文件、函數(shù)庫(kù)文件、XML文件、圖像文件。
      [0007] 優(yōu)選地,所述特定文件類(lèi)型文件具備以下條件:文件內(nèi)容特征具有簽名特性,不同 應(yīng)用中提取出的文件內(nèi)容特征具有差異性,文件內(nèi)容具有距離特性;并且所述特征提取過(guò) 程進(jìn)一步包括,獲取安裝文件的文件接口,根據(jù)壓縮文件位置偏移定位特征文件,對(duì)應(yīng)用中 的特征文件進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果對(duì)比不同的算法,對(duì)算法進(jìn)行優(yōu)化,并且在提取過(guò)程中 應(yīng)用多線(xiàn)程方案,重寫(xiě)不支持多線(xiàn)程的部分函數(shù),在特征提取之后,基于文件內(nèi)容特征進(jìn)行 識(shí)別,根據(jù)應(yīng)用的統(tǒng)計(jì)特征,采用哈希表計(jì)數(shù)進(jìn)行相似度度量。
      [0008] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
      [0009] 本發(fā)明提出了一種文件處理,通過(guò)提取應(yīng)用安裝文件內(nèi)容特征進(jìn)行識(shí)別,且可以 有效抵抗文件和目錄的偽裝和惡意修改帶來(lái)的干擾,利用特征提取過(guò)程縮小文件內(nèi)容特征 規(guī)模,提尚運(yùn)算效率。
      【附圖說(shuō)明】
      [0010] 圖1是根據(jù)本發(fā)明實(shí)施例的文件快速識(shí)別方法的流程圖。
      【具體實(shí)施方式】
      [0011] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán) 利要求書(shū)限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié) 以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無(wú)這些具體細(xì)節(jié)中 的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書(shū)實(shí)現(xiàn)本發(fā)明。
      [0012] 圖1是根據(jù)本發(fā)明實(shí)施例的文件快速識(shí)別方法流程圖。提出了一種應(yīng)用程序安裝 文件的偽裝識(shí)別方法。通過(guò)分析應(yīng)用安裝文件屬性,選擇文件類(lèi)型,提取內(nèi)容特征,并根據(jù) 文件類(lèi)型采用不同的內(nèi)容特征提取算法,對(duì)其相似度賦予權(quán)值,從而提高應(yīng)用程序偽裝識(shí) 別的準(zhǔn)確性和運(yùn)算效率。
      [0013] 應(yīng)用安裝文件以壓縮文件的形式存在,內(nèi)部以目錄的形式組織存放可執(zhí)行字節(jié)碼 文件、證書(shū)文件和資源文件,其中可執(zhí)行字節(jié)碼存儲(chǔ)在類(lèi)文件中;證書(shū)文件是應(yīng)用的簽名文 件;資源文件包括數(shù)據(jù)庫(kù)文件、函數(shù)庫(kù)文件、XML文件、圖像文件等。
      [0014] 在一個(gè)實(shí)施例中,將應(yīng)用安裝文件描述為集合app = {exe ;lib ;profile ;image ; audio ;etc},其中exe表示安裝文件中的可執(zhí)行字節(jié)碼,lib表示程序中的原生代碼庫(kù), profile表示用于程序數(shù)據(jù)存儲(chǔ)和布局描述的XML文檔,image表示程序中的圖像文件, etc表示程序中的其他文件。根據(jù)集合app的描述可知:本發(fā)明的目標(biāo)是根據(jù)exe,lib, profile,image等相關(guān)文件的內(nèi)容特征,執(zhí)行應(yīng)用程序安裝文件的偽裝識(shí)別。
      [0015] 為了準(zhǔn)確、有效地通過(guò)文件內(nèi)容分析安裝文件是否被偽裝,并符合實(shí)際的識(shí)別需 求,本發(fā)明提出的方法著力達(dá)到以下三個(gè)目標(biāo):1)適應(yīng)大數(shù)據(jù)運(yùn)算,應(yīng)用市場(chǎng)內(nèi)的數(shù)量大、 增長(zhǎng)快,能快速處理大量數(shù)據(jù)的系統(tǒng)框架是適應(yīng)大數(shù)據(jù)運(yùn)算的基礎(chǔ);2)選擇合適的特征文 件,安裝文件內(nèi)有上千種文件類(lèi)型,提取哪些文件的內(nèi)容直接影響偽裝識(shí)別的效率和準(zhǔn)確 性;3)高效的特征提取和準(zhǔn)確的特征算法,提取文件內(nèi)容特征的速度決定了系統(tǒng)效率,同 時(shí)準(zhǔn)確的特征算法是保證系統(tǒng)能夠正確給出判定結(jié)果的基本保證。
      [0016] 本發(fā)明在提取文件內(nèi)容特征、計(jì)算文件相似度的過(guò)程中保證提高效率的同時(shí)不失 運(yùn)算結(jié)果的準(zhǔn)確性。
      [0017] 首先要求算法針對(duì)的目標(biāo)不能過(guò)于復(fù)雜,如果針對(duì)目標(biāo)過(guò)于復(fù)雜,那么需要對(duì)這 個(gè)目標(biāo)進(jìn)行縮減,選出其中關(guān)鍵的要素進(jìn)行對(duì)比;其次算法效率高;最后,在構(gòu)建算法過(guò)程 的時(shí)候,要盡可能對(duì)算法的運(yùn)行環(huán)境進(jìn)行優(yōu)化,減少算法的中間步驟,削減算法中可能引起 大量時(shí)間和空間消耗的內(nèi)容。
      [0018] 首先需要選擇合適的特征文件,一個(gè)應(yīng)用安裝文件中的文件從幾百個(gè)到幾千個(gè)不 等,如對(duì)全部文件的內(nèi)容進(jìn)行特征提取,容易造成目標(biāo)過(guò)于復(fù)雜、分析效率低下的結(jié)果,且 容易受到插入無(wú)用文件的干擾。因此本發(fā)明根據(jù)普遍性、代表性和可度量性原則,選擇部分 合適的文件類(lèi)型作為特征文件,在最大程度保證特征文件有效表示應(yīng)用安裝文件的情況下 縮小特征規(guī)模,從而減小運(yùn)算量。
      [0019] 接下來(lái),從安裝文件中提取已選定文件的特征,獲取安裝文件的文件接口,根據(jù)壓 縮文件位置偏移定位特征文件,省去對(duì)其他無(wú)關(guān)文件進(jìn)行解壓的步驟以提高運(yùn)算效率。首 先對(duì)應(yīng)用中的特征文件進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)規(guī)律對(duì)比不同的算法實(shí)現(xiàn),對(duì)算法進(jìn)行最合適 的優(yōu)化,在保證準(zhǔn)確性的前提下采用效率最高的算法,并在提取過(guò)程中應(yīng)用多線(xiàn)程方案,重 寫(xiě)不支持多線(xiàn)程的部分函數(shù),保證所有運(yùn)算的線(xiàn)程安全性,進(jìn)一步提高運(yùn)算效率。
      [0020] 最后,基于文件內(nèi)容特征進(jìn)行偽裝識(shí)別,在相似度度量算法設(shè)計(jì)時(shí),根據(jù)應(yīng)用的統(tǒng) 計(jì)特征,采用哈希表計(jì)數(shù),用空間消耗換取時(shí)間優(yōu)化。
      [0021 ] 通過(guò)文件內(nèi)容特征計(jì)算文件相似度,首先要從復(fù)雜的文件類(lèi)型中選擇合適的特征 文件。合適的特征文件需要具有以下三個(gè)特點(diǎn)。大多數(shù)安裝文件內(nèi)包含該類(lèi)型的文件,如 果某個(gè)文件類(lèi)型僅在少數(shù)應(yīng)用內(nèi)存在,則無(wú)法通過(guò)該類(lèi)文件內(nèi)容特征進(jìn)行相似度比較;文 件內(nèi)容特征具有"簽名"特性,可以代表該應(yīng)用,不同應(yīng)用中提取出的文件內(nèi)容特征具有差 異性;文件內(nèi)容具有距離特性,相似文件中的文件內(nèi)容距離近,反之不同文件中的文件內(nèi)容 距離遠(yuǎn)。在一個(gè)實(shí)施例中,選擇界面描述文件、圖像文件、音頻文件作為特征文件,可描述為 appfile = {image ;audio ;profile},主要思路是計(jì)算文件內(nèi)容特征相似度,以此分析相似 度,可用以下公式表示:
      [0022] com(appl,app2) = com (appfile I,appfile2) 〇
      [0023] 本發(fā)明用這三類(lèi)文件的內(nèi)容特征表示安裝文件的特征。每類(lèi)文件內(nèi)容特征集合包 含了此類(lèi)所有文件的特征,用如下公式表示:
      【主權(quán)項(xiàng)】
      1. 一種文件快速識(shí)別方法,用于識(shí)別偽裝的應(yīng)用程序安裝文件,其特征在于,包括: 分析應(yīng)用安裝文件屬性,選擇特定文件類(lèi)型,并根據(jù)不同的文件類(lèi)型采用不同的特征 提取過(guò)程來(lái)提取文件的內(nèi)容特征,獲取應(yīng)用安裝文件的不同版本之間各種類(lèi)型文件的相似 度,通過(guò)加權(quán)后的相似度總和來(lái)識(shí)別偽裝的應(yīng)用安裝文件。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述應(yīng)用安裝文件以壓縮文件的形式存 在,文件內(nèi)部以目錄的形式組織存放可執(zhí)行字節(jié)碼文件、證書(shū)文件和資源文件,其中可執(zhí)行 字節(jié)碼存儲(chǔ)在類(lèi)文件中;證書(shū)文件是應(yīng)用的簽名文件;資源文件包括數(shù)據(jù)庫(kù)文件、函數(shù)庫(kù) 文件、XML文件、圖像文件。
      3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特定文件類(lèi)型文件具備以下條件:文 件內(nèi)容特征具有簽名特性,不同應(yīng)用中提取出的文件內(nèi)容特征具有差異性,文件內(nèi)容具有 距離特性;并且所述特征提取過(guò)程進(jìn)一步包括,獲取安裝文件的文件接口,根據(jù)壓縮文件位 置偏移定位特征文件,對(duì)應(yīng)用中的特征文件進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果對(duì)比不同的算法,對(duì)算 法進(jìn)行優(yōu)化,并且在提取過(guò)程中應(yīng)用多線(xiàn)程方案,重寫(xiě)不支持多線(xiàn)程的部分函數(shù),在特征提 取之后,基于文件內(nèi)容特征進(jìn)行識(shí)別,根據(jù)應(yīng)用的統(tǒng)計(jì)特征,采用哈希表計(jì)數(shù)進(jìn)行相似度度 量。
      4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,其中特定類(lèi)型的特征文件包括界面描 述文件、圖像文件、音頻文件,并將應(yīng)用程序安裝文件描述為appfile = {image ;audio ; profile},每類(lèi)文件內(nèi)容特征集合包含了該類(lèi)所有文件的特征,表示為:
      其中imagepaudicvfPl profile {分別表示圖像文件、音頻文件、界面描述文件的特征,η 表示每種文件類(lèi)型包含的文件數(shù)量,并且計(jì)算文件內(nèi)容特征相似度函數(shù)com()的過(guò)程表示 為: com(appl,app2) = com(appfilel, appfile2) 對(duì)兩個(gè)應(yīng)用的每種特征進(jìn)行對(duì)比,獲得文件特征相似度計(jì)算如下,表示安裝文件內(nèi)文 件相似度等價(jià)于兩個(gè)應(yīng)用安裝文件內(nèi)所有該類(lèi)型的相似度:
      其中m表示每種文件類(lèi)型包含的文件數(shù)量; 對(duì)三種文件內(nèi)容相似度賦予權(quán)值,通過(guò)三種文件內(nèi)容特征的加權(quán)相似度表示應(yīng)用安裝 文件相似度,加權(quán)相似度公式表示如下: com(appl,app2) = com(appfilel,appfile2)= com-imageX a +com-audioX β +com-profileX γ ; 其中α,β,γ的值根據(jù)com_image,com_audio,com_profile內(nèi)容的不同而動(dòng)態(tài)變化, 即根據(jù)com_image,com_audio, com_profile三個(gè)值的大小賦予權(quán)值,通過(guò)學(xué)習(xí)確定三個(gè)最 優(yōu)權(quán)值。
      【專(zhuān)利摘要】本發(fā)明提供了一種文件快速識(shí)別方法,該方法包括:分析應(yīng)用安裝文件屬性,選擇特定文件類(lèi)型,并根據(jù)不同的文件類(lèi)型采用不同的特征提取過(guò)程來(lái)提取文件的內(nèi)容特征,獲取應(yīng)用安裝文件的不同版本之間各種類(lèi)型文件的相似度,通過(guò)加權(quán)后的相似度總和來(lái)識(shí)別偽裝的應(yīng)用安裝文件。本發(fā)明提出了一種文件處理,通過(guò)提取應(yīng)用安裝文件內(nèi)容特征進(jìn)行識(shí)別,且可以有效抵抗文件和目錄的偽裝和惡意修改帶來(lái)的干擾,利用特征提取過(guò)程縮小文件內(nèi)容特征規(guī)模,提高運(yùn)算效率。
      【IPC分類(lèi)】G06F17-30
      【公開(kāi)號(hào)】CN104657504
      【申請(qǐng)?zhí)枴緾N201510109944
      【發(fā)明人】羅陽(yáng), 陳虹宇, 王峻嶺
      【申請(qǐng)人】四川神琥科技有限公司
      【公開(kāi)日】2015年5月27日
      【申請(qǐng)日】2015年3月12日
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1