文件審核處理方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種文件審核處理方法及裝置,該方法包括:獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件;獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件;對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。能夠?qū)崿F(xiàn)對(duì)各種格式文件的獨(dú)立審核,其預(yù)覽方便,審核的效率高,能夠準(zhǔn)確的發(fā)現(xiàn)和控制違規(guī)文件的公開(kāi)發(fā)布,避免惡意內(nèi)容造成的危害。
【專利說(shuō)明】
文件審核處理方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤指一種文件審核處理方法及裝置。
【背景技術(shù)】
[0002]超文本預(yù)處理器(Hypertext Preprocessor,PHP)作為一種通用開(kāi)源腳本語(yǔ)言,能夠提供訪問(wèn)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)一一MySQL的新界面。MySQL關(guān)聯(lián)數(shù)據(jù)庫(kù)將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性,My SQL使用SQL語(yǔ)言訪問(wèn)數(shù)據(jù)庫(kù)。
[0003]redis是一個(gè)關(guān)鍵字-值(key-value)存儲(chǔ)系統(tǒng),會(huì)周期性的把更新的數(shù)據(jù)寫(xiě)入磁盤(pán)或者把修改操作寫(xiě)入追加的記錄文件,并且在此基礎(chǔ)上實(shí)現(xiàn)主從(master-slave)同步。
[0004]數(shù)據(jù)庫(kù)或存儲(chǔ)系統(tǒng)中的文件在公開(kāi)之前一般會(huì)進(jìn)行文件審核,根據(jù)政策規(guī)定或自身策略要求對(duì)希望公開(kāi)的文件在公開(kāi)之前進(jìn)行控制,凈化網(wǎng)絡(luò)環(huán)境,維護(hù)版權(quán)。例如:微盤(pán)的公開(kāi)分享在生成外部鏈接之前就會(huì)進(jìn)行文件審核。
[0005]由于文件種類的多樣化,文檔、視頻、音頻、圖片、壓縮包等多種多樣的文件格式存在,在文件審核過(guò)程中,需要能夠?qū)χ喾N格式的文件均能進(jìn)行有效的審核,以避免惡意分享、違規(guī)廣告等不良內(nèi)容被公開(kāi)發(fā)布出去。
[0006]目前數(shù)據(jù)庫(kù)和存儲(chǔ)系統(tǒng)中,雖然也有一些文件審核的方法,但其并不能很好的實(shí)現(xiàn)對(duì)多種文件格式、多樣化的文件內(nèi)容的有效審核,其審核效率比較低、信息控制的準(zhǔn)確性也比較差。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實(shí)施例提供一種文件審核處理方法及裝置,用以解決現(xiàn)有技術(shù)中存在的文件審核效率低,不能實(shí)現(xiàn)對(duì)多種文件格式、多樣化的文件內(nèi)容的有效審核,違規(guī)內(nèi)容控制準(zhǔn)確性和有效性差的問(wèn)題。
[0008]—方面,本發(fā)明實(shí)施例提供了一種文件審核處理方法,包括:
[0009]獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件;
[0010]獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件;
[0011]對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。
[0012]在一些可選的實(shí)施例中,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件,具體包括:
[0013]通過(guò)預(yù)設(shè)的文件的信息-摘要算法MD5黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0014]在一些可選的實(shí)施例中,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件,具體包括:
[0015]將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配;
[0016]當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件;
[0017]當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件;
[0018]當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。
[0019]在一些可選的實(shí)施例中,對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件,具體包括:
[0020]對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核;
[0021]當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。
[0022]在一些可選的實(shí)施例中,對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件,具體包括:
[0023]將所述需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中;
[0024]對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件。
[0025]在一些可選的實(shí)施例中,所述概要信息包括下列信息中的至少一個(gè):文件的信息-摘要算法MD5信息、文件名;
[0026]所述文件信息包括下列信息中的至少一個(gè):文件的唯一標(biāo)識(shí)ID、分享用戶標(biāo)識(shí)UID、分享路徑link、文件實(shí)際地址URL、文件名name、文件的MD5信息、文件類型type、分享時(shí)間time ο
[0027]另一方面,本發(fā)明實(shí)施例提供了一種文件審核處理裝置,包括:
[0028]篩選過(guò)濾模塊,用于獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件;
[0029]信息審核模塊,用于獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件;
[0030]人工審核模塊,用于對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。
[0031]在一些可選的實(shí)施例中,所述篩選過(guò)濾模塊,具體用于:
[0032]通過(guò)預(yù)設(shè)的文件的信息-摘要算法MD5黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0033]在一些可選的實(shí)施例中,所述信息審核模塊,具體用于:
[0034]將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配;
[0035]當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件;
[0036]當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件;
[0037]當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。
[0038]在一些可選的實(shí)施例中,所述人工審核模塊,具體用于:
[0039]對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核;
[0040]當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。
[0041]在一些可選的實(shí)施例中,所述人工審核模塊,具體用于:
[0042]將所述需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中;
[0043]對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件。
[0044]上述技術(shù)方案具有如下有益效果:上述方法通過(guò)待審核文件的概要信息,進(jìn)行初步過(guò)濾,確定出明顯需要屏蔽的文件,對(duì)于其他待審核文件進(jìn)一步通過(guò)文件信息匹配過(guò)濾,確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件;然后將需人工審核的文件提供給審核人員審核,進(jìn)一步根據(jù)人工審核結(jié)果確定其中需屏蔽的文件和允許公開(kāi)的文件;其審核的準(zhǔn)確性和有效性比較高,能夠高效率完成文件的審核,多個(gè)審核環(huán)節(jié),可以避免錯(cuò)審漏審,對(duì)于多種文件格式、多樣化的文件內(nèi)容都能夠進(jìn)行有效的審核。
【附圖說(shuō)明】
[0045]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0046]圖1是本發(fā)明實(shí)施例一中文件審核處理方法的流程圖;
[0047]圖2是本發(fā)明實(shí)施例二中文件審核處理方法的流程圖;
[0048]圖3是本發(fā)明實(shí)施例三中文件審核處理方法的原理示意圖;
[0049]圖4是本發(fā)明實(shí)施例中文件審核處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0050]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0051]為了解決現(xiàn)有技術(shù)中存在的文件審核效率低,不能實(shí)現(xiàn)對(duì)多種文件格式、多樣化的文件內(nèi)容的有效審核,違規(guī)內(nèi)容控制準(zhǔn)確性和有效性差等若干問(wèn)題,本發(fā)明實(shí)施例提供一種文件審核處理方法,能夠有效的實(shí)現(xiàn)對(duì)待審核文件的有效、準(zhǔn)確審核。
[0052]實(shí)施例一
[0053]本發(fā)明實(shí)施例一提供的文件審核處理方法,其流程如圖1所示,包括如下步驟:
[0054]步驟SlOl:獲取待審核文件的概要信息。
[0055]當(dāng)有文件需要審核時(shí),獲取待審核文件的概要信息,其中,概要信息包括下列信息中的至少一個(gè):MD5信息和文件名。
[0056]步驟S102:通過(guò)預(yù)設(shè)的概要過(guò)濾信息和概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0057]該步驟中,初步區(qū)分過(guò)來(lái),將明顯需要屏蔽的文件先進(jìn)行屏蔽,對(duì)于非明顯需要屏蔽的文件則進(jìn)一步審核。
[0058]具體實(shí)現(xiàn)中,可選的,通過(guò)預(yù)設(shè)的文件的信息-摘要算法(Me s s a g e -DigestAlgorithm 5,MD5)黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。當(dāng)然可選的,也可以僅通過(guò)MD5黑名單對(duì)待審核文件的MD5信息進(jìn)行過(guò)濾,或僅通過(guò)侵權(quán)詞庫(kù)對(duì)待審核文件的文件名進(jìn)行過(guò)濾。
[0059]步驟S103:獲取過(guò)濾通過(guò)的文件的文件信息。
[0060]對(duì)于初步過(guò)濾通過(guò)的待審核文件,獲取其文件信息,其中,文件信息包括下列信息中的至少一個(gè):文件的唯一標(biāo)識(shí)(ID)、分享用戶標(biāo)識(shí)(UID)、分享路徑(link)、文件實(shí)際地址(URL)、文件名(name)、文件的MD5信息、文件類型(type)、分享時(shí)間(time)。
[0061]步驟S104:通過(guò)預(yù)設(shè)的文件審核信息和獲取的文件信息,從過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件。
[0062]該步驟中,從過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件可以通過(guò)預(yù)設(shè)的過(guò)濾規(guī)則實(shí)現(xiàn)區(qū)分確定。
[0063]可選的,將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配;當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件;當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件;當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。
[0064]步驟S105:對(duì)需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。
[0065]該步驟中,通過(guò)人工審核的方式進(jìn)一步識(shí)別上述步驟中不能肯定確定是否需要屏蔽的文件。
[0066]當(dāng)文件類型多樣化的情況下,可選的,對(duì)需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核,并獲取人工審核的審核結(jié)果;當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。
[0067]具體實(shí)現(xiàn)中,可以將需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中;對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核。
[0068]實(shí)施例二
[0069]本發(fā)明實(shí)施例二提供上述文件審核處理的一種具體實(shí)現(xiàn)方法,其流程如圖2所示,包括如下步驟:
[0070]步驟S201:獲取待審核文件的概要信息。
[0071 ] 步驟S202:對(duì)概要信息進(jìn)行MD5黑名單過(guò)濾。
[0072]過(guò)濾通過(guò)時(shí)執(zhí)行步驟S203,否則執(zhí)行步驟S210。其中,當(dāng)概要信息與MD5黑名單中所列的名單不匹配時(shí),過(guò)濾通過(guò)。
[0073]步驟S203:對(duì)概要信息進(jìn)行侵權(quán)詞庫(kù)過(guò)濾。
[0074]過(guò)濾通過(guò)時(shí)執(zhí)行步驟S204,否則執(zhí)行步驟S210。其中,當(dāng)概要信息與侵權(quán)詞庫(kù)中的侵權(quán)詞不匹配時(shí),過(guò)濾通過(guò)。
[0075]上述步驟S202和步驟S203的執(zhí)行順序不分先后,可以交換,實(shí)現(xiàn)通過(guò)預(yù)設(shè)的概要過(guò)濾信息和概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0076]上述步驟S202-步驟S203在待審核文件推送審核時(shí),先推送一次前置審核,對(duì)文件的md5和文件名進(jìn)行過(guò)濾,與MD5黑名單和侵權(quán)詞庫(kù)匹配的文件回調(diào)分享失敗接口,通知推送平臺(tái)屏蔽該文件;與MD5黑名單和侵權(quán)詞庫(kù)不匹配的文件,即為前置審核通過(guò)的文件,則金星進(jìn)一步的審核。
[0077]步驟S204:獲取過(guò)濾通過(guò)的文件的文件信息。
[0078]若通過(guò)前置審核,將文件信息推送至審核源文件的mysql數(shù)據(jù)庫(kù),文件信息包括:文件的唯一標(biāo)識(shí)(id),分享用戶(uid),分享的路徑(link),文件實(shí)際地址(url),文件名(name),文件md5,文件類型(type),分享時(shí)間time等字段。
[0079]可選的,可以按照文件數(shù)目分為批量分享和單個(gè)文件分享分別進(jìn)行處理。
[0080]步驟S205:對(duì)文件信息進(jìn)行MD5分享白名單匹配。
[0081]若與分享白名單相匹配時(shí),執(zhí)行步驟S211;不匹配時(shí)執(zhí)行步驟S206。其中,文件信息中有與白名單中包括的內(nèi)容相匹配的內(nèi)容時(shí),認(rèn)為文件信息與分享白名單相匹配,匹配通過(guò),可以公開(kāi)分享文件;否則匹配不通過(guò)。
[0082]步驟S206:對(duì)文件信息進(jìn)行違禁黃詞匹配。
[0083]若與違禁黃詞相匹配通過(guò)時(shí)執(zhí)行步驟S210;不匹配過(guò)時(shí)執(zhí)行步驟S207。其中,文件信息中有與違禁黃詞中包括的內(nèi)容相匹配的內(nèi)容時(shí),認(rèn)為文件信息與違禁黃詞相匹配,匹配不通過(guò),需要屏蔽文件;否則匹配通過(guò)。
[0084]步驟S207:對(duì)文件信息進(jìn)行違禁紅詞匹配。
[0085]若與違禁紅詞相匹配通過(guò)時(shí)執(zhí)行步驟S208,不匹配時(shí)執(zhí)行步驟S211。其中,文件信息中有與違禁紅詞中包括的內(nèi)容相匹配的內(nèi)容時(shí),認(rèn)為文件信息與違禁紅詞相匹配,需要人工審核文件;否則不需要人工審核文件。
[0086]上述步驟S205-步驟S207,的執(zhí)行順序可以調(diào)整交換,實(shí)現(xiàn)將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配;當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件;當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件;當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。
[0087]步驟S208:將文件信息與違禁紅詞匹配的文件推送到下載隊(duì)列中,下載到本地臨時(shí)存放,并推送到處理隊(duì)列中。
[0088]對(duì)于不與分享白名單相匹配也不與違禁黃詞相匹配但其中包含違禁紅詞的文件,可以對(duì)其進(jìn)行標(biāo)記,例如將文件名標(biāo)記為紅色,在后臺(tái)顯示時(shí),其文件名字符顯示為紅色,以表示是需要進(jìn)行人工審核的文件。
[0089]將需要進(jìn)行人工審核的文件,放入下載(download)隊(duì)列中,通過(guò)下載隊(duì)列將文件臨時(shí)存放本地以便進(jìn)行人工審核,暫時(shí)存放在本地的文件可以加入處理(deal)隊(duì)列中,處理隊(duì)列也可以設(shè)置一個(gè)或多個(gè),例如:deal處理隊(duì)列也可以設(shè)置16個(gè),8個(gè)處理單個(gè)文件的分享的文件的人工審核,8個(gè)處理批量文件分享的文件的人工審核。
[0090]步驟S209:對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核。
[0091]當(dāng)文件類型多樣化的情況下,對(duì)需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核,并獲取人工審核結(jié)果;當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件,此時(shí)執(zhí)行步驟S211;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件,此時(shí)執(zhí)行步驟S210。
[0092]步驟S210:對(duì)文件進(jìn)行屏蔽。
[0093]對(duì)于MD5信息過(guò)濾不通過(guò)的文件、文件名過(guò)濾不通過(guò)的文件、與違禁黃詞相匹配的文件進(jìn)行屏蔽。
[0094]步驟S211:將文件回調(diào)至分享接口。
[0095]對(duì)與分享白名單相匹配的文件、不與分享白名單相匹配但也不與違禁黃詞相匹配也不包含違禁紅詞的文件,允許公開(kāi)分享,將文件回調(diào)至分享接口進(jìn)行分享。
[0096]上述方法中,可以通過(guò)多個(gè)審查(audit)實(shí)現(xiàn)待審核文件的審核,例如:audit隊(duì)列可以設(shè)置16個(gè),8個(gè)處理單個(gè)文件分享的文件審核,8個(gè)處理批量文件分享的文件審核。單個(gè)文件和批量文件處理的腳本處理的數(shù)據(jù)字段信息不同,單個(gè)文件處理隊(duì)列不重復(fù)的從數(shù)據(jù)庫(kù)中取信息后,對(duì)MD5信息和文件名進(jìn)行過(guò)濾,以及進(jìn)行分享白名單、違禁黃詞和違禁紅詞匹配等步驟。批量文件審核時(shí),將記錄中的多個(gè)文件的信息分別進(jìn)行上述過(guò)濾處理。
[0097]實(shí)施例三
[0098]本發(fā)明實(shí)施例三提供的文件審核實(shí)現(xiàn)方法,其原理如圖3所示。
[0099]根據(jù)上述實(shí)施例二所述的方法,待審核文件經(jīng)過(guò)MD5信息和文件名過(guò)濾等前置審核,以及分享白名單、違禁紅詞、違禁黃詞匹配后,按照分享的策略可以分為先公開(kāi)后審核的文件和先審核后公開(kāi)的文件。對(duì)于文檔類,容易出現(xiàn)違規(guī)色情等方便的信息,對(duì)這類文件先審核才能公開(kāi)分享,其他格式的,為了用戶體驗(yàn),可以先公開(kāi)后審核。因此,根據(jù)文件的格式按照當(dāng)前的策略,對(duì)非文檔格式的文件全部先回調(diào)分享接口進(jìn)行分享,允許公開(kāi)可見(jiàn),再繼續(xù)進(jìn)行處理。
[0100]如圖3所示的,待審核文件推送審核之后,經(jīng)過(guò)MD5信息和文件名過(guò)濾等前置審核,以及分享白名單、違禁紅詞、違禁黃詞匹配后,進(jìn)入審核隊(duì)列。在文件進(jìn)行分享時(shí),先過(guò)前置審核,對(duì)文件名稱和md5進(jìn)行控制,可以從一定程度上避免惡意廣告違規(guī)公開(kāi)分享。對(duì)文件進(jìn)行分享(shal)白名單,違禁詞匹配,可以進(jìn)一步避免惡意內(nèi)容,之后對(duì)于不十分確定能夠公開(kāi)或需要屏蔽的文件進(jìn)一步人工審核,使審核結(jié)果更準(zhǔn)確、有效。
[0101]由于文件格式的多樣化,因此需要支持多種文件的預(yù)覽審核,微盤(pán)推送審核的文件可以分為文檔、視頻、音頻、圖片、壓縮包、其他格式。對(duì)文檔類支持預(yù)覽,視頻類支持隨機(jī)截圖預(yù)覽,圖片縮略圖預(yù)覽,壓縮包解壓后的文件結(jié)構(gòu)預(yù)覽。各種格式文件審核可以分開(kāi)進(jìn)行,模塊可以獨(dú)立,單個(gè)文件可以進(jìn)行下載。審核管理后臺(tái)可以方便支持審核每一條記錄或者批量審核。統(tǒng)計(jì)審核人員的工作量、歷史記錄,合理分配資源。
[0102]如圖3所示的,加入審核隊(duì)列一一deal處理隊(duì)列中的文件,按照文件的格式分別處理,以便方便的提供給人工審核:
[0103]例如:文檔類文件,比如,文字文件(doc)、演示文稿(ppt)、電子表格文件(xls)、便攜式文檔格式文件(pdf)等文檔類型推送給轉(zhuǎn)碼平臺(tái)進(jìn)行轉(zhuǎn)碼,將轉(zhuǎn)碼成功的png路徑寫(xiě)到數(shù)據(jù)表里,留作預(yù)覽使用;人工審核時(shí),若發(fā)現(xiàn)其內(nèi)容進(jìn)行違禁詞的黃詞和紅詞匹配,黃詞匹配成功屏蔽文件,也可以直接刪除;紅詞匹配成功則將匹配部分寫(xiě)入數(shù)據(jù)表記錄,留作預(yù)覽使用。文本(txt)類型的只進(jìn)行內(nèi)容過(guò)濾,過(guò)濾方案同其他文檔類型。
[0104]例如:視頻類文件,視頻文件將視頻中不同時(shí)間點(diǎn)截取4張圖片,合并之后拼成一張圖片,在本地生成文件,將路徑寫(xiě)入到數(shù)據(jù)表。
[0105]例如:圖片類文件,圖片類文件將圖片的縮小成固定大小,生成本地文件,將路徑寫(xiě)入導(dǎo)數(shù)據(jù)表。
[0106]例如:壓縮包文件,壓縮包文件將文件推送給解壓隊(duì)列,解壓后的文件目錄信息寫(xiě)入到數(shù)據(jù)表里。
[0107]其他格式,不作處理,也可以制定相應(yīng)的處理策略。
[0108]各種格式的文件處理完畢后將數(shù)據(jù)表中該文件的狀態(tài)置為正常(normal),供管理后臺(tái)取數(shù)據(jù)。
[0109]管理后臺(tái)是進(jìn)行審核、控制詞庫(kù)、權(quán)限控制的平臺(tái),按照權(quán)限分配審核的項(xiàng)目。管理后臺(tái)的顯示文件狀態(tài)為normal的待審核文件,即為已經(jīng)處理好可供展示的文件,一次獲取20條記錄。每條記錄主要顯示的是文件名、內(nèi)容以及分享時(shí)間等。若audit隊(duì)列過(guò)濾文件名時(shí)有紅詞命中,則標(biāo)題匹配到的進(jìn)行標(biāo)紅。文件的內(nèi)容預(yù)覽按照前面不同格式的文件,顯示方式不同。具體為:
[Ο??Ο]例如:文檔類文件,(100 4口1:、118 4(^顯示轉(zhuǎn)化后的預(yù)覽圖片<^11:類型的若內(nèi)容有匹配紅詞,則將紅詞匹配到的予以標(biāo)注。
[0111]例如:視頻類文件,將拼成的圖片進(jìn)行顯示。
[0112]例如:圖片類文件,將縮略圖進(jìn)行顯示。
[0113]例如:壓縮包文件,展示壓縮包展開(kāi)后的文件目錄中的各文件名稱。
[0114]例如:其他格式,僅展示文件名。
[0115]各種格式的文件點(diǎn)擊文件名可下載,方便對(duì)其進(jìn)行人工審核。審核時(shí),對(duì)單個(gè)文件進(jìn)行操作,操作結(jié)果會(huì)回調(diào)分享或屏蔽接口,完成審核。對(duì)批量文件操作,也是逐個(gè)回調(diào)分享或屏蔽接口。
[0116]本發(fā)明實(shí)施例的上述方法,一方面,設(shè)置侵權(quán)詞、違禁詞、分享白名單和MD5黑名單等,設(shè)置機(jī)器前置審核的操作行為,另一方面,也可以對(duì)每個(gè)文件根據(jù)文件類型分類處理,生成視頻截圖、文檔預(yù)覽圖、內(nèi)容標(biāo)注、壓縮包展開(kāi)的目錄等方式進(jìn)行展示。該方法可以提供一種可視化的文件詳情,可根據(jù)政策調(diào)整攔截策略,各種格式的文件審核獨(dú)立,預(yù)覽方便,準(zhǔn)確審核效率高,有效控制違規(guī)文件公開(kāi)分享后的危害。不同文件審核的策略不同,從而使審核結(jié)果更準(zhǔn)確,可靠性更高。
[0117]基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供一種文件審核處理裝置,其結(jié)構(gòu)如圖4所示,包括:篩選過(guò)濾模塊101、信息審核模塊102和人工審核模塊103。
[0118]篩選過(guò)濾模塊101,用于獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0119]信息審核模塊102,用于獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件。
[0120]人工審核模塊103,用于對(duì)需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。
[0121]優(yōu)選的,上述篩選過(guò)濾模塊101,具體用于通過(guò)預(yù)設(shè)的文件的信息-摘要算法MD5黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。
[0122]優(yōu)選的,上述信息審核模塊102,具體用于將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配;當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件;當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件;當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。
[0123]優(yōu)選的,上述人工審核模塊103,具體用于對(duì)需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核;當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。
[0124]優(yōu)選的,上述人工審核模塊103,具體用于將需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中;對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件。
[0125]本領(lǐng)域技術(shù)人員還可以了解到本發(fā)明實(shí)施例列出的各種說(shuō)明性邏輯塊(illustrative logical block),單元,和步驟可以通過(guò)電子硬件、電腦軟件,或兩者的結(jié)合進(jìn)行實(shí)現(xiàn)。為清楚展示硬件和軟件的可替換性(:^丨6代1^1^6313;[1;^7),上述的各種說(shuō)明性部件(illustrative components),單元和步驟已經(jīng)通用地描述了它們的功能。這樣的功能是通過(guò)硬件還是軟件來(lái)實(shí)現(xiàn)取決于特定的應(yīng)用和整個(gè)系統(tǒng)的設(shè)計(jì)要求。本領(lǐng)域技術(shù)人員可以對(duì)于每種特定的應(yīng)用,可以使用各種方法實(shí)現(xiàn)所述的功能,但這種實(shí)現(xiàn)不應(yīng)被理解為超出本發(fā)明實(shí)施例保護(hù)的范圍。
[0126]本發(fā)明實(shí)施例中所描述的各種說(shuō)明性的邏輯塊,或單元都可以通過(guò)通用處理器,數(shù)字信號(hào)處理器,專用集成電路(ASIC),現(xiàn)場(chǎng)可編程門(mén)陣列或其它可編程邏輯裝置,離散門(mén)或晶體管邏輯,離散硬件部件,或上述任何組合的設(shè)計(jì)來(lái)實(shí)現(xiàn)或操作所描述的功能。通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以通過(guò)計(jì)算裝置的組合來(lái)實(shí)現(xiàn),例如數(shù)字信號(hào)處理器和微處理器,多個(gè)微處理器,一個(gè)或多個(gè)微處理器聯(lián)合一個(gè)數(shù)字信號(hào)處理器核,或任何其它類似的配置來(lái)實(shí)現(xiàn)。
[0127]本發(fā)明實(shí)施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執(zhí)行的軟件模塊、或者這兩者的結(jié)合。軟件模塊可以存儲(chǔ)于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、CD-ROM或本領(lǐng)域中其它任意形式的存儲(chǔ)媒介中。示例性地,存儲(chǔ)媒介可以與處理器連接,以使得處理器可以從存儲(chǔ)媒介中讀取信息,并可以向存儲(chǔ)媒介存寫(xiě)信息??蛇x地,存儲(chǔ)媒介還可以集成到處理器中。處理器和存儲(chǔ)媒介可以設(shè)置于ASIC中,ASIC可以設(shè)置于用戶終端中??蛇x地,處理器和存儲(chǔ)媒介也可以設(shè)置于用戶終端中的不同的部件中。
[0128]在一個(gè)或多個(gè)示例性的設(shè)計(jì)中,本發(fā)明實(shí)施例所描述的上述功能可以在硬件、軟件、固件或這三者的任意組合來(lái)實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn),這些功能可以存儲(chǔ)與電腦可讀的媒介上,或以一個(gè)或多個(gè)指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦存儲(chǔ)媒介和便于使得讓電腦程序從一個(gè)地方轉(zhuǎn)移到其它地方的通信媒介。存儲(chǔ)媒介可以是任何通用或特殊電腦可以接入訪問(wèn)的可用媒體。例如,這樣的電腦可讀媒體可以包括但不限于RAM、ROM、EEPROM、⑶-ROM或其它光盤(pán)存儲(chǔ)、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)裝置,或其它任何可以用于承載或存儲(chǔ)以指令或數(shù)據(jù)結(jié)構(gòu)和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當(dāng)?shù)囟x為電腦可讀媒介,例如,如果軟件是從一個(gè)網(wǎng)站站點(diǎn)、服務(wù)器或其它遠(yuǎn)程資源通過(guò)一個(gè)同軸電纜、光纖電纜、雙絞線、數(shù)字用戶線(DSL)或以例如紅外、無(wú)線和微波等無(wú)線方式傳輸?shù)囊脖话谒x的電腦可讀媒介中。所述的碟片(disk)和磁盤(pán)(disc)包括壓縮磁盤(pán)、錫射盤(pán)、光盤(pán)、DVD、軟盤(pán)和藍(lán)光光盤(pán),磁盤(pán)通常以磁性復(fù)制數(shù)據(jù),而碟片通常以激光進(jìn)行光學(xué)復(fù)制數(shù)據(jù)。上述的組合也可以包含在電腦可讀媒介中。
[0129]以上所述的【具體實(shí)施方式】,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的【具體實(shí)施方式】而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種文件審核處理方法,其特征在于,包括: 獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件; 獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件; 對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。2.如權(quán)利要求1所述的方法,其特征在于,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件,具體包括: 通過(guò)預(yù)設(shè)的文件的信息-摘要算法MD5黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。3.如權(quán)利要求1所述的方法,其特征在于,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件,具體包括: 將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配; 當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件; 當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件; 當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。4.如權(quán)利要求1所述的方法,其特征在于,對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件,具體包括: 對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核; 當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。5.如權(quán)利要求4所述的方法,其特征在于,對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件,具體包括: 將所述需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中; 對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件。6.一種文件審核處理裝置,其特征在于,包括: 篩選過(guò)濾模塊,用于獲取待審核文件的概要信息,通過(guò)預(yù)設(shè)的概要過(guò)濾信息和所述概要信息,確定需屏蔽的文件和過(guò)濾通過(guò)的文件; 信息審核模塊,用于獲取過(guò)濾通過(guò)的文件的文件信息,通過(guò)預(yù)設(shè)的文件審核信息和所述文件信息,從所述過(guò)濾通過(guò)的文件中確定出需屏蔽的文件、允許公開(kāi)的文件和需人工審核的文件; 人工審核模塊,用于對(duì)所述需人工審核的文件提供給審核人員進(jìn)行人工審核,獲取人工審核結(jié)果確定出需屏蔽的文件和允許公開(kāi)的文件。7.如權(quán)利要求6所述的裝置,其特征在于,所述篩選過(guò)濾模塊,具體用于: 通過(guò)預(yù)設(shè)的文件的信息-摘要算法MD5黑名單和侵權(quán)詞庫(kù),對(duì)待審核文件的MD5信息和文件名進(jìn)行過(guò)濾,確定出需屏蔽的文件和過(guò)濾通過(guò)的文件。8.如權(quán)利要求6所述的裝置,其特征在于,所述信息審核模塊,具體用于: 將過(guò)濾通過(guò)的文件的文件信息與預(yù)設(shè)的分享白名單、違禁黃詞和違禁紅詞分別進(jìn)行匹配; 當(dāng)與分享白名單匹配時(shí),確定為允許公開(kāi)的文件; 當(dāng)與違禁黃詞匹配時(shí),確定為需屏蔽的文件; 當(dāng)與違禁紅詞匹配時(shí),確定為需人工審核的文件。9.如權(quán)利要求6所述的裝置,其特征在于,所述人工審核模塊,具體用于: 對(duì)所述需人工審核的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件提供給審核人員審核; 當(dāng)獲取的人工審核結(jié)果為審核通過(guò)時(shí),確定為允許公開(kāi)的文件;當(dāng)獲取的人工審核結(jié)果為審核不通過(guò)時(shí),確定為需屏蔽的文件。10.如權(quán)利要求9所述的裝置,其特征在于,所述人工審核模塊,具體用于: 將所述需人工審核的文件推送到下載隊(duì)列中,通過(guò)下載隊(duì)列將需人工審核的文件下載到本地臨時(shí)存放,并推送至處理隊(duì)列中; 對(duì)處理隊(duì)列中的文件,根據(jù)不同的文件類型,生成可預(yù)覽文件。
【文檔編號(hào)】G06F17/30GK105843912SQ201610171614
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月24日
【發(fā)明人】王旋
【申請(qǐng)人】新浪網(wǎng)技術(shù)(中國(guó))有限公司