專利名稱:信息自動審核方法與系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及信息審核領域,更具體地,涉及一種信息自動審核方法與系統(tǒng)。
背景技術:
目前,我國信息發(fā)布所采用的是“先審核后發(fā)布”機制,S卩,只有審核通過的信息才能在網(wǎng)絡上發(fā)布。當用戶創(chuàng)建或編輯內(nèi)容開放、自由的網(wǎng)絡百科全書時,服務器通常直接接受用戶提交的創(chuàng)建信息或編輯信息,并不對用戶所提交的信息做任何處理,這樣服務器中將存儲大量無用的(例如,廣告信息)或重復的信息。為了支撐該服務,要求具備非常高的人工配置以通過人工完成信息的審核。另外,在人工審核過程中,如果由于某個原因未能通過審核,則由審核人員告知用戶不能發(fā)布,并直接結束當前的審核過程,不再繼續(xù)審核該信息是否符合其他規(guī)定,這樣使得每次審核的效率非常低,即,用戶待發(fā)布的信息可能需要多次審核,與審核人員進行多次交互才能實現(xiàn)信息的發(fā)布。
發(fā)明內(nèi)容
本發(fā)明要解決的一個技術問題是提供一種信息自動審核方法,能夠由信息審核服務器自動地對用戶上傳的信息進行審核,以降低審核時間并避免占用服務器的大量存儲空間來存儲無用信息。本發(fā)明提供了一種信息自動審核方法,包括接收用戶上傳的信息;信息審核服務器查詢規(guī)則數(shù)據(jù)庫,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息,如果匹配確定上傳信息不滿足審核規(guī)則,則在匹配完畢后對上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。根據(jù)本發(fā)明方法的一個實施例,在上傳信息包括詞條正文、圖注文字或修改原因時,審核規(guī)則包括反廣告信息的過濾策略,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息的步驟包括查詢上傳信息中是否包含聯(lián)系方式,如果包含聯(lián)系方式,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;查詢詞條正文的新增部分是否包含統(tǒng)一資源定位符 URL,如果包含URL,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明方法的另一實施例,在上傳信息包括詞條的參考資料或擴展閱讀時, 審核規(guī)則包括反廣告信息的過濾策略加用戶保護策略,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息的步驟包括查詢上傳信息中出現(xiàn)的URL是否符合不信任站點刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果URL符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷上傳信息是否符合URL特征累積刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息符合URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷上傳信息是否符合廣告詞刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息符合廣告詞刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明方法的又一實施例,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息的步驟還包括在用戶首次提交的上傳信息因不信任站點刪除策略和用戶保護策略被禁止審核通過后,如果用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài);在用戶提交的上傳信息因URL特征累積刪除策略和用戶保護策略被禁止審核通過后,如果用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài)。根據(jù)本發(fā)明方法的再一實施例,在上傳信息包括圖片或詞條正文時,審核規(guī)則包括低質(zhì)量過濾策略加用戶保護策略,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息的步驟包括判斷用戶編輯后的上傳信息中的圖片數(shù)量與用戶編輯前的版本中的圖片數(shù)量相比是否小于預定個數(shù)并且用戶的編輯記錄是否符合用戶保護策略,如果小于預定個數(shù)并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷用戶新建的上傳信息所包含的字節(jié)數(shù)是否小于第一預定字節(jié)數(shù),如果小于第一預定字節(jié)數(shù),則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷上傳信息所包含的字節(jié)數(shù)是否介于第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、上傳信息中數(shù)字與字母的字節(jié)數(shù)是否超過預定比例并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息所包含的字節(jié)數(shù)介于第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、上傳信息中數(shù)字與字母的字節(jié)數(shù)超過預定比例并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則, 并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明方法的再一實施例,在上傳信息包括詞條名稱時,審核規(guī)則包括詞條名稱命名策略,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息的步驟包括判斷上傳信息是否符合詞條名稱命名策略,如果不符合詞條名稱命名策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明方法的再一實施例,該方法還包括在對上傳信息執(zhí)行禁止審核通過操作后,將不滿足規(guī)則的原因反饋給用戶。本發(fā)明的信息自動審核方法,由信息審核服務器按照審核規(guī)則逐條審核用戶上傳的信息,從而可以將審核人員從繁重的人工審核任務中解放出來。同時,在審核完成后,可以釋放服務器中無用信息所占用的大量存儲空間。本發(fā)明要解決的另一技術問題是提供一種信息自動審核系統(tǒng),能夠由信息審核服務器自動地對用戶上傳的信息進行審核,以降低審核時間并避免占用服務器的大量存儲空間來存儲無用信息。本發(fā)明提供了一種信息自動審核系統(tǒng),包括信息接收裝置,用于接收用戶上傳的信息;規(guī)則數(shù)據(jù)庫,用于存儲審核規(guī)則;信息審核服務器,與信息接收裝置和規(guī)則數(shù)據(jù)庫相連,用于從規(guī)則數(shù)據(jù)庫中讀取審核規(guī)則,利用審核規(guī)則匹配上傳信息,如果匹配確定上傳信息不滿足審核規(guī)則,則在匹配完畢后對上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。
根據(jù)本發(fā)明系統(tǒng)的一個實施例,在上傳信息包括詞條正文、圖注文字或修改原因時,審核規(guī)則包括反廣告信息的過濾策略,信息審核服務器包括聯(lián)系方式匹配模塊,用于查詢上傳信息中是否包含聯(lián)系方式,如果包含聯(lián)系方式,則確定上傳信息不滿足審核規(guī)則, 并記錄不滿足規(guī)則的原因;URL查詢模塊,用于查詢詞條正文的新增部分是否包含統(tǒng)一資源定位符URL,如果包含URL,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明系統(tǒng)的另一實施例,在上傳信息包括詞條的參考資料或擴展閱讀時, 審核規(guī)則包括反廣告信息的過濾策略加用戶保護策略,信息審核服務器包括不信任站點刪除策略匹配模塊,用于查詢上傳信息中出現(xiàn)的URL是否符合不信任站點刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果URL符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因; URL特征累積刪除策略匹配模塊,用于判斷上傳信息是否符合URL特征累積刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息符合URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;廣告詞刪除策略匹配模塊,用于判斷上傳信息是否符合廣告詞刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息符合廣告詞刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明系統(tǒng)的又一實施例,信息審核服務器還包括不信任站點刪除策略二次保護模塊,與不信任站點刪除策略匹配模塊相連,用于在用戶首次提交的上傳信息因不信任站點刪除策略和用戶保護策略被禁止審核通過后,如果用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài);URL特征累積刪除策略二次保護模塊,與URL特征累積刪除策略匹配模塊相連,用于在用戶提交的上傳信息因URL 特征累積刪除策略和用戶保護策略被禁止審核通過后,如果用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài)。根據(jù)本發(fā)明系統(tǒng)的再一實施例,在上傳信息包括圖片或詞條正文時,審核規(guī)則包括低質(zhì)量過濾策略加用戶保護策略,信息審核服務器包括圖片編輯策略判斷模塊,用于判斷用戶編輯后的上傳信息中的圖片數(shù)量與用戶編輯前的版本中的圖片數(shù)量相比是否小于預定個數(shù)并且用戶的編輯記錄是否符合用戶保護策略,如果小于預定個數(shù)并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;詞條正文創(chuàng)建策略判斷模塊,用于判斷用戶新建的上傳信息所包含的字節(jié)數(shù)是否小于第一預定字節(jié)數(shù),如果小于第一預定字節(jié)數(shù),則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因;詞條正文編輯策略判斷模塊,用于判斷上傳信息所包含的字節(jié)數(shù)是否介于第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、上傳信息中數(shù)字與字母的字節(jié)數(shù)是否超過預定比例并且用戶的編輯記錄是否符合用戶保護策略,如果上傳信息所包含的字節(jié)數(shù)介于第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、上傳信息中數(shù)字與字母的字節(jié)數(shù)超過預定比例并且用戶的編輯記錄不符合用戶保護策略,則確定上傳信息不滿足審核規(guī)則,并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明系統(tǒng)的再一實施例,在上傳信息包括詞條名稱時,審核規(guī)則包括詞條名稱命名策略,信息審核服務器包括詞條名稱命名策略匹配模塊,用于判斷上傳信息是否符合詞條名稱命名策略,如果不符合詞條名稱命名策略,則確定上傳信息不滿足審核規(guī)則, 并記錄不滿足規(guī)則的原因。根據(jù)本發(fā)明系統(tǒng)的再一實施例,該系統(tǒng)還包括信息反饋裝置,與信息審核服務器相連,用于在信息審核服務器對上傳信息執(zhí)行禁止審核通過操作后,將不滿足規(guī)則的原因反饋給用戶。本發(fā)明的信息自動審核系統(tǒng),由信息審核服務器按照審核規(guī)則逐條審核用戶上傳的信息,從而可以將審核人員從繁重的人工審核任務中解放出來。同時,在審核完成后,可以釋放服務器中無用信息所占用的大量存儲空間。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分。在附圖中圖1是本發(fā)明自動審核方法的第一實施例的流程示意圖。圖2是本發(fā)明方法的第七實施例的流程示意圖。圖3是本發(fā)明系統(tǒng)的第一實施例的結構示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。本發(fā)明的示例性實施例及其說明用于解釋本發(fā)明,但并不構成對本發(fā)明的不當限定。圖1是本發(fā)明自動審核方法的第一實施例的流程示意圖。如圖1所示,該實施例包括以下步驟S102,接收用戶上傳的信息,例如,上傳的信息可以包括詞條名稱、詞條正文、參考資料、擴展閱讀、圖片、圖注文字或修改原因中的至少一種信息,其中,詞條、詞條名稱、詞條正文、參考資料、擴展閱讀、圖注文字以及修改原因的含義如下詞條是網(wǎng)絡百科全書(例如,百度百科)所含內(nèi)容的基礎分割單位,有一個單一的主題,用于闡述一件事物、一個人物、或他們具備特定主題的組合,例如,“茉莉花”、“劉德華”或“2008年北京奧運會”;詞條名稱概括地描述詞條內(nèi)容的名稱;詞條正文包含但不限于“詞條概述”、“章節(jié)目錄”、“章節(jié)信息”等;參考資料是詞條中引用的有公信力并且可供查證的資料,一般包括書籍、論文、 雜志、網(wǎng)絡資源等;擴展閱讀是與詞條主題相關的其他信息源,能為讀者提供有效的延展性閱讀途徑;圖注文字用于解釋圖片的文字性說明;修改原因修改詞條的具體原因;S104,信息審核服務器查詢規(guī)則數(shù)據(jù)庫,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息,如果上傳信息中包含不滿足審核規(guī)則的內(nèi)容,則記錄不滿足規(guī)則的原因并在審核規(guī)則中所涉及的策略均匹配完畢后對上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。
從上述匹配過程可以看出,在上傳信息與審核規(guī)則中的所涉及的策略均匹配完畢后才執(zhí)行禁止審核通過操作(例如,刪除上傳信息的操作),在很大程度上提高了自動審核的效率,避免每次只審核一個相關策略以致用戶上傳的信息可能需要多次審核才能實現(xiàn)上傳信息的發(fā)布。根據(jù)上傳信息的不同,審核規(guī)則可以包括例如反廣告信息的過濾策略、反廣告信息的過濾策略加用戶保護策略、低質(zhì)量過濾策略加用戶保護策略、詞條名稱命名策略或修改原因策略中的至少一種。在下述實施例中將給出這些策略的具體解釋。該實施例利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則來匹配上傳信息,禁止不滿足審核規(guī)則的上傳信息通過審核,因此,在很大程度上保證了信息的質(zhì)量和可用性。同時,本發(fā)明利用信息審核服務器將審核規(guī)則與上傳信息進行匹配,與人工審核相比,在很大程度上提高信息審核的自動化程度。在本發(fā)明方法的第二實施例中,在上傳信息包括詞條正文、圖注文字或修改原因時,審核規(guī)則可以包括反廣告信息的過濾策略,具體地,反廣告信息的過濾策略包括(a) 如果上傳信息中包含聯(lián)系方式(該上傳信息可以是詞條正文、圖注文字或修改原因中的至少一種信息),則確認符合反廣告信息的過濾策略;(b)如果上傳信息(該上傳信息可以是詞條正文)中包含URL,則確認符合反廣告信息的過濾策略。利用規(guī)則數(shù)據(jù)庫中的上述審核規(guī)則匹配上傳信息的步驟包括查詢上傳信息(例如,詞條正文、圖注文字或修改原因中的至少一種信息)中是否包含聯(lián)系方式,如果包含聯(lián)系方式,則確定上傳信息不滿足審核規(guī)則,記錄不滿足規(guī)則的原因,并繼續(xù)其他刪除策略的判斷,該不滿足規(guī)則的原因可以是表達上傳信息可能包含廣告信息的原因;查詢詞條正文的新增部分是否包含URL,如果包含URL,則確定上傳信息不滿足審核規(guī)則,記錄不滿足規(guī)則的原因,并繼續(xù)其他刪除策略的判斷,該不滿足規(guī)則的原因可以是表達上傳信息可能包含廣告信息的原因。以下通過具體實例來說明上述匹配過程(1)在上傳信息包括詞條正文的情況下,如果該詞條正文中出現(xiàn)即時通訊工具號碼、手機號碼、固定電話號碼或email等聯(lián)系方式,則確定該上傳信息不滿足審核規(guī)則,記錄下“您提交的內(nèi)容中可能包含廣告信息”的原因,并繼續(xù)其他刪除策略的判斷;(2)如果該詞條正文的新增部分包含任何形式的URL,則確定該上傳信息不滿足審核規(guī)則,記錄下“您提交的內(nèi)容中可能包含廣告信息”的原因,并繼續(xù)其他刪除策略的判斷;(3)在上傳信息包括圖注文字的情況下,如果該圖注文字中出現(xiàn)即時通訊工具號碼、手機號碼、固定電話號碼或email等聯(lián)系信息,則確定該上傳信息不滿足審核規(guī)則,記錄下“您提交的內(nèi)容中可能包含廣告信息”的原因,并繼續(xù)其他刪除策略的判斷;(4)在上傳信息包括修改原因的情況下,如果該修改原因中出現(xiàn)即時通訊工具號碼、手機號碼、固定電話號碼或email等聯(lián)系信息,則確定該上傳信息不滿足審核規(guī)則,記錄下“您提交的內(nèi)容中可能包含廣告信息”的原因,并繼續(xù)其他刪除策略的判斷;通過該實施例的匹配過程可以刪除包含廣告信息的用戶上傳信息,以防止用戶通過網(wǎng)絡百科全書進行商業(yè)上的廣告宣傳,從而可以在有限的資源上保存用戶上傳的高質(zhì)量的有用信息,以供廣大用戶讀取。在本發(fā)明方法的第三實施例中,在上傳信息包括詞條的參考資料和/或擴展閱讀時,審核規(guī)則包括反廣告信息的過濾策略加用戶保護策略。具體地,反廣告信息的過濾策略包括(a)如果參考資料和擴展閱讀的新增內(nèi)容中出現(xiàn)的URL是否不在信任站點URL名單中(即,用戶提交的信息中可能包含廣告信息的鏈接,其為非信任站點),則確認上傳信息符合不信任站點刪除策略;(b)如果用戶提交的不同詞條中重復出現(xiàn)同一 URL地址,并且在預定時間內(nèi)同一 URL地址累積的個數(shù)超過預定個數(shù),則確認上傳信息符合URL特征累積刪除策略;(c)如果參考資料和/或擴展閱讀的新增內(nèi)容中出現(xiàn)URL并且包含廣告詞字段(該字段是可以根據(jù)需求進行任意配置的,例如可以為聯(lián)系方式、聯(lián)系人、公司電話、客戶服務熱線、歡迎選購、誠招代理、傳真等),則確認上傳信息符合廣告詞刪除策略。用戶保護策略是指當用戶編輯和新建詞條的數(shù)量在某個閾值范圍內(nèi),并且自動審核的通過率高于預定百分比時跳過自動審核,直接進入人工審核狀態(tài)。反廣告信息的過濾策略中的每個子規(guī)則可以對應相同或不同的用戶保護策略。針對上述反廣告信息的過濾策略中的(a)項,例如,其用戶保護策略可以如下述表1所示
權利要求
1.一種信息自動審核方法,其特征在于,所述方法包括接收用戶上傳的信息;信息審核服務器查詢規(guī)則數(shù)據(jù)庫,利用所述規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息,如果匹配確定所述上傳信息不滿足所述審核規(guī)則,則在匹配完畢后對所述上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述上傳信息包括詞條正文、圖注文字或修改原因時,所述審核規(guī)則包括反廣告信息的過濾策略,所述利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息的步驟包括查詢所述上傳信息中是否包含聯(lián)系方式,如果包含聯(lián)系方式,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;查詢所述詞條正文的新增部分是否包含統(tǒng)一資源定位符URL,如果包含URL,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
3.根據(jù)權利要求1所述的方法,其特征在于,在所述上傳信息包括詞條的參考資料或擴展閱讀時,所述審核規(guī)則包括反廣告信息的過濾策略加用戶保護策略,所述利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息的步驟包括查詢所述上傳信息中出現(xiàn)的URL是否符合不信任站點刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果URL符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷所述上傳信息是否符合URL特征累積刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息符合所述URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷所述上傳信息是否符合廣告詞刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息符合廣告詞刪除策略并且用戶的編輯記錄不符合用戶保護策略, 則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
4.根據(jù)權利要求3所述的方法,其特征在于,所述利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息的步驟還包括在用戶首次提交的上傳信息因所述不信任站點刪除策略和用戶保護策略被禁止審核通過后,如果所述用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合所述不信任站點刪除策略并且用戶的編輯記錄不符合所述用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài);在用戶提交的上傳信息因所述URL特征累積刪除策略和用戶保護策略被禁止審核通過后,如果所述用戶自禁止審核通過操作后在所述預定時間內(nèi)第二次提交的同名版本上傳信息又符合所述URL特征累積刪除策略并且用戶的編輯記錄不符合所述用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài)。
5.根據(jù)權利要求1所述的方法,其特征在于,在所述上傳信息包括圖片或詞條正文時, 所述審核規(guī)則包括低質(zhì)量過濾策略加用戶保護策略,所述利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息的步驟包括判斷用戶編輯后的上傳信息中的圖片數(shù)量與用戶編輯前的版本中的圖片數(shù)量相比是否小于預定個數(shù)并且用戶的編輯記錄是否符合用戶保護策略,如果小于所述預定個數(shù)并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷用戶新建的上傳信息所包含的字節(jié)數(shù)是否小于第一預定字節(jié)數(shù),如果小于所述第一預定字節(jié)數(shù),則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;判斷所述上傳信息所包含的字節(jié)數(shù)是否介于所述第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、所述上傳信息中數(shù)字與字母的字節(jié)數(shù)是否超過預定比例并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息所包含的字節(jié)數(shù)介于所述第一預定字節(jié)數(shù)和所述第二預定字節(jié)數(shù)之間、所述上傳信息中數(shù)字與字母的字節(jié)數(shù)超過所述預定比例并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
6.根據(jù)權利要求1所述的方法,其特征在于,在所述上傳信息包括詞條名稱時,所述審核規(guī)則包括詞條名稱命名策略,所述利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配所述上傳信息的步驟包括判斷所述上傳信息是否符合詞條名稱命名策略,如果不符合所述詞條名稱命名策略, 則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
7.根據(jù)權利要求1至6中任一項所述的方法,其特征在于,所述方法還包括在對所述上傳信息執(zhí)行禁止審核通過操作后,將所述不滿足規(guī)則的原因反饋給所述用戶。
8.一種信息自動審核系統(tǒng),其特征在于,所述系統(tǒng)包括信息接收裝置,用于接收用戶上傳的信息;規(guī)則數(shù)據(jù)庫,用于存儲審核規(guī)則;信息審核服務器,與所述信息接收裝置和所述規(guī)則數(shù)據(jù)庫相連,用于從所述規(guī)則數(shù)據(jù)庫中讀取所述審核規(guī)則,利用所述審核規(guī)則匹配所述上傳信息,如果匹配確定所述上傳信息不滿足所述審核規(guī)則,則在匹配完畢后對所述上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。
9.根據(jù)權利要求8所述的系統(tǒng),其特征在于,在所述上傳信息包括詞條正文、圖注文字或修改原因時,所述審核規(guī)則包括反廣告信息的過濾策略,所述信息審核服務器包括聯(lián)系方式匹配模塊,用于查詢所述上傳信息中是否包含聯(lián)系方式,如果包含聯(lián)系方式, 則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;URL查詢模塊,用于查詢所述詞條正文的新增部分是否包含統(tǒng)一資源定位符URL,如果包含URL,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
10.根據(jù)權利要求8所述的系統(tǒng),其特征在于,在所述上傳信息包括詞條的參考資料或擴展閱讀時,所述審核規(guī)則包括反廣告信息的過濾策略加用戶保護策略,所述信息審核服務器包括不信任站點刪除策略匹配模塊,用于查詢所述上傳信息中出現(xiàn)的URL是否符合不信任站點刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果URL符合不信任站點刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;URL特征累積刪除策略匹配模塊,用于判斷所述上傳信息是否符合URL特征累積刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息符合所述URL特征累積刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;廣告詞刪除策略匹配模塊,用于判斷所述上傳信息是否符合廣告詞刪除策略并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息符合廣告詞刪除策略并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
11.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述信息審核服務器還包括不信任站點刪除策略二次保護模塊,與所述不信任站點刪除策略匹配模塊相連,用于在用戶首次提交的上傳信息因所述不信任站點刪除策略和用戶保護策略被禁止審核通過后,如果所述用戶自禁止審核通過操作后在預定時間內(nèi)第二次提交的同名版本上傳信息又符合所述不信任站點刪除策略并且用戶的編輯記錄不符合所述用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài);URL特征累積刪除策略二次保護模塊,與所述URL特征累積刪除策略匹配模塊相連,用于在用戶提交的上傳信息因所述URL特征累積刪除策略和用戶保護策略被禁止審核通過后,如果所述用戶自禁止審核通過操作后在所述預定時間內(nèi)第二次提交的同名版本上傳信息又符合所述URL特征累積刪除策略并且用戶的編輯記錄不符合所述用戶保護策略,則跳過自動審核,并進入人工待審狀態(tài)。
12.根據(jù)權利要求8所述的系統(tǒng),其特征在于,在所述上傳信息包括圖片或詞條正文時,所述審核規(guī)則包括低質(zhì)量過濾策略加用戶保護策略,所述信息審核服務器包括圖片編輯策略判斷模塊,用于判斷用戶編輯后的上傳信息中的圖片數(shù)量與用戶編輯前的版本中的圖片數(shù)量相比是否小于預定個數(shù)并且用戶的編輯記錄是否符合用戶保護策略, 如果小于所述預定個數(shù)并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;詞條正文創(chuàng)建策略判斷模塊,用于判斷用戶新建的上傳信息所包含的字節(jié)數(shù)是否小于第一預定字節(jié)數(shù),如果小于所述第一預定字節(jié)數(shù),則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因;詞條正文編輯策略判斷模塊,用于判斷所述上傳信息所包含的字節(jié)數(shù)是否介于所述第一預定字節(jié)數(shù)和第二預定字節(jié)數(shù)之間、所述上傳信息中數(shù)字與字母的字節(jié)數(shù)是否超過預定比例并且用戶的編輯記錄是否符合用戶保護策略,如果所述上傳信息所包含的字節(jié)數(shù)介于所述第一預定字節(jié)數(shù)和所述第二預定字節(jié)數(shù)之間、所述上傳信息中數(shù)字與字母的字節(jié)數(shù)超過所述預定比例并且用戶的編輯記錄不符合用戶保護策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
13.根據(jù)權利要求8所述的系統(tǒng),其特征在于,在所述上傳信息包括詞條名稱時,所述審核規(guī)則包括詞條名稱命名策略,所述信息審核服務器包括詞條名稱命名策略匹配模塊,用于判斷所述上傳信息是否符合詞條名稱命名策略,如果不符合所述詞條名稱命名策略,則確定所述上傳信息不滿足所述審核規(guī)則,并記錄不滿足規(guī)則的原因。
14.根據(jù)權利要求8至13中任一項所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括信息反饋裝置,與所述信息審核服務器相連,用于在所述信息審核服務器對所述上傳信息執(zhí)行禁止審核通過操作后,將所述不滿足規(guī)則的原因反饋給所述用戶。
全文摘要
本發(fā)明公開了一種信息自動審核方法與系統(tǒng)。其中,該方法包括接收用戶上傳的信息;信息審核服務器查詢規(guī)則數(shù)據(jù)庫,利用規(guī)則數(shù)據(jù)庫中的審核規(guī)則匹配上傳信息,如果匹配確定上傳信息不滿足審核規(guī)則,則在匹配完畢后對上傳信息執(zhí)行禁止審核通過操作,否則,確定自動審核通過并進入人工待審狀態(tài)。本發(fā)明的系統(tǒng)和方法,由信息審核服務器按照審核規(guī)則逐條審核用戶上傳的信息,從而可以將審核人員從繁重的人工審核任務中解放出來。同時,在審核完成后,可以釋放服務器中無用信息所占用的大量存儲空間。
文檔編號G06F17/30GK102314457SQ20101022240
公開日2012年1月11日 申請日期2010年6月30日 優(yōu)先權日2010年6月30日
發(fā)明者彭川, 支靜, 耿磊, 陳恭明 申請人:百度在線網(wǎng)絡技術(北京)有限公司