本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種自然語言信息處理方法及系統(tǒng)。
背景技術(shù):
隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)中出現(xiàn)越來越多形式各異的數(shù)據(jù)資源。從海量異構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)中準(zhǔn)確高效地發(fā)現(xiàn)并獲取用戶所需的數(shù)據(jù)信息,需要對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行有效地組織管理。
信息組織是指按照一定的規(guī)則來描述信息資源或信息對象,以便于能被需要它們的人高效地利用。信息檢索則是指為了個人或他人的需要,去發(fā)現(xiàn)適當(dāng)?shù)男畔①Y源或信息對象。信息組織和信息檢索是一對互逆過程。信息檢索的涵義滿足信息用戶的信息需求而建立的、存貯經(jīng)過加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種相對獨(dú)立的服務(wù)實(shí)體包括人和檢索工作單位,統(tǒng)稱為信息檢索系統(tǒng)informationretrievalsystem,簡稱irs。
如何對互聯(lián)網(wǎng)中的各種信息進(jìn)行分析處理,得到特定行業(yè)的分析數(shù)據(jù)成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種自然語言信息處理方法,包括:
獲取原始網(wǎng)頁;
對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;
從所述自然語言信息中獲取指定行業(yè)的文字信息;
對所述文字信息進(jìn)行清理;
對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;
根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。
進(jìn)一步地,從所述自然語言信息中獲取指定行業(yè)的文字信息之后,還包括:
將所述文字信息存儲到hadoop系統(tǒng)中。
進(jìn)一步地,所述對所述文字信息進(jìn)行清理,包括:
刪除文字信息中的廣告信息。
進(jìn)一步地,所述對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理之后,還包括:
將結(jié)構(gòu)化處理后的信息存儲到hadoop系統(tǒng)中的hbase數(shù)據(jù)庫。
進(jìn)一步地,所述根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析包括:
從hbase數(shù)據(jù)庫中獲取結(jié)構(gòu)化處理后的信息;
從所述結(jié)構(gòu)化處理后的信息中提取所述指定行業(yè)的現(xiàn)狀信息、社會對所述指定行業(yè)的看法信息。
本發(fā)明還提供了一種自然語言信息處理系統(tǒng),包括:
網(wǎng)頁獲取模塊,用于獲取原始網(wǎng)頁;
自然語言提取模塊,用于對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;
指定信息提取模塊,用于從所述自然語言信息中獲取指定行業(yè)的文字信息;
清理模塊,用于對所述文字信息進(jìn)行清理;
結(jié)構(gòu)化處理模塊,用于對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;
分析模塊,用于根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。
進(jìn)一步地,還包括:
第一存儲模塊,用于將所述文字信息存儲到hadoop系統(tǒng)中。
進(jìn)一步地,所述清理模塊包括:
廣告刪除單元,用于刪除文字信息中的廣告信息。
進(jìn)一步地,還包括:
第二存儲模塊,用于將結(jié)構(gòu)化處理后的信息存儲到hadoop系統(tǒng)中的hbase數(shù)據(jù)庫。
進(jìn)一步地,所述分析模塊包括:
獲取單元,用于從hbase數(shù)據(jù)庫中獲取結(jié)構(gòu)化處理后的信息;
分析單元,用于從所述結(jié)構(gòu)化處理后的信息中提取所述指定行業(yè)的現(xiàn)狀信息、社會對所述指定行業(yè)的看法信息。
綜上所述,本發(fā)明通過獲取原始網(wǎng)頁;對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;從所述自然語言信息中獲取指定行業(yè)的文字信息;對所述文字信息進(jìn)行清理;對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。本發(fā)明使用成熟的大數(shù)據(jù)存儲系——hadoop系統(tǒng)、hbase數(shù)據(jù)庫,為大數(shù)據(jù)的存儲、操作提供便捷的服務(wù)。采用成熟的網(wǎng)絡(luò)爬蟲技術(shù),從海量的網(wǎng)絡(luò)公共信息中抓取特定行業(yè)的文字信息。經(jīng)過文字清理、結(jié)構(gòu)化處理技術(shù)將海量的、雜亂的信息變成結(jié)構(gòu)化的,可統(tǒng)計分析的數(shù)據(jù),并用于分析選定行業(yè)的現(xiàn)狀、分析社會對選定行業(yè)的各種看法態(tài)度看法等,指導(dǎo)行業(yè)發(fā)展,修正行業(yè)的方向,為行業(yè)的相關(guān)企業(yè)提供的決策上的依據(jù),助力企業(yè)發(fā)展。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案和優(yōu)點(diǎn),下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它附圖。
圖1是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理方法的計算機(jī)終端的硬件結(jié)構(gòu)框圖;
圖2是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理方法流程圖;
圖3是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理系統(tǒng)的交互圖;
圖4是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實(shí)施例1
根據(jù)本發(fā)明實(shí)施例,提供了一種自然語言信息處理方法的實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
本申請實(shí)施例一所提供的方法實(shí)施例可以在移動終端、計算機(jī)終端或者類似的運(yùn)算裝置中執(zhí)行。以運(yùn)行在計算機(jī)終端上為例,圖1是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理方法的計算機(jī)終端的硬件結(jié)構(gòu)框圖。如圖1所示,計算機(jī)終端100可以包括一個或多個(圖中僅示出一個)處理器102(處理器102可以包括但不限于微處理器mcu或可編程邏輯器件fpga等的處理裝置)、用于存儲數(shù)據(jù)的存儲器104、以及用于通信功能的傳輸裝置106。本領(lǐng)域普通技術(shù)人員可以理解,圖1所示的結(jié)構(gòu)僅為示意,其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,計算機(jī)終端100還可包括比圖1中所示更多或者更少的組件,或者具有與圖2所示不同的配置。
存儲器104可用于存儲應(yīng)用軟件的軟件程序以及模塊,如本發(fā)明實(shí)施例中的短文本分類方法對應(yīng)的程序指令/模塊,處理器102通過運(yùn)行存儲在存儲器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的短文本分類方法。存儲器104可包括高速隨機(jī)存儲器,還可包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實(shí)例中,存儲器104可進(jìn)一步包括相對于處理器102遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至計算機(jī)終端100。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
傳輸裝置106用于經(jīng)由一個網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實(shí)例可包括計算機(jī)終端100的通信供應(yīng)商提供的無線網(wǎng)絡(luò)。在一個實(shí)例中,傳輸裝置106包括一個網(wǎng)絡(luò)適配器(networkinterfacecontroller,簡稱為nic),其可通過基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進(jìn)行通訊。在一個實(shí)例中,傳輸裝置106可以為射頻(radiofrequency,簡稱為rf)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
在上述運(yùn)行環(huán)境下,本申請?zhí)峁┝巳鐖D2所示的自然語言信息處理方法。該方法可以應(yīng)用于智能終端設(shè)備中,由智能終端設(shè)備中的處理器執(zhí)行,智能終端設(shè)備可以是智能手機(jī)、平板電腦等。智能終端設(shè)備中安裝有至少一個應(yīng)用程序,本發(fā)明實(shí)施例并不限定應(yīng)用程序的種類,可以為系統(tǒng)類應(yīng)用程序,也可以為軟件類應(yīng)用程序。
圖2是根據(jù)本發(fā)明實(shí)施例的自然語言信息處理方法的流程圖。如圖2所示,該自然語言信息處理方法的一種可選的方案包括如下步驟:
s101,獲取原始網(wǎng)頁。
面對當(dāng)下海量的網(wǎng)絡(luò)公共信息,我們采用多線程、非阻塞的下載方式,從網(wǎng)絡(luò)中下載網(wǎng)絡(luò)公共信息。優(yōu)選采用網(wǎng)絡(luò)爬蟲獲取原始網(wǎng)頁,并對原始網(wǎng)頁進(jìn)行分析。
s102,對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息。
對網(wǎng)絡(luò)爬蟲抓取下來的網(wǎng)頁進(jìn)行分析,提取里面的自然語言(文字)信息。
s103,從所述自然語言信息中獲取指定行業(yè)的文字信息。
s104,對所述文字信息進(jìn)行清理。
網(wǎng)絡(luò)上爬取的公共信息,內(nèi)含相當(dāng)多的雜質(zhì)、冗余信息,需進(jìn)行有效清理。清理網(wǎng)絡(luò)爬蟲爬下來的海量公共信息。
s105,對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理。
自然語言結(jié)構(gòu)化處理,經(jīng)清洗過的語言信息,經(jīng)結(jié)構(gòu)化處理后,存入hbase數(shù)據(jù)庫中用于統(tǒng)計分析使用。
s106,根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。
采用分布式計算的方式實(shí)現(xiàn)對海量數(shù)據(jù)的快速統(tǒng)計,及時對信息進(jìn)行處理、反饋。
作為一種可選的實(shí)施例,從所述自然語言信息中獲取指定行業(yè)的文字信息之后,還包括:
將所述文字信息存儲到hadoop系統(tǒng)中。
作為一種可選的實(shí)施例,所述對所述文字信息進(jìn)行清理,包括:
刪除文字信息中的廣告信息。
作為一種可選的實(shí)施例,所述對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理之后,還包括:
將結(jié)構(gòu)化處理后的信息存儲到hadoop系統(tǒng)中的hbase數(shù)據(jù)庫。
作為一種可選的實(shí)施例,所述根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析包括:
從hbase數(shù)據(jù)庫中獲取結(jié)構(gòu)化處理后的信息;
從所述結(jié)構(gòu)化處理后的信息中提取所述指定行業(yè)的現(xiàn)狀信息、社會對所述指定行業(yè)的看法信息。
本申請針對處理網(wǎng)絡(luò)中海量自然語言,應(yīng)用網(wǎng)絡(luò)爬蟲、網(wǎng)頁分析、hadoop系統(tǒng)、hbase數(shù)據(jù)庫、信息清洗技術(shù)、自然語言結(jié)構(gòu)化處理技術(shù),基于大數(shù)據(jù)的統(tǒng)計分析。通過網(wǎng)絡(luò)爬蟲、網(wǎng)頁分析取得網(wǎng)絡(luò)中的大量自然語言信息,提交hadoop系統(tǒng),后臺文字清理系統(tǒng)、自然語言結(jié)構(gòu)處理系統(tǒng)對自然語言信息進(jìn)行分裝進(jìn)入hbase數(shù)據(jù)庫、統(tǒng)計分析。提供實(shí)時網(wǎng)絡(luò)信息分析,及時掌握全面的網(wǎng)絡(luò)信息。
具體來說,指定行業(yè)可通過輸入行業(yè)關(guān)鍵字或在預(yù)設(shè)的多個行業(yè)關(guān)鍵字中選取。
其中,步驟s105中對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理時,可針對發(fā)布網(wǎng)站、類型、主題、抓取時間、發(fā)表時間、客戶端、所在地、日期、行業(yè)分類、所屬國家、進(jìn)口/國產(chǎn)等多個信息進(jìn)行統(tǒng)計。
綜上所述,本發(fā)明通過獲取原始網(wǎng)頁;對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;從所述自然語言信息中獲取指定行業(yè)的文字信息;對所述文字信息進(jìn)行清理;對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。本發(fā)明使用成熟的大數(shù)據(jù)存儲系——hadoop系統(tǒng)、hbase數(shù)據(jù)庫,為大數(shù)據(jù)的存儲、操作提供便捷的服務(wù)。采用成熟的網(wǎng)絡(luò)爬蟲技術(shù),從海量的網(wǎng)絡(luò)公共信息中抓取特定行業(yè)的文字信息。對網(wǎng)絡(luò)上中的各種文字信息,如新聞、評論、論壇等,進(jìn)行收集、清理、結(jié)構(gòu)化處理、分類存儲、提取統(tǒng)計、分析。經(jīng)過文字清理、結(jié)構(gòu)化處理技術(shù)將海量的、雜亂的信息變成結(jié)構(gòu)化的,可統(tǒng)計分析的數(shù)據(jù),并用于分析選定行業(yè)的現(xiàn)狀、分析社會對選定行業(yè)的各種看法態(tài)度看法等,指導(dǎo)行業(yè)發(fā)展,修正行業(yè)的方向,為行業(yè)的相關(guān)企業(yè)提供的決策上的依據(jù),助力企業(yè)發(fā)展。
實(shí)施例2
圖3是本發(fā)明實(shí)施例提供的自然語言信息處理系統(tǒng)的系統(tǒng)交互圖;圖4是本發(fā)明實(shí)施例提供的自然語言信息處理系統(tǒng)的結(jié)構(gòu)框圖。如圖3、圖4所示,本發(fā)明的系統(tǒng)包括:
網(wǎng)頁獲取模塊,用于獲取原始網(wǎng)頁;
自然語言提取模塊,用于對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;
指定信息提取模塊,用于從所述自然語言信息中獲取指定行業(yè)的文字信息;
清理模塊,用于對所述文字信息進(jìn)行清理;
結(jié)構(gòu)化處理模塊,用于對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;
分析模塊,用于根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。
進(jìn)一步地,還包括:
第一存儲模塊,用于將所述文字信息存儲到hadoop系統(tǒng)中。
進(jìn)一步地,所述清理模塊包括:
廣告刪除單元,用于刪除文字信息中的廣告信息。
進(jìn)一步地,還包括:
第二存儲模塊,用于將結(jié)構(gòu)化處理后的信息存儲到hadoop系統(tǒng)中的hbase數(shù)據(jù)庫。
進(jìn)一步地,所述分析模塊包括:
獲取單元,用于從hbase數(shù)據(jù)庫中獲取結(jié)構(gòu)化處理后的信息;
分析單元,用于從所述結(jié)構(gòu)化處理后的信息中提取所述指定行業(yè)的現(xiàn)狀信息、社會對所述指定行業(yè)的看法信息。
綜上所述,本發(fā)明通過獲取原始網(wǎng)頁;對所述原始網(wǎng)頁進(jìn)行分析,提取網(wǎng)頁中的自然語言信息;從所述自然語言信息中獲取指定行業(yè)的文字信息;對所述文字信息進(jìn)行清理;對清理后的所述文字信息進(jìn)行結(jié)構(gòu)化處理;根據(jù)結(jié)構(gòu)化處理后的信息對指定行業(yè)進(jìn)行分析。本發(fā)明使用成熟的大數(shù)據(jù)存儲系——hadoop系統(tǒng)、hbase數(shù)據(jù)庫,為大數(shù)據(jù)的存儲、操作提供便捷的服務(wù)。采用成熟的網(wǎng)絡(luò)爬蟲技術(shù),從海量的網(wǎng)絡(luò)公共信息中抓取特定行業(yè)的文字信息。經(jīng)過文字清理、結(jié)構(gòu)化處理技術(shù)將海量的、雜亂的信息變成結(jié)構(gòu)化的,可統(tǒng)計分析的數(shù)據(jù),并用于分析選定行業(yè)的現(xiàn)狀、分析社會對選定行業(yè)的各種看法態(tài)度看法等,指導(dǎo)行業(yè)發(fā)展,修正行業(yè)的方向,為行業(yè)的相關(guān)企業(yè)提供的決策上的依據(jù),助力企業(yè)發(fā)展。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。