国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的制作方法

      文檔序號:6502654閱讀:234來源:國知局
      互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的制作方法
      【專利摘要】本申請公開了一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),包括:數(shù)據(jù)預(yù)處理模塊,從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾而得到每個網(wǎng)頁對應(yīng)的文本;對獲取的文本首先由分詞器得到多個分詞,再經(jīng)過特征值降維僅保留突出該文本特征的分詞。數(shù)據(jù)分析模塊,根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊規(guī)則算法這四類算法中選擇相應(yīng)的一類對多類算法,每類算法中采用一種或多種算法,對所述數(shù)據(jù)預(yù)處理模塊輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞進(jìn)行處理,并存儲分析結(jié)果。本申請避免了使用單一數(shù)據(jù)挖掘算法造成數(shù)據(jù)分析結(jié)果不準(zhǔn)確的缺陷,或在使用一種算法的基礎(chǔ)上再使用其它算法時需要進(jìn)行系統(tǒng)的二次開發(fā)的時間成本,提高了數(shù)據(jù)分析的效率和準(zhǔn)確率。
      【專利說明】互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)

      【技術(shù)領(lǐng)域】
      [0001] 本申請涉及一種數(shù)據(jù)挖掘(data mining)技術(shù),特別是涉及一種對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn) 行分析的方法。

      【背景技術(shù)】
      [0002] 數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的 過程。它主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、數(shù)據(jù)檢索等技術(shù)來實現(xiàn) 上述目標(biāo)。
      [0003] 現(xiàn)有的數(shù)據(jù)挖掘過程使用一種或者固定的幾種數(shù)據(jù)分析算法構(gòu)建出數(shù)據(jù)分析系 統(tǒng),由于每種算法都具有各自的優(yōu)勢和劣勢,往往造成數(shù)據(jù)分析結(jié)果之間產(chǎn)生偏差,導(dǎo)致基 于數(shù)據(jù)分析的上層業(yè)務(wù)應(yīng)用難以進(jìn)行決策。


      【發(fā)明內(nèi)容】

      [0004] 本申請所要解決的技術(shù)問題是提供一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),可根據(jù)不同行業(yè)需 求對互聯(lián)網(wǎng)數(shù)據(jù)按照一種或多種算法同時進(jìn)行挖掘分析,實現(xiàn)各種算法的優(yōu)勢互補。
      [0005] 為解決上述技術(shù)問題,本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)包括:
      [0006] 數(shù)據(jù)預(yù)處理模塊,從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾而得到每個網(wǎng)頁 對應(yīng)的文本;對獲取的文本首先由分詞器得到多個分詞,再經(jīng)過特征值降維僅保留突出該 文本特征的分詞;
      [0007] 數(shù)據(jù)分析模塊,根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊規(guī)則算 法這四類算法中選擇相應(yīng)的一類對多類算法,每類算法中采用一種或多種算法,對所述數(shù) 據(jù)預(yù)處理模塊輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞各自獨立地進(jìn)行處理,并存儲分 析結(jié)果。
      [0008] 本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)中包含了四類數(shù)據(jù)分析算法,每一類算法中又可采用 一種或多種算法并可任意替換。這便避免了使用單一數(shù)據(jù)挖掘算法造成數(shù)據(jù)分析結(jié)果不準(zhǔn) 確的缺陷,或在使用一種算法的基礎(chǔ)上再使用其它算法時需要進(jìn)行系統(tǒng)的二次開發(fā)的時間 成本,提高了數(shù)據(jù)分析的效率和準(zhǔn)確率。

      【專利附圖】

      【附圖說明】
      [0009] 圖1是本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)示意圖;
      [0010] 圖2是本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)用于對互聯(lián)網(wǎng)網(wǎng)站進(jìn)行分類的一個實施例的 實施方法流程圖。
      [0011] 圖中附圖標(biāo)記說明:
      [0012] 10為數(shù)據(jù)預(yù)處理模塊;20為數(shù)據(jù)分析模塊。

      【具體實施方式】
      [0013] 請參閱圖1,本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊10和數(shù)據(jù)分析模塊 20 〇
      [0014] 所述數(shù)據(jù)預(yù)處理模塊10從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾掉標(biāo)簽等 無用信息,從而獲取每個網(wǎng)頁對應(yīng)的文本。對獲取的文本首先由分詞器進(jìn)行有效切分而得 到多個分詞,再經(jīng)過特征值降維從中過濾掉不太重要的分詞,僅保留可以明顯突出該文本 特征的分詞。
      [0015] 所述數(shù)據(jù)分析模塊20根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊 規(guī)則算法這四類算法中選擇相應(yīng)的一類或多類算法,每類算法中采用一種或多種算法,對 所述數(shù)據(jù)預(yù)處理模塊10輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞數(shù)據(jù)進(jìn)行處理,并存 儲分析結(jié)果。
      [0016] 所述分類(classi fica tion)算法主要是通過對已知類別的文本進(jìn)行訓(xùn)練,得 出訓(xùn)練模型,從而根據(jù)模型對待處理的數(shù)據(jù)進(jìn)行分類。分類算法適用于在已經(jīng)規(guī)定了類別 的前提下,對數(shù)據(jù)進(jìn)行分類。常見的分類算法有svm算法、貝葉斯(bayes)算法、隨機森立 (ramdom forest)算法等。
      [0017] 所述聚類(clustering)算法又稱為無監(jiān)督學(xué)習(xí)算法,主要通過tf-idf (term frequency - inverse document frequency、詞步頁-反文檔步頁率)、idf (inverse document frequency、反文檔頻率)等算法將文本中的分詞轉(zhuǎn)換為向量,通過比較文本中對應(yīng)向量的 距離與設(shè)定閾值的大小,從而對這些文本進(jìn)行分類。聚類算法適用于在類別未知的前提下, 對數(shù)據(jù)進(jìn)行分類。常見的聚類算法有k-means算法等。
      [0018] 所述關(guān)聯(lián)規(guī)則(Association Rules)算法主要是從大量數(shù)據(jù)中獲取數(shù)據(jù)之間的關(guān) 聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則算法適用于從海量數(shù)據(jù)中尋求各數(shù)據(jù)之間的關(guān)聯(lián)性。例如,美國沃爾瑪 超市發(fā)現(xiàn)嬰兒尿布與啤酒被同時采購的概率很高,經(jīng)分析發(fā)現(xiàn)年輕爸爸在為孩子采購尿布 的同時往往為自己采購啤酒。
      [0019] 所述特殊規(guī)則匹配(rules matching)算法主要是通過大量經(jīng)驗的積累,總結(jié)出在 出現(xiàn)某種規(guī)則的前提下,該文本一定屬于某個類別的一種特殊的算法。特殊規(guī)則匹配算法 可與上述三類算法相結(jié)合使用。
      [0020] 以上四類算法均有多種已存在的實現(xiàn)方式,在此不做贅述。
      [0021] 請參閱圖2,下面就以一個具體實施例對本申請所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)進(jìn)行 詳細(xì)說明,該實施例是用來分析互聯(lián)網(wǎng)網(wǎng)站的性質(zhì),至少區(qū)分為經(jīng)營性網(wǎng)站和非經(jīng)營性網(wǎng) 站兩大類,這兩者的區(qū)別主要在于是否以營利為目的。
      [0022] 第1步,對采集下來的大量互聯(lián)網(wǎng)的網(wǎng)頁數(shù)據(jù)中進(jìn)行文本預(yù)處理,即過濾掉無用 信息,獲取網(wǎng)頁主要內(nèi)容,并將獲取到的內(nèi)容保存為文本。然后,選用分詞器對文本進(jìn)行分 詞,得到包含文本和此時分詞的中間文本集。如果是針對中文分詞,所述分詞器例如采用 ansj分詞器、_seg4j分詞器、lucene分詞器中的一種或多種。最后,選用特征值降維算法 從中間文本集中過濾掉無用的分詞,僅保留權(quán)重較高、可以比較明顯表示出該文本類別特 征的分詞,得到包含文本和此時分詞的最終文本集。所述特征值降維例如采用tf-idf算 法、權(quán)重計算等方法。
      [0023] 第2步,由于類別已定為至少兩種,因而適于采用分類算法和/或特殊規(guī)則匹配算 法。對于分類算法而言構(gòu)建模型,對于特殊規(guī)則匹配算法而言歸納規(guī)則。
      [0024] 所述分類算法構(gòu)建模型所用的數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù),是所屬類別已知的多個互聯(lián)網(wǎng) 網(wǎng)站經(jīng)過第1步處理后的最終文本集。例如構(gòu)建經(jīng)營性網(wǎng)站模型的時候,選擇公司類、網(wǎng)上 大賣場類、收費的俱樂部類的網(wǎng)站的最終文本集作為訓(xùn)練數(shù)據(jù)。構(gòu)建非經(jīng)營性網(wǎng)站模型的 時候,選擇政府部門網(wǎng)站、學(xué)校類、社會公益類的網(wǎng)站的最終文本集作為訓(xùn)練數(shù)據(jù)。
      [0025] 可根據(jù)多種分類算法構(gòu)建各自的模型。當(dāng)采用svm算法時,可首先構(gòu)建公司類網(wǎng) 站和非公司類網(wǎng)站模型,然后用非公司類網(wǎng)站再構(gòu)建學(xué)校類網(wǎng)站和非學(xué)校類網(wǎng)站的模型, 以此類推,最終得到多個類別模型。這是由于svm算法雖然分類準(zhǔn)確率較高,但具有一定的 局限性,每次只能分成兩個類別。當(dāng)采用bayes算法時,其一次可構(gòu)建多個類別的模型,可 分別選取公司類網(wǎng)站、政府類網(wǎng)站、網(wǎng)上大賣場類網(wǎng)站等具有代表性的網(wǎng)站的最終文本集, 對這些最終文本集用bayes算法同時構(gòu)建多個類別模型。
      [0026] 所述特殊規(guī)則匹配算法歸納的規(guī)則例如是:政府類網(wǎng)站一定為非經(jīng)營性網(wǎng)站,從 而可以得出url中含有g(shù)ov. "的網(wǎng)頁一定是非經(jīng)營性網(wǎng)站,為此建立一條規(guī)則。
      [0027] 第3步,以所選擇分類算法和特殊規(guī)則匹配算法,并以分類算法中的一種或多種, 例如svm算法、bayes算法、隨機森林(random forest)算法等,對待分類文本的最終文本集 各自獨立地進(jìn)行分類,并將分類的結(jié)果存入結(jié)果庫。
      [0028] 第4步,如果一個互聯(lián)網(wǎng)網(wǎng)站的最終文本集用多種算法分類的結(jié)果都屬于公司類 網(wǎng)站,則可以確定該最終文本集對應(yīng)的網(wǎng)站一定為經(jīng)營性網(wǎng)站。如果一個互聯(lián)網(wǎng)網(wǎng)站的最 終文本集用多種算法的分類結(jié)果不一樣,則有兩種處理方式:一種是區(qū)分各類算法的權(quán)重 并由此判斷分類結(jié)果的權(quán)重,采納權(quán)重較大的分類結(jié)果;另一種最終由人工判定。
      [0029] 例如,可將特殊規(guī)則匹配算法設(shè)為具有最高優(yōu)先級,一旦符合某條規(guī)則后就采用 特殊規(guī)則匹配算法的結(jié)論。在不符合任何規(guī)則的前提下,為svm算法、bayes算法、隨機森林 算法賦予不同的權(quán)重Wl、W2、W3。若一個互聯(lián)網(wǎng)網(wǎng)站的最終文本集用svm算法被分為A類 另IJ,用bayes算法和隨機森林算法均被分為B類別。若WDW2+W3,則該互聯(lián)網(wǎng)網(wǎng)站被分為 A類別;若W1〈W2+W3,則該互聯(lián)網(wǎng)網(wǎng)站被分為B類別;若W1=W2+W3,則交由人工判定。
      [0030] 以上僅為本申請的優(yōu)選實施例,并不用于限定本申請。對于本領(lǐng)域的技術(shù)人員來 說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同 替換、改進(jìn)等,均應(yīng)包含在本申請的保護(hù)范圍之內(nèi)。
      【權(quán)利要求】
      1. 一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,包括: 數(shù)據(jù)預(yù)處理模塊,從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾而得到每個網(wǎng)頁對應(yīng) 的文本;對獲取的文本首先由分詞器得到多個分詞,再經(jīng)過特征值降維僅保留突出該文本 特征的分詞; 數(shù)據(jù)分析模塊,根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊規(guī)則算法這 四類算法中選擇相應(yīng)的一類對多類算法,每類算法中采用一種或多種算法,對所述數(shù)據(jù)預(yù) 處理模塊輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞各自獨立地進(jìn)行處理,并存儲分析結(jié) 果。
      2. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,所述分詞器包括ansj分詞 器、_seg4j分詞器、lucene分詞器中的一種或多種。
      3. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,所述特征值降維采用 tf-idf算法、權(quán)重計算的一種或多種。
      4. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,所述分類算法包括svm算 法、貝葉斯算法、隨機森林算法。
      5. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,所述聚類算法包括k-means 算法。
      6. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征是,當(dāng)所述數(shù)據(jù)分析模塊采用 多種算法處理時,當(dāng)分析結(jié)果不一致,則根據(jù)各種算法的權(quán)重判斷分析結(jié)果的權(quán)重,并采納 權(quán)重較大的分析結(jié)果。
      【文檔編號】G06F17/30GK104142960SQ201310172687
      【公開日】2014年11月12日 申請日期:2013年5月10日 優(yōu)先權(quán)日:2013年5月10日
      【發(fā)明者】顧青, 倪慶洋, 謝超, 梁佐泉, 馮四風(fēng), 梁艷敏, 張士鵬, 田文晉, 賈偉峰, 田肖 申請人:上海普華誠信信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1