国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法及系統(tǒng)的制作方法

      文檔序號(hào):6514764閱讀:216來(lái)源:國(guó)知局
      一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法及系統(tǒng)的制作方法
      【專(zhuān)利摘要】本發(fā)明提供了一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法及系統(tǒng),所述方法包含:步驟101)采集互聯(lián)網(wǎng)數(shù)據(jù),采用抽樣或隨機(jī)的方式得到海量樣本數(shù)據(jù);步驟102)通過(guò)數(shù)據(jù)挖掘去除樣本數(shù)據(jù)的噪聲點(diǎn),使樣本數(shù)據(jù)具有平滑性;步驟103)使用K-Means算法得出樣本數(shù)據(jù)的及格值和刻度,從而確定樣本數(shù)據(jù)的若干指標(biāo)的分?jǐn)?shù);步驟104)依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估的相關(guān)指標(biāo),確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)估模型;步驟105)基于得到的各指標(biāo)的分?jǐn)?shù)和質(zhì)量評(píng)估模型,確定互聯(lián)網(wǎng)資源質(zhì)量的評(píng)估結(jié)果。本發(fā)明的技術(shù)方案可以為網(wǎng)絡(luò)運(yùn)營(yíng)商和ICP運(yùn)營(yíng)商提高用戶(hù)感知質(zhì)量提供數(shù)據(jù)決策支持完善和健全的質(zhì)量評(píng)分模型,使得最終數(shù)據(jù)的質(zhì)量分?jǐn)?shù)更加準(zhǔn)確。
      【專(zhuān)利說(shuō)明】一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法及系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于互聯(lián)網(wǎng)質(zhì)量分析領(lǐng)域,具體涉及一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]目前,大多數(shù)移動(dòng)運(yùn)營(yíng)商和ICP廠商為了解決因互聯(lián)網(wǎng)資源數(shù)量多且復(fù)雜而帶來(lái)的無(wú)法確定其數(shù)據(jù)質(zhì)量情況的問(wèn)題,大部分采用抽取少量樣本數(shù)據(jù)進(jìn)行分析其質(zhì)量情況的好壞,并且只能給出資源的質(zhì)量的等級(jí)或?qū)<翌A(yù)測(cè)的分?jǐn)?shù),不能給出一個(gè)合理的精確的分?jǐn)?shù),其分析結(jié)果并不能真正反應(yīng)其資源的質(zhì)量情況,也有一部分廠商采用基于大量進(jìn)行的數(shù)據(jù)挖掘,但是其處理周期較長(zhǎng)、效率低、成本高、復(fù)雜度高,如果過(guò)程中有失誤和紕漏將重新進(jìn)行處理,大大增加了處理周期和成本。

      【發(fā)明內(nèi)容】

      [0003]本發(fā)明的目的在于,解決因互聯(lián)網(wǎng)資源數(shù)據(jù)量多且復(fù)雜而帶來(lái)的無(wú)法確定其數(shù)據(jù)質(zhì)量情況問(wèn)題,從而提供一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法。
      [0004]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,所述方法包含:
      [0005]步驟101)采集互聯(lián)網(wǎng)數(shù)據(jù),采用抽樣或隨機(jī)的方式得到海量樣本數(shù)據(jù);
      [0006]步驟102)通過(guò)數(shù)據(jù)挖掘去除樣本數(shù)據(jù)的噪聲點(diǎn),使樣本數(shù)據(jù)具有平滑性;
      [0007]步驟103)使用K-Means算法得出樣本數(shù)據(jù)的及格值和刻度,從而確定樣本數(shù)據(jù)的若干指標(biāo)的分?jǐn)?shù),所述指標(biāo)包含:DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間;
      [0008]步驟104)依據(jù)得到的及格值和刻度進(jìn)行網(wǎng)絡(luò)資源質(zhì)量評(píng)估;
      [0009]其中,所述DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間以及剩余時(shí)間均以秒為單位。
      [0010]上述步驟102)進(jìn)一步包含:
      [0011]步驟102-1)依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估相關(guān)指標(biāo)項(xiàng),選取所需的數(shù)據(jù),并將選取的數(shù)據(jù)整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集,所述相關(guān)指標(biāo)包含DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間;
      [0012]步驟102-2)基于數(shù)據(jù)集通過(guò)清理和歸約操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù)。
      [0013]上述步驟103 )進(jìn)一步包含:
      [0014]步驟103-1)從η個(gè)數(shù)據(jù)對(duì)象中,任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它數(shù)據(jù)對(duì)象,根據(jù)剩余數(shù)據(jù)對(duì)象與這些初始聚類(lèi)中心的相似度,分別將剩余數(shù)據(jù)對(duì)象中的每一個(gè)數(shù)據(jù)對(duì)象分配至與數(shù)據(jù)對(duì)象最相似的某個(gè)初始聚類(lèi)中心中;
      [0015]步驟103-2)計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心,不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止,得到及格值和刻度值,所述及格值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的聚類(lèi)中心的重心點(diǎn),所述刻度值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的聚類(lèi)中心的半徑與某一設(shè)定值的商,所述設(shè)定值的取值范圍為:0-100 ;
      [0016]步驟103-3)基于得到的及格值和刻度值得到各指標(biāo)的分?jǐn)?shù),公式為:
      [0017]各指標(biāo)的分?jǐn)?shù)=閾值-(指標(biāo)項(xiàng)-及格值)/刻度;
      [0018]其中,指標(biāo)項(xiàng)的取值為對(duì)互聯(lián)網(wǎng)資源進(jìn)行質(zhì)量評(píng)估而采集的實(shí)際的各指標(biāo)項(xiàng)的數(shù)值大小,該指標(biāo)項(xiàng)的數(shù)值大小是由專(zhuān)門(mén)的互聯(lián)網(wǎng)資源質(zhì)量探測(cè)系統(tǒng)采集獲得,所述指標(biāo)項(xiàng)包含:DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間;所述閾值的大小與計(jì)算指標(biāo)分?jǐn)?shù)時(shí)采用的分制相關(guān),具體為該閾值為滿(mǎn)分的百分之六十,即當(dāng)采用百分制時(shí)該處的閾值為60,當(dāng)采用150分值時(shí)該處固定值為90。
      [0019]上述技術(shù)方案中,數(shù)據(jù)對(duì)象與聚類(lèi)中心的相似度通過(guò)數(shù)據(jù)對(duì)象與聚類(lèi)中心的距離進(jìn)行衡量;所述新聚類(lèi)的聚類(lèi)中心是指該聚類(lèi)中心所包含的所有數(shù)據(jù)對(duì)象的均值。
      [0020]上述標(biāo)準(zhǔn)測(cè)度函數(shù)采用均方差。
      [0021]上述步驟104)進(jìn)一步包含:
      [0022]步驟104-1)依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估的相關(guān)指標(biāo),確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)估模型,并設(shè)定質(zhì)量評(píng)估模型中各指標(biāo)的權(quán)重值;
      [0023]步驟104-2)基于得到的各指標(biāo)的分?jǐn)?shù)和質(zhì)量評(píng)估模型,確定互聯(lián)網(wǎng)資源質(zhì)量的評(píng)估結(jié)果。
      [0024]上述步驟104-1)采用如下質(zhì)量評(píng)估模型得出互聯(lián)網(wǎng)資源質(zhì)量的評(píng)分:
      [0025]最終得分=DNS解析分?jǐn)?shù)S1*DNS解析權(quán)重W1+TCP建鏈分?jǐn)?shù)S2*TCP建鏈權(quán)重W2+第一字節(jié)S3*第一字節(jié)權(quán)重W3+剩余字節(jié)分?jǐn)?shù)S4*剩余字節(jié)權(quán)重W4 ;
      [0026]其中,DNS解析權(quán)重S1、TCP建鏈權(quán)重W2、第一字節(jié)權(quán)重W3和剩余字節(jié)權(quán)重W4是設(shè)置的各指標(biāo)的權(quán)重值,這些權(quán)重值均是個(gè)百分?jǐn)?shù),且四個(gè)權(quán)重值之和為百分之一百。
      [0027]為了實(shí)現(xiàn)上述方法,本發(fā)明還提供了一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),其特征在于,所述系統(tǒng)包含:
      [0028]獲取樣本數(shù)據(jù)的模塊,用于采集互聯(lián)網(wǎng)數(shù)據(jù),得到樣本數(shù)據(jù);
      [0029]樣本數(shù)據(jù)預(yù)處理模塊,用于通過(guò)數(shù)據(jù)挖掘去除樣本數(shù)據(jù)的噪聲點(diǎn),使樣本數(shù)據(jù)具有平滑性;
      [0030]指標(biāo)分?jǐn)?shù)獲取模塊,用于使用K-Means算法得出樣本數(shù)據(jù)的及格值和刻度,從而確定樣本數(shù)據(jù)的若干指標(biāo)的分?jǐn)?shù),所述指標(biāo)包含=DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間;
      [0031]質(zhì)量評(píng)估模型設(shè)計(jì)模塊,用于依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估的相關(guān)指標(biāo),確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)估模型,所述相關(guān)指標(biāo)包含=DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間;
      [0032]評(píng)估結(jié)果計(jì)算輸出模塊,用于基于得到的各指標(biāo)的分?jǐn)?shù)和質(zhì)量評(píng)估模型,確定互聯(lián)網(wǎng)資源質(zhì)量的評(píng)估結(jié)果;
      [0033]其中,所述DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間以及剩余時(shí)間均以秒為單位。
      [0034]上述樣本數(shù)據(jù)預(yù)處理模塊進(jìn)一步包含:數(shù)據(jù)集獲取子模塊,用于依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估指標(biāo)相關(guān)性,從樣本數(shù)據(jù)中選取所需的數(shù)據(jù),并將選取的數(shù)據(jù)整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;[0035]目標(biāo)數(shù)據(jù)獲取子模塊,用于基于數(shù)據(jù)集通過(guò)清理和歸約操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù)。
      [0036]上述指標(biāo)分?jǐn)?shù)獲取模塊進(jìn)一步包含:
      [0037]初始聚類(lèi)中心及新聚類(lèi)生成子模塊,用于從海量樣本數(shù)據(jù)中,任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它數(shù)據(jù)對(duì)象,根據(jù)剩余數(shù)據(jù)對(duì)象與這些初始聚類(lèi)中心的相似度,分別將剩余數(shù)據(jù)對(duì)象中的每一個(gè)數(shù)據(jù)對(duì)象分配至與數(shù)據(jù)對(duì)象最相似的初始聚類(lèi)中心中,得到各初始聚類(lèi)對(duì)應(yīng)的新聚類(lèi);
      [0038]及格值和刻度值獲取子模塊,用于計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心,不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止,得到及格值和刻度值,所述及格值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的某個(gè)新聚類(lèi)的聚類(lèi)中心的重心點(diǎn),所述刻度值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的某個(gè)新聚類(lèi)的聚類(lèi)中心的半徑與某一固定值的商,所述固定值的取值范圍為:0-100 ;
      [0039]指標(biāo)分?jǐn)?shù)獲取子模塊,用于基于得到的及格值和刻度值得到各指標(biāo)的分?jǐn)?shù),公式為:
      [0040]各指標(biāo)的分?jǐn)?shù)=閾值-(指標(biāo)項(xiàng)-及格值)/刻度;
      [0041]其中,指標(biāo)項(xiàng)的取值為各指標(biāo)項(xiàng)的數(shù)值,該數(shù)值是由對(duì)互聯(lián)網(wǎng)資源進(jìn)行質(zhì)量撥測(cè)得來(lái),所述指標(biāo)項(xiàng)包含:DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間;所述閾值的大小與計(jì)算指標(biāo)分?jǐn)?shù)時(shí)采用的分制相關(guān),具體為該閾值為滿(mǎn)分的的百分之六十,即當(dāng)采用百分制時(shí)該處的閾值為60,當(dāng)采用150分值時(shí)該處固定值為90。
      [0042]與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)優(yōu)勢(shì)在于:本發(fā)明技術(shù)方案充分利用了基于大數(shù)據(jù)的數(shù)據(jù)學(xué)習(xí)和挖掘以及數(shù)據(jù)建模技術(shù),能夠更加快速高效的對(duì)海量樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,完善和健全的質(zhì)量評(píng)分模型使得最終數(shù)據(jù)的質(zhì)量分?jǐn)?shù)更加準(zhǔn)確,為移動(dòng)運(yùn)營(yíng)商和ICP廠商提高用戶(hù)感知質(zhì)量提供數(shù)據(jù)決策支持??傊景l(fā)明的技術(shù)方案可以有效解決互聯(lián)網(wǎng)資源大量數(shù)據(jù)確定其質(zhì)量情況問(wèn)題。
      【專(zhuān)利附圖】

      【附圖說(shuō)明】
      [0043]圖1本發(fā)明提供基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法的流程圖。
      【具體實(shí)施方式】
      [0044]下面結(jié)合實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)闡述。
      [0045]如圖1所示,本發(fā)明提供了一種緩解互聯(lián)網(wǎng)資源無(wú)法確定其質(zhì)量的方法,該方法用于互聯(lián)網(wǎng)資源大量數(shù)據(jù)的情況給出其數(shù)據(jù)的質(zhì)量評(píng)分,所述方法包含:
      [0046]步驟101)準(zhǔn)備大量的原始樣本數(shù)據(jù),至少五百萬(wàn)條數(shù)據(jù);
      [0047]步驟102)通過(guò)數(shù)據(jù)挖掘,對(duì)樣本數(shù)據(jù)去除數(shù)據(jù)噪點(diǎn),使數(shù)據(jù)具有平華性;
      [0048]步驟103)使用K-Means算法得出數(shù)據(jù)的及格值和刻度,從而確定數(shù)據(jù)的各指標(biāo)分?jǐn)?shù);
      [0049]步驟104)確定其質(zhì)量評(píng)分模型;
      [0050]步驟105)通過(guò)質(zhì)量評(píng)分模型確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)分。
      [0051]實(shí)施例[0052]以某省某電信運(yùn)營(yíng)商互聯(lián)網(wǎng)資源管理平臺(tái)為例:
      [0053]首先,對(duì)該省所關(guān)注的重點(diǎn)網(wǎng)站的大約1000W域名進(jìn)行質(zhì)量情況的探測(cè),獲得大約1000萬(wàn)的采樣數(shù)據(jù),其次,對(duì)采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘去除噪點(diǎn),使得數(shù)據(jù)更具有平滑性,再次,使用K-Means算法結(jié)合數(shù)據(jù)質(zhì)量模型獲得域名質(zhì)量相關(guān)的指標(biāo)的刻度和及格值,最后,使用質(zhì)量評(píng)分方法和評(píng)分模型獲得域名的最終質(zhì)量分?jǐn)?shù),該運(yùn)營(yíng)商使用該專(zhuān)利后,可以很精確的獲得該省的域名質(zhì)量情況,為該運(yùn)營(yíng)商后續(xù)的進(jìn)行資源引入和資源調(diào)度提供數(shù)據(jù)支持,大大的提升了本省用戶(hù)的感知質(zhì)量,為該運(yùn)營(yíng)商節(jié)省了大量的成本的同時(shí),也獲得更高的用戶(hù)滿(mǎn)意度。
      [0054]綜上所述,本發(fā)明采用以上方法后,可以對(duì)互聯(lián)網(wǎng)上的任意網(wǎng)站或域名的質(zhì)量情況進(jìn)行評(píng)估,并能給出具體的質(zhì)量分?jǐn)?shù),為網(wǎng)絡(luò)運(yùn)營(yíng)商和ICP運(yùn)營(yíng)商提高用戶(hù)感知質(zhì)量提供數(shù)據(jù)決策支持,本發(fā)明充分利用了基于大數(shù)據(jù)的數(shù)據(jù)學(xué)習(xí)和挖掘以及數(shù)據(jù)建模技術(shù),能夠更加快速高效的對(duì)海量樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,完善和健全的質(zhì)量評(píng)分模型使得最終數(shù)據(jù)的質(zhì)量分?jǐn)?shù)更加準(zhǔn)確。
      [0055]以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
      【權(quán)利要求】
      1.一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,所述方法包含: 步驟101)采集互聯(lián)網(wǎng)數(shù)據(jù),采用抽樣或隨機(jī)的方式得到海量樣本數(shù)據(jù); 步驟102)通過(guò)數(shù)據(jù)挖掘去除樣本數(shù)據(jù)的噪聲點(diǎn),使樣本數(shù)據(jù)具有平滑性; 步驟103)使用K-Means算法得出樣本數(shù)據(jù)的及格值和刻度,從而確定樣本數(shù)據(jù)的若干指標(biāo)的分?jǐn)?shù),所述指標(biāo)包含:DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間; 步驟104)依據(jù)得到的及格值和刻度進(jìn)行網(wǎng)絡(luò)資源質(zhì)量評(píng)估; 其中,所述DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間以及剩余時(shí)間均以秒為單位。
      2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,其特征在于,所述步驟102)進(jìn)一步包含: 步驟102-1)依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估相關(guān)指標(biāo)項(xiàng),選取所需的數(shù)據(jù),并將選取的數(shù)據(jù)整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集,所述相關(guān)指標(biāo)包含DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間; 步驟102-2)基于數(shù)據(jù)集通過(guò)清理和歸約操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù)。
      3.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,其特征在于,所述步驟103)進(jìn)一步包含: 步驟103-1)從η個(gè)數(shù)據(jù)對(duì)象中,任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它數(shù)據(jù)對(duì)象,根據(jù)剩余數(shù)據(jù)對(duì)象與這些初始聚類(lèi)中心的相似度,分別將剩余數(shù)據(jù)對(duì)象中的每一個(gè)數(shù)據(jù)對(duì)象分配至`與數(shù)據(jù)對(duì)象最相似的某個(gè)初始聚類(lèi)中心中; 步驟103-2)計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心,不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止,得到及格值和刻度值,所述及格值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的聚類(lèi)中心的重心點(diǎn),所述刻度值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的聚類(lèi)中心的半徑與某一設(shè)定值的商,所述設(shè)定值的取值范圍為:0-100 ; 步驟103-3)基于得到的及格值和刻度值得到各指標(biāo)的分?jǐn)?shù),公式為: 各指標(biāo)的分?jǐn)?shù)=閾值-(指標(biāo)項(xiàng)-及格值)/刻度; 其中,指標(biāo)項(xiàng)的取值為對(duì)互聯(lián)網(wǎng)資源進(jìn)行質(zhì)量評(píng)估而采集的實(shí)際的各指標(biāo)項(xiàng)的數(shù)值大小,該指標(biāo)項(xiàng)的數(shù)值大小是由專(zhuān)門(mén)的互聯(lián)網(wǎng)資源質(zhì)量探測(cè)系統(tǒng)采集獲得,所述指標(biāo)項(xiàng)包含:DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間;所述閾值的大小與計(jì)算指標(biāo)分?jǐn)?shù)時(shí)采用的分制相關(guān),具體為該閾值為滿(mǎn)分的百分之六十,即當(dāng)采用百分制時(shí)該處的閾值為60,當(dāng)采用150分值時(shí)該處固定值為90。
      4.根據(jù)權(quán)利要求3所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,其特征在于, 數(shù)據(jù)對(duì)象與聚類(lèi)中心的相似度通過(guò)數(shù)據(jù)對(duì)象與聚類(lèi)中心的距離進(jìn)行衡量; 所述新聚類(lèi)的聚類(lèi)中心是指該聚類(lèi)中心所包含的所有數(shù)據(jù)對(duì)象的均值。
      5.根據(jù)權(quán)利要求3所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源質(zhì)量評(píng)估方法,其特征在于,所述標(biāo)準(zhǔn)測(cè)度函數(shù)采用均方差。
      6.根據(jù)權(quán)利要求1所述的直觀顯示互聯(lián)網(wǎng)資源質(zhì)量評(píng)分的方法,其特征在于,所述步驟104)進(jìn)一步包含: 步驟104-1)依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估的相關(guān)指標(biāo),確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)估模型,并設(shè)定質(zhì)量評(píng)估模型中各指標(biāo)的權(quán)重值; 步驟104-2)基于得到的各指標(biāo)的分?jǐn)?shù)和質(zhì)量評(píng)估模型,確定互聯(lián)網(wǎng)資源質(zhì)量的評(píng)估結(jié)果O
      7.根據(jù)權(quán)利要求6所述的直觀顯示互聯(lián)網(wǎng)資源質(zhì)量評(píng)分的方法,其特征在于,所述步驟104-1)采用如下質(zhì)量評(píng)估模型得出互聯(lián)網(wǎng)資源質(zhì)量的評(píng)分: 最終得分=DNS解析分?jǐn)?shù)S1*DNS解析權(quán)重W1+TCP建鏈分?jǐn)?shù)S2*TCP建鏈權(quán)重W2+第一字節(jié)S3*第一字節(jié)權(quán)重W3+剩余字節(jié)分?jǐn)?shù)S4*剩余字節(jié)權(quán)重W4 ; 其中,DNS解析權(quán)重S1、TCP建鏈權(quán)重W2、第一字節(jié)權(quán)重W3和剩余字節(jié)權(quán)重W4是設(shè)置的各指標(biāo)的權(quán)重值,這些權(quán)重值均是個(gè)百分?jǐn)?shù),且四個(gè)權(quán)重值之和為百分之一百。
      8.一種基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),其特征在于,所述系統(tǒng)包含: 獲取樣本數(shù)據(jù)的模塊,用于采集互聯(lián)網(wǎng)數(shù)據(jù),得到樣本數(shù)據(jù); 樣本數(shù)據(jù)預(yù)處理模塊,用于通過(guò)數(shù)據(jù)挖掘去除樣本數(shù)據(jù)的噪聲點(diǎn),使樣本數(shù)據(jù)具有平滑性; 指標(biāo)分?jǐn)?shù)獲取模塊,用于使用K-Means算法得出樣本數(shù)據(jù)的及格值和刻度,從而確定樣本數(shù)據(jù)的若干指標(biāo)的分?jǐn)?shù),所述指標(biāo)包含=DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余時(shí)間; 質(zhì)量評(píng)估模型設(shè)計(jì)模塊,用于依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估的相關(guān)指標(biāo),確定互聯(lián)網(wǎng)資源的質(zhì)量評(píng)估模型,所述相關(guān)指標(biāo)包含=DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間; 評(píng)估結(jié)果計(jì)算輸出模塊,用于基于得到的各指標(biāo)的分?jǐn)?shù)和質(zhì)量評(píng)估模型,確定互聯(lián)網(wǎng)資源質(zhì)量的評(píng)估結(jié)果; 其中,所述DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間以及剩余時(shí)間均以秒為單位。
      9.根據(jù)權(quán)利要求8所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),其特征在于,所述樣本數(shù)據(jù)預(yù)處理模塊進(jìn)一步包含:數(shù)據(jù)集獲取子模塊,用于依據(jù)互聯(lián)網(wǎng)資源質(zhì)量評(píng)估指標(biāo)相關(guān)性,從樣本數(shù)據(jù)中選取所需的數(shù)據(jù),并將選取的數(shù)據(jù)整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集; 目標(biāo)數(shù)據(jù)獲取子模塊,用于基于數(shù)據(jù)集通過(guò)清理和歸約操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù)。
      10.根據(jù)權(quán)利要求8所述的基于大數(shù)據(jù)挖掘的互聯(lián)網(wǎng)資源數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),其特征在于,所述指標(biāo)分?jǐn)?shù)獲取模塊進(jìn)一步包含: 初始聚類(lèi)中心及新聚類(lèi)生成子模塊,用于從海量樣本數(shù)據(jù)中,任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它數(shù)據(jù)對(duì)象,根據(jù)剩余數(shù)據(jù)對(duì)象與這些初始聚類(lèi)中心的相似度,分別將剩余數(shù)據(jù)對(duì)象中的每一個(gè)數(shù)據(jù)對(duì)象分配至與數(shù)據(jù)對(duì)象最相似的初始聚類(lèi)中心中,得到各初始聚類(lèi)對(duì)應(yīng)的新聚類(lèi); 及格值和刻度值獲取子模塊,用于計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心,不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止,得到及格值和刻度值,所述及格值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的某個(gè)新聚類(lèi)的聚類(lèi)中心的重心點(diǎn),所述刻度值為標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止所對(duì)應(yīng)的某個(gè)新聚類(lèi)的聚類(lèi)中心的半徑與某一固定值的商,所述固定值的取值范圍為:0-100 ; 指標(biāo)分?jǐn)?shù)獲取子模塊,用于基于得 到的及格值和刻度值得到各指標(biāo)的分?jǐn)?shù),公式為:各指標(biāo)的分?jǐn)?shù)=閾值-(指標(biāo)項(xiàng)-及格值)/刻度; 其中,指標(biāo)項(xiàng)的取值為各指標(biāo)項(xiàng)的數(shù)值,該數(shù)值是由對(duì)互聯(lián)網(wǎng)資源進(jìn)行質(zhì)量撥測(cè)得來(lái),所述指標(biāo)項(xiàng)包含=DNS解析時(shí)間、TCP建鏈時(shí)間、第一字節(jié)時(shí)間和剩余字節(jié)時(shí)間;所述閾值的大小與計(jì)算指標(biāo)分?jǐn)?shù)時(shí)采用的分制相關(guān),具體為該閾值為滿(mǎn)分的的百分之六十,即當(dāng)采用百分制時(shí)該處的閾值為60,當(dāng)采用150分值時(shí)該處固定值為90。
      【文檔編號(hào)】G06F17/30GK103530347SQ201310467352
      【公開(kāi)日】2014年1月22日 申請(qǐng)日期:2013年10月9日 優(yōu)先權(quán)日:2013年10月9日
      【發(fā)明者】劉巖松, 徐信信 申請(qǐng)人:北京東方網(wǎng)信科技股份有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1