基于并行處理的集成網(wǎng)絡(luò)信息分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
:
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地說(shuō)是一種處理速度快、效率高、結(jié)果準(zhǔn)確的基于并行處理的集成網(wǎng)絡(luò)信息分析系統(tǒng)。
【背景技術(shù)】
:
[0002]隨著網(wǎng)絡(luò)的高速發(fā)展,網(wǎng)絡(luò)作為最大的信息載體和交流平臺(tái),已成為當(dāng)前進(jìn)行信息宣傳的重要途徑。常規(guī)的信息(如新聞、廣告、商品等)是制定媒介策略,透過(guò)媒體定位覆蓋目標(biāo)受眾,為實(shí)現(xiàn)精準(zhǔn),也不過(guò)在投放后再以數(shù)據(jù)去驗(yàn)證、調(diào)整,很難實(shí)現(xiàn)考慮受眾是否感興趣和接收。而對(duì)于互聯(lián)網(wǎng)實(shí)時(shí)信息推送(如個(gè)性新聞發(fā)布,實(shí)時(shí)廣告競(jìng)價(jià),個(gè)性商品展示等),在投放前就已尋找到合適的受眾,真正實(shí)現(xiàn)互聯(lián)網(wǎng)化廣告的精準(zhǔn)投放、個(gè)性營(yíng)銷。
[0003]隨著通信技術(shù)的發(fā)展,無(wú)線網(wǎng)絡(luò)已經(jīng)被使用在多個(gè)行業(yè)中,無(wú)論是家庭還商業(yè),普及較廣,這些無(wú)線網(wǎng)絡(luò)可包括大量移動(dòng)設(shè)備、無(wú)線路由器和接入點(diǎn),這些無(wú)線網(wǎng)絡(luò)的接入點(diǎn)都是WiFi節(jié)點(diǎn)。目前的網(wǎng)絡(luò)信息的發(fā)布一般信息覆蓋的地域范圍難以限定,用戶接收信息不能直接接收所處區(qū)域所需的各類別的信息。
[0004]現(xiàn)有的用戶主觀行為分析首先根據(jù)應(yīng)用場(chǎng)景為不同的抽象概念選擇合適的信念指標(biāo),建立用戶主觀行為分析模型。依據(jù)所選信念指標(biāo)編制正式調(diào)查問(wèn)卷,經(jīng)模型擬合及模型評(píng)價(jià)并最終確立模型參數(shù),現(xiàn)有技術(shù)雖然包含模型擬合,但這種模擬擬合過(guò)程不是動(dòng)態(tài)的。由此可見,已有方法僅僅在模型建立之初確定模型參數(shù),從而使得模型參數(shù)是靜態(tài)的。而網(wǎng)絡(luò)中用戶的主觀行為受到多方面的因素影響,呈現(xiàn)動(dòng)態(tài)變化的特點(diǎn)。因此最初的模型參數(shù)隨著時(shí)間的推移可能并不再適用,現(xiàn)有技術(shù)的用戶主觀行為分析模型缺乏動(dòng)態(tài)性。
[0005]現(xiàn)有的大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)時(shí)仍采用單機(jī)節(jié)點(diǎn)上的串行方式實(shí)現(xiàn),其數(shù)據(jù)處理量以及算法的負(fù)載度依賴于單個(gè)執(zhí)行節(jié)點(diǎn)的性能,而由于大數(shù)據(jù)處理系統(tǒng)往往要對(duì)海量數(shù)據(jù)進(jìn)行處理,現(xiàn)有的單機(jī)節(jié)點(diǎn)串行機(jī)制顯然存在效率低、運(yùn)算量低的問(wèn)題。
【發(fā)明內(nèi)容】
:
[0006]本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的缺點(diǎn)和不足,提出了一種處理速度快、效率高、結(jié)果準(zhǔn)確的基于并行處理的集成網(wǎng)絡(luò)信息分析系統(tǒng)。
[0007]本發(fā)明可以通過(guò)以下措施達(dá)到:
[0008]—種基于并行處理的集成網(wǎng)絡(luò)分析系統(tǒng),其特征在于設(shè)有數(shù)據(jù)預(yù)處理模塊、與數(shù)據(jù)預(yù)處理模塊相連接的數(shù)據(jù)挖掘模塊以及與數(shù)據(jù)挖掘模塊相連接的顯示輸出模塊,還設(shè)有與數(shù)據(jù)挖掘模塊相連接的參數(shù)設(shè)置模塊;所述數(shù)據(jù)預(yù)處理模塊包括屬性增/刪模塊、屬性位置交換模塊、添加ID屬性模塊、多表合并模塊、屬性規(guī)約模塊、數(shù)據(jù)冗余處理模塊、數(shù)據(jù)抽樣模塊、數(shù)據(jù)噪聲處理模塊;所述數(shù)據(jù)挖掘模塊還設(shè)有模型構(gòu)建模塊,用于依據(jù)選取的信念指標(biāo)設(shè)定用戶主觀行為分析模型的結(jié)構(gòu);材料收集模塊,用于依據(jù)選取的信念指標(biāo)編制調(diào)查問(wèn)卷,并依據(jù)該調(diào)查問(wèn)卷收集基于多個(gè)用戶的第一樣本數(shù)據(jù);樣本庫(kù),用于存放用于統(tǒng)計(jì)分析的樣本數(shù)據(jù);統(tǒng)計(jì)分析模塊,用于將所述樣本庫(kù)輸入的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析處理,獲得各信念指標(biāo)間的相關(guān)系數(shù)矩陣,將該相關(guān)系數(shù)矩陣輸入模型擬合模塊;并接收監(jiān)控模塊的相關(guān)系數(shù)查詢請(qǐng)求,然后向該監(jiān)控模塊返回基于樣本庫(kù)所有樣本數(shù)據(jù)的當(dāng)前的相關(guān)系數(shù)矩陣。
[0009]本發(fā)明所述數(shù)據(jù)挖掘單元還設(shè)有模型擬合模塊,用于將統(tǒng)計(jì)分析處理后的相關(guān)系數(shù)矩陣與模型構(gòu)建模塊設(shè)定的用戶主觀行為分析模型進(jìn)行模型擬合處理,得到再生矩陣。
[0010]本發(fā)明所述數(shù)據(jù)挖掘單元還設(shè)有模型評(píng)價(jià)模塊,用于計(jì)算模型擬合模塊輸出的再生矩陣與相關(guān)系數(shù)矩陣的擬合度結(jié)果決定是否再次觸發(fā)模型擬合模塊,即當(dāng)擬合度小于設(shè)定擬合度時(shí)再次返回模型擬合模塊進(jìn)行擬合,當(dāng)擬合度大于設(shè)定擬合度時(shí)停止擬合過(guò)程,并根據(jù)最終的再生矩陣及用戶主觀行為分析模型的結(jié)構(gòu)得到模型的參數(shù),輸出用戶主觀行為模型。
[0011]本發(fā)明所述數(shù)據(jù)挖掘單元還設(shè)有用戶主觀行為分析模型,用于將滿足擬合度要求的參數(shù)值設(shè)置為用戶主觀行為模型的參數(shù)值得到最終用戶主觀行為分析模型,該模型還與監(jiān)控模塊連接,當(dāng)用戶主觀行為分析模型的參數(shù)確定后就向監(jiān)控模塊輸出再生矩陣,當(dāng)模型更改后,才再次向監(jiān)控模塊輸出再生矩陣。
[0012]本發(fā)明所述數(shù)據(jù)挖掘模塊包括聚類模塊、分類模塊、關(guān)聯(lián)規(guī)則模塊、社會(huì)關(guān)系網(wǎng)分析模塊。
[0013]本發(fā)明所述聚類模塊中設(shè)有K-means算法模型。
[0014]本發(fā)明所述數(shù)據(jù)預(yù)處理模塊采用并行數(shù)據(jù)預(yù)處理模塊,設(shè)有Map/Reduce處理模型,通過(guò)調(diào)用Map函數(shù),將每個(gè)處理任務(wù)由多個(gè)Map任務(wù)并行處理,這些Map任務(wù)被分配到所屬處理任務(wù)分配的執(zhí)行節(jié)點(diǎn)上執(zhí)行,再通過(guò)調(diào)用Reduce函數(shù),分別對(duì)每個(gè)處理任務(wù)的各Map任務(wù)的處理結(jié)果進(jìn)行合并操作,完成數(shù)據(jù)預(yù)處理。
[0015]本發(fā)明所述數(shù)據(jù)挖掘模塊為采用Map/Reduce機(jī)制的并行數(shù)據(jù)挖掘模塊,設(shè)有Map/Reduce處理模型,通過(guò)調(diào)用Map函數(shù),將每個(gè)處理任務(wù)由多個(gè)Map任務(wù)并行處理,這些Map任務(wù)被分配到所屬處理任務(wù)分配的執(zhí)行節(jié)點(diǎn)上執(zhí)行,再通過(guò)調(diào)用Reduce函數(shù),分別對(duì)每個(gè)處理任務(wù)的各Map任務(wù)的處理結(jié)果進(jìn)行合并操作,完成并行數(shù)據(jù)挖掘。
[0016]本發(fā)明與現(xiàn)有技術(shù)相比,克服了單機(jī)節(jié)點(diǎn)串行處理方式的不足,提高了數(shù)據(jù)處理量和處理速度,具有結(jié)構(gòu)合理、運(yùn)行穩(wěn)定、效率高等顯著的優(yōu)點(diǎn)。
【附圖說(shuō)明】
:
[0017]附圖1是本發(fā)明的結(jié)構(gòu)框圖。
[0018]附圖標(biāo)記:數(shù)據(jù)預(yù)處理模塊1、數(shù)據(jù)挖掘模塊2、顯示輸出模塊3、參數(shù)設(shè)置模塊4?!揪唧w實(shí)施方式】:
[0019]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
[0020]如附圖1所示,本發(fā)明提出了一種基于并行處理的集成網(wǎng)絡(luò)分析系統(tǒng),其特征在于設(shè)有數(shù)據(jù)預(yù)處理模塊1、與數(shù)據(jù)預(yù)處理模塊I相連接的數(shù)據(jù)挖掘模塊2以及與數(shù)據(jù)挖掘模塊2相連接的顯示輸出模塊3,還設(shè)有與數(shù)據(jù)挖掘模塊2相連接的參數(shù)設(shè)置模塊4;所述數(shù)據(jù)預(yù)處理模塊包括屬性增/刪模塊、屬性位置交換模塊、添加ID屬性模塊、多表合并模塊、屬