国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)絡社區(qū)的挖掘方法及裝置與流程

      文檔序號:12465075閱讀:200來源:國知局
      網(wǎng)絡社區(qū)的挖掘方法及裝置與流程

      本發(fā)明實施例涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡社區(qū)的挖掘方法及裝置。



      背景技術(shù):

      在移動互聯(lián)時代,人們的社交行為越來越多的依賴于網(wǎng)絡。比如,人們通過網(wǎng)絡社區(qū)對一個熱點事件表達不同的觀點,或者通過各種即時通訊軟件完成相互之間的聯(lián)絡??梢灶A見的是,由于人們的很多社交行為通過網(wǎng)絡上自發(fā)形成的網(wǎng)絡社區(qū)完成,因此,可以通過對人們網(wǎng)絡交互數(shù)據(jù)的挖掘,得到人們?nèi)粘5木W(wǎng)絡交流行為所形成的各種“人際圈子”,也就是網(wǎng)絡社區(qū)。

      如果能夠通過對網(wǎng)絡數(shù)據(jù)的分析、挖掘,得到人們進行日常交流的網(wǎng)絡社區(qū),無疑將對企業(yè)的更多決策提供有效的支持。比如,可以通過上述挖掘得知人們在網(wǎng)絡上行程的網(wǎng)絡社區(qū)的關(guān)注話題是什么,進而為企業(yè)下一步的營銷目標及營銷戰(zhàn)略提供決策支持。

      然而,對于這種在網(wǎng)絡上形成的網(wǎng)絡社區(qū)的挖掘,目前還沒有可行的技術(shù)方案。



      技術(shù)實現(xiàn)要素:

      針對上述技術(shù)問題,本發(fā)明實施例提供了一種網(wǎng)絡社區(qū)的挖掘方法及裝置,以實現(xiàn)對網(wǎng)絡社區(qū)及其組成成員的有效挖掘。

      一方面,本發(fā)明實施例提供了一種網(wǎng)絡社區(qū)的挖掘方法,所述方法包括:

      獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及所有前次挖掘得到的前次挖掘網(wǎng)絡社區(qū);

      獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū);

      獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū);

      獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū);

      重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      另一方面,本發(fā)明實施例還提供了一種網(wǎng)絡社區(qū)的挖掘裝置,所述裝置包括:

      原始獲取模塊,用于獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及所有前次挖掘得到的前次挖掘網(wǎng)絡社區(qū);

      初步獲取模塊,用于獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū);

      泛化獲取模塊,用于獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū);

      目標獲取模塊,用于獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū);

      重復執(zhí)行模塊,用于重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      本發(fā)明實施例提供的網(wǎng)絡社區(qū)的挖掘方法及裝置,通過獲取原始網(wǎng)絡社區(qū)及前次挖掘網(wǎng)絡社區(qū),獲取成員與原始網(wǎng)絡社區(qū)中的成員之間存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū),再將所述初步網(wǎng)絡社區(qū)進行泛化,獲得泛化網(wǎng)絡社區(qū),最后對所述泛化網(wǎng)絡社區(qū)中的成員進行精簡,得到目標網(wǎng)絡社區(qū),使得目標網(wǎng)絡社區(qū)中的每個成員都與網(wǎng)絡社區(qū)中的至少一個成員之間存在兩兩通聯(lián)的通聯(lián)關(guān)系,實現(xiàn)了對目標網(wǎng)絡社區(qū)及其成員的有效挖掘。

      附圖說明

      通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:

      圖1是本發(fā)明第一實施例提供的網(wǎng)絡社區(qū)的挖掘方法的流程圖;

      圖2是本發(fā)明第一實施例提供的應用系統(tǒng)的系統(tǒng)結(jié)構(gòu)框圖;

      圖3是本發(fā)明第一實施例提供的網(wǎng)絡社區(qū)的挖掘方法挖掘得到的網(wǎng)絡社區(qū)的示意圖;

      圖4是本發(fā)明第二實施例提供的網(wǎng)絡社區(qū)的挖掘方法的流程圖;

      圖5是本發(fā)明第三實施例提供的網(wǎng)絡社區(qū)的挖掘方法的流程圖;

      圖6是本發(fā)明第四實施例提供的網(wǎng)絡社區(qū)的挖掘裝置的結(jié)構(gòu)圖。

      具體實施方式

      下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

      第一實施例

      本實施例提供了網(wǎng)絡社區(qū)的挖掘方法的一種技術(shù)方案。在該技術(shù)方案中,網(wǎng)絡社區(qū)的挖掘方法通常由大數(shù)據(jù)分析系統(tǒng)執(zhí)行。優(yōu)選的,該技術(shù)方案提供的網(wǎng)絡社區(qū)的挖掘方法由Spark系統(tǒng)執(zhí)行。

      參見圖1,網(wǎng)絡社區(qū)的挖掘方法包括:

      S11,獲取以彈性分布式數(shù)據(jù)集合(Resilient distributed datasets,RDD)形式存儲的原始網(wǎng)絡社區(qū),以及所有前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)。

      RDD是Spark提供的最重要的抽象的概念,它是一種有容錯機制的特殊集合,可以分布在集群的節(jié)點上,以函數(shù)式編操作集合的方式,進行各種并行操作。RDD是一個具有容錯機制的特殊集合,它提供了一種只讀、只能有已存在的RDD變換而來的共享內(nèi)存,然后將所有數(shù)據(jù)都加載到內(nèi)存中,方便進行多次重用。

      在本實施例中,由于采用Spark大數(shù)據(jù)分析系統(tǒng)進行網(wǎng)絡社區(qū)的挖掘,因此,在挖掘的各個中間步驟中,使用RDD作為網(wǎng)絡社區(qū)挖掘的最終結(jié)果及各種中間結(jié)果的存儲形式。

      可以理解的是,網(wǎng)絡社區(qū)是由相互之間保持通聯(lián)關(guān)系的網(wǎng)絡社區(qū)成員組成的。也就是說,網(wǎng)絡社區(qū)可以是看作是由不同的網(wǎng)絡社區(qū)成員組成的成員集合。

      所謂通聯(lián)關(guān)系,是指成員之間存在著通過網(wǎng)絡進行溝通交流的記錄。例如,成員甲曾經(jīng)打電話給成員乙,則認為成員甲與成員乙之間存在由成員甲指向成員乙的通聯(lián)關(guān)系。又例如,成員丙曾經(jīng)在網(wǎng)絡論壇回復成員丁發(fā)起的帖子,則認為成員丙與成員丁之間存在由成員丙指向成員丁的通聯(lián)關(guān)系。需要注意的是,上述的通聯(lián)關(guān)系是一種包含指向性的關(guān)系。

      對網(wǎng)絡社區(qū)數(shù)據(jù)的挖掘是以上述通聯(lián)關(guān)系為基礎(chǔ)的。因此,在本實施例提供的網(wǎng)絡社區(qū)的挖掘方法被執(zhí)行之前,需要預先準備好通聯(lián)關(guān)系數(shù)據(jù)。優(yōu)選的,在網(wǎng)絡社區(qū)的挖掘方法被執(zhí)行之前,除了通聯(lián)關(guān)系數(shù)據(jù),還需要預先準備好成員的身份數(shù)據(jù)。身份數(shù)據(jù)中保存成員的標簽數(shù)據(jù)與真實身份數(shù)據(jù)之間的對應關(guān)系。例如,標簽數(shù)據(jù)可以是在挖掘通聯(lián)關(guān)系時使用的成員的IMEI、IMSI,或者網(wǎng)絡賬號。身份數(shù)據(jù)是能夠唯一標識成員身份的數(shù)據(jù),例如,身份數(shù)據(jù)可以是成員的手機號。上述通聯(lián)關(guān)系數(shù)據(jù)以及身份數(shù)據(jù)均預先執(zhí)行挖掘,并且在網(wǎng)絡社區(qū)的挖掘方法之前,保存在HDFS(Hadoop distributed file system)中。

      圖2示出了執(zhí)行上述挖掘的系統(tǒng)的系統(tǒng)架構(gòu)。參見圖2,在系統(tǒng)底層,部署有Hadoop、Oracle、Mongo DB等數(shù)據(jù)存儲組件。在這些數(shù)據(jù)存儲組件之上,部署有Spark系統(tǒng)。在Spark系統(tǒng)之上,設(shè)置有各種業(yè)務支撐組件。在這些業(yè)務支撐組件之上,部署有執(zhí)行數(shù)據(jù)挖掘的業(yè)務層。該業(yè)務層由不同的業(yè)務模塊組成,最終完成對于網(wǎng)絡社區(qū)數(shù)據(jù)的挖掘。

      而且,對網(wǎng)絡社區(qū)的挖掘是一個順次迭代的過程。也就是說,可以以前次挖掘到的網(wǎng)絡社區(qū)為基礎(chǔ),進一步的執(zhí)行下一次的挖掘操作。這就意味著,除了首次執(zhí)行的挖掘操作以外,其他的挖掘操作都在它之前的挖掘操作。這些之前的挖掘操作的結(jié)果是本次挖掘的基礎(chǔ)數(shù)據(jù)。而在第一次挖掘時,它所依賴的基礎(chǔ)數(shù)據(jù)的預先準備的通聯(lián)關(guān)系數(shù)據(jù)中任意選擇的一條通聯(lián)關(guān)系數(shù)據(jù)。

      在執(zhí)行網(wǎng)絡社區(qū)的挖掘之前,首先需要獲取到原始網(wǎng)絡社區(qū)以及前次挖掘網(wǎng)絡社區(qū)。原始網(wǎng)絡社區(qū)是指本次社區(qū)挖掘操作之前一次挖掘操作的結(jié)果數(shù)據(jù)。前次挖掘網(wǎng)絡社區(qū)是指比前一次挖掘操作更早的挖掘操作的結(jié)果數(shù)據(jù)。需要注意的是,原始網(wǎng)絡社區(qū)以及前次挖掘網(wǎng)絡社區(qū)都是以RDD形式存儲的數(shù)據(jù)。

      S12,獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū)。

      與原始網(wǎng)絡社區(qū)中的成員之間保持有通聯(lián)關(guān)系的其他成員可能會成為本次挖掘中網(wǎng)絡社區(qū)的組成成員。這些與原始網(wǎng)絡社區(qū)中的成員之間存在通聯(lián)關(guān)系的成員被稱為初步網(wǎng)絡社區(qū)成員。而且,需要注意的是,初步網(wǎng)絡社區(qū)成員與原始網(wǎng)絡社區(qū)成員之間的通聯(lián)關(guān)系可以是指向原始網(wǎng)絡社區(qū)成員的通聯(lián)關(guān)系,也可以是指向初步網(wǎng)絡社區(qū)成員的通聯(lián)關(guān)系。

      在獲取到原始網(wǎng)絡社區(qū)及前次挖掘網(wǎng)絡社區(qū)之后,挖掘上述初步網(wǎng)絡社區(qū)成員,以便能夠完成本次的網(wǎng)絡社區(qū)的挖掘操作。

      S13,獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū)。

      在獲取到初步網(wǎng)絡社區(qū)之后,對獲取到的初步網(wǎng)絡社區(qū)執(zhí)行驗證。具體的,首先獲取符合如下條件的通聯(lián)關(guān)系:通聯(lián)關(guān)系所涉及的一位成員屬于初步網(wǎng)絡社區(qū),而另一位成員屬于初步網(wǎng)絡社區(qū),或者原始網(wǎng)絡社區(qū),或者前次挖掘網(wǎng)絡社區(qū)。符合上述條件的通聯(lián)關(guān)系被稱為目標網(wǎng)絡社區(qū)。

      目標網(wǎng)絡社區(qū)所涉及的成員被確認為泛化網(wǎng)絡社區(qū)的社區(qū)成員,因此,將泛化網(wǎng)絡社區(qū)的數(shù)據(jù)以RDD形式進行存儲。

      S14,獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū)。

      泛化網(wǎng)絡社區(qū)中的社區(qū)成員數(shù)據(jù)會存在一些重復。為了去除重復的成員數(shù)據(jù),將泛化網(wǎng)絡社區(qū)的集合數(shù)據(jù)與原始網(wǎng)絡社區(qū)及前次挖掘網(wǎng)絡社區(qū)的數(shù)據(jù)做差,求得的差集就是目標網(wǎng)絡社區(qū)的數(shù)據(jù)。

      同樣,在求得目標網(wǎng)絡社區(qū)之后,仍然以RDD形式存儲所述目標網(wǎng)絡社區(qū)的數(shù)據(jù)。

      S15,重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      可以理解的是,由于預先準備的通聯(lián)關(guān)系的數(shù)據(jù)的規(guī)模有限,執(zhí)行有限次的網(wǎng)絡社區(qū)挖掘操作之后,挖掘得到的網(wǎng)絡社區(qū)的成員數(shù)據(jù)就會趨于穩(wěn)定。此時,可以不再重復執(zhí)行挖掘操作,以得到網(wǎng)絡社區(qū)數(shù)據(jù)作為最終的挖掘結(jié)果。

      另外,在執(zhí)行挖掘之前,可能對于挖掘的結(jié)果或者挖掘的執(zhí)行過程有著明確的預期。比如,在挖掘之前,預想挖掘得到的網(wǎng)絡社區(qū)具有一定的規(guī)模,當這個規(guī)模已經(jīng)在重復的挖掘操作中得到了實現(xiàn),則可以停止進一步的挖掘。再比如,在挖掘之前,預想挖掘操作具有一次的循環(huán)執(zhí)行次數(shù)上限,當這個次數(shù)上限已經(jīng)達到時,則可以停止進一步的挖掘操作,以當前挖掘到的網(wǎng)絡社區(qū)作為挖掘的最終結(jié)果。

      圖3示出了挖掘得到的網(wǎng)絡社區(qū)。參見圖3,在網(wǎng)絡社區(qū)中,不同的社區(qū)成員之間有相互之間的通聯(lián)關(guān)系。

      本實施例通過獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及所有前次挖掘得到的前次挖掘網(wǎng)絡社區(qū),獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū),獲取目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū),獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū),重復上述挖掘操作,直至相應的停止條件被滿足,從而實現(xiàn)了對目標網(wǎng)絡社區(qū)及其成員的有效挖掘。

      第二實施例

      本實施例以本發(fā)明上述實施例為基礎(chǔ),進一步的提供了網(wǎng)絡社區(qū)的挖掘方法的另一種技術(shù)方案。在該技術(shù)方案中,網(wǎng)絡社區(qū)的挖掘方法還包括:在獲取以RDD形式存儲的原始網(wǎng)絡社區(qū),以及前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)之前,通過數(shù)據(jù)挖掘技術(shù),以流式處理框架挖掘成員真實身份數(shù)據(jù),以及成員通聯(lián)關(guān)系數(shù)據(jù)。

      參見圖4,網(wǎng)絡社區(qū)的挖掘方法包括:

      S41,通過數(shù)據(jù)挖掘技術(shù),以流式處理框架挖掘成員真實身份數(shù)據(jù),以及成員通聯(lián)關(guān)系數(shù)據(jù)。

      在本實施例中,以JStorm流式處理框架完成成員的真實身份數(shù)據(jù)已經(jīng)成員之間通聯(lián)關(guān)系數(shù)據(jù)的挖掘。在采用JStorm框架的過程中進行上述兩種數(shù)據(jù)的挖掘過程中,采用了數(shù)據(jù)挖掘操作。上述數(shù)據(jù)挖掘操作具體是指:格式轉(zhuǎn)換、數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)關(guān)聯(lián)。

      可以理解的是,對真實身份數(shù)據(jù)及通聯(lián)關(guān)系數(shù)據(jù)的挖掘的數(shù)據(jù)源主要包括網(wǎng)絡日志。網(wǎng)絡日志的格式不統(tǒng)一,數(shù)據(jù)內(nèi)容也存在大量的重復。因此,需要運用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行格式轉(zhuǎn)換、數(shù)據(jù)清洗等一系列操作。

      S42,獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)。

      S43,獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū)。

      S44,獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū)。

      S45,獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū)。

      S46,重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      本實施例通過在獲取原始網(wǎng)絡社區(qū)及前次挖掘網(wǎng)路社區(qū)之前,挖掘真實身份數(shù)據(jù)及成員通聯(lián)關(guān)系數(shù)據(jù),實現(xiàn)了對目標網(wǎng)絡社區(qū)及其成員的有效挖掘。

      第三實施例

      本實施例以本發(fā)明上述實施例為基礎(chǔ),進一步的提供了網(wǎng)絡社區(qū)的挖掘方法的再一種技術(shù)方案。在該技術(shù)方案中,網(wǎng)絡社區(qū)的挖掘方法還包括:在完成所述挖掘操作之后,根據(jù)成員之間的通聯(lián)關(guān)系對所述目標網(wǎng)絡社區(qū)的成員打分,以挖掘所述目標網(wǎng)絡社區(qū)中的核心成員。

      S51,通過數(shù)據(jù)挖掘技術(shù),以流式處理框架挖掘成員真實身份數(shù)據(jù),以及成員通聯(lián)關(guān)系數(shù)據(jù)。

      S52,獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)。

      S53,獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū)。

      S54,獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū)。

      S55,獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū)。

      S56,重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      S57,根據(jù)成員之間的通聯(lián)關(guān)系對所述目標網(wǎng)絡社區(qū)的成員打分,以挖掘所述目標網(wǎng)絡社區(qū)中的核心成員。

      具體的,根據(jù)通聯(lián)關(guān)系的具體屬性為成員們打分。例如,成員之間出現(xiàn)一次電話通話,為參加通話的成員各自計50分。成員之間出現(xiàn)一次短消息溝通,為短消息的所有發(fā)送成員及接收成員計20分。成員之間出現(xiàn)一次通過互聯(lián)網(wǎng)的溝通,為溝通各方計1分。當然,具體的積分辦法可以根據(jù)情況進行調(diào)整。完成上述計分操作后,得分最高的網(wǎng)絡社區(qū)成員就是核心成員。

      本實施例在完成網(wǎng)絡社區(qū)的挖掘之后,為社區(qū)成員打分,實現(xiàn)了對網(wǎng)絡社區(qū)中核心成員的挖掘。

      第四實施例

      本實施例提供了網(wǎng)絡社區(qū)的挖掘裝置的一種技術(shù)方案。參見圖6,網(wǎng)絡社區(qū)的挖掘裝置包括:原始獲取模塊62、初步獲取模塊63、泛化獲取模塊64、目標獲取模塊65,以及重復執(zhí)行模塊66。

      所述原始獲取模塊62用于獲取以彈性分布式數(shù)據(jù)集合RDD形式存儲的原始網(wǎng)絡社區(qū),以及前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)。

      所述初步獲取模塊63用于獲取與所述原始網(wǎng)絡社區(qū)中的成員存在通聯(lián)關(guān)系的初步網(wǎng)絡社區(qū)成員,并以RDD形式將所有初步網(wǎng)絡社區(qū)成員存儲為初步網(wǎng)絡社區(qū)。

      所述泛化獲取模塊64用于獲取所有一個成員屬于所述初步網(wǎng)絡社區(qū),另一個成員屬于所述初步網(wǎng)絡社區(qū),或者所述原始網(wǎng)絡社區(qū),或者所述前次挖掘網(wǎng)絡社區(qū)的目標通聯(lián)關(guān)系,并以RDD形式將所述目標通聯(lián)關(guān)系所涉及的網(wǎng)絡社區(qū)成員存儲為泛化網(wǎng)絡社區(qū)。

      所述目標獲取模塊65用于獲取所述泛化網(wǎng)絡社區(qū)與所述原始網(wǎng)絡社區(qū)及所述前次挖掘網(wǎng)絡社區(qū)之間的差集,并以RDD形式將所述差集中的成員存儲為目標網(wǎng)絡社區(qū)。

      所述重復執(zhí)行模塊66用于重復上述挖掘操作,直至所述目標網(wǎng)絡社區(qū)的規(guī)模維持穩(wěn)定,或者目標網(wǎng)絡社區(qū)達到預定規(guī)模,或者所述挖掘操作的次數(shù)達到挖掘次數(shù)上限。

      優(yōu)選的,所述通聯(lián)關(guān)系表示:一個成員與另一個成員之間存在關(guān)聯(lián)。

      優(yōu)選的,所述關(guān)聯(lián)包括:所述一個成員與所述另一個成員之間存在通訊聯(lián)系。

      優(yōu)選的,網(wǎng)絡社區(qū)的挖掘裝置還包括:原始數(shù)據(jù)挖掘模塊61。

      所述原始數(shù)據(jù)挖掘模塊61用于在獲取以RDD形式存儲的原始網(wǎng)絡社區(qū),以及前次挖掘得到的前次挖掘網(wǎng)絡社區(qū)之前,通過數(shù)據(jù)挖掘技術(shù),以流式處理框架挖掘成員真實身份數(shù)據(jù),以及成員通聯(lián)關(guān)系數(shù)據(jù)。

      優(yōu)選的,網(wǎng)絡社區(qū)的挖掘裝置還包括:核心成員挖掘模塊67。

      所述核心成員挖掘模塊67用于在完成所述挖掘操作之后,根據(jù)成員之間的通聯(lián)關(guān)系對所述目標網(wǎng)絡社區(qū)的成員打分,以挖掘所述目標網(wǎng)絡社區(qū)中的核心成員。

      本領(lǐng)域普通技術(shù)人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,他們可以用計算機裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。

      以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,對于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1