組形成方法、數(shù)據(jù)采集方法和數(shù)據(jù)采集設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本文中論述的實(shí)施方式涉及數(shù)據(jù)采集技術(shù)。
【背景技術(shù)】
[0002]近年來(lái),比如學(xué)生、家庭主婦、從業(yè)人員等的各種階層中的許多用戶(hù)使用網(wǎng)(萬(wàn)維網(wǎng))來(lái)學(xué)習(xí)日常生活中想到的事情和考慮事情的方式,或者來(lái)與其他用戶(hù)交換各種領(lǐng)域中的信息。由于大量用戶(hù)使用網(wǎng),所以存在下述情況:通過(guò)使用網(wǎng)來(lái)執(zhí)行市場(chǎng)研宄,以將市場(chǎng)研宄的結(jié)果用在開(kāi)發(fā)商業(yè)產(chǎn)品中。
[0003]為了提取作為調(diào)查目標(biāo)的用戶(hù),提出一種技術(shù)來(lái)提取如下用戶(hù):用戶(hù)的信息包含用于在用戶(hù)屬性和搜索日志中進(jìn)行搜索的條件。還建議了下述技術(shù):通過(guò)使用與用戶(hù)的投稿活動(dòng)相關(guān)的數(shù)字信息來(lái)計(jì)算表明分析中的優(yōu)越性的程度。
[0004]下面的專(zhuān)利文獻(xiàn)公開(kāi)了【背景技術(shù)】。
[0005]專(zhuān)利文獻(xiàn)1:日本公開(kāi)特許公報(bào)第2010-108119號(hào)
[0006]專(zhuān)利文獻(xiàn)2:日本公開(kāi)特許公報(bào)第2012-216168號(hào)
[0007]博客(網(wǎng)博)是網(wǎng)的用戶(hù)將他們的觀點(diǎn)向公眾開(kāi)放的實(shí)例。會(huì)存在下述情況:網(wǎng)上博客的內(nèi)容用于產(chǎn)品開(kāi)發(fā)的調(diào)查。在產(chǎn)品開(kāi)發(fā)的調(diào)查中,通過(guò)下述方式創(chuàng)建群:通過(guò)對(duì)屬于所創(chuàng)建群的每個(gè)用戶(hù)的博客進(jìn)行分析,來(lái)采樣每個(gè)預(yù)定屬性的適當(dāng)數(shù)量人員以取得作為消費(fèi)者或者顧客的每個(gè)用戶(hù)的實(shí)際狀況。
[0008]群中每個(gè)用戶(hù)的屬性隨時(shí)間的推移而改變,而使得例如從學(xué)生變成從業(yè)人員。另夕卜,可能存在下述情況:用戶(hù)停止更新博客或者終止博客本身。
[0009]另一方面,在調(diào)研產(chǎn)品市場(chǎng)的情況下,除非維持屬性比率恒定,否則無(wú)法作出與過(guò)去調(diào)研結(jié)果的準(zhǔn)確比較。因此,為了對(duì)應(yīng)于上述改變,從群中略去屬性已經(jīng)改變的用戶(hù)以維持群中的屬性比率恒定,并且將屬性一樣的新用戶(hù)添加至群。
[0010]然而,如果使用在作調(diào)查時(shí)有效提取用戶(hù)的上述常規(guī)技術(shù),則難以響應(yīng)于用戶(hù)屬性隨時(shí)間推移的改變將群中的屬性比率維持在固定值。
[0011]因此,期望通過(guò)考慮群比率中的屬性比率來(lái)創(chuàng)建調(diào)查目標(biāo)群。
【發(fā)明內(nèi)容】
[0012]根據(jù)實(shí)施方式的一方面,提供了一種組形成方法,所述組形成方法由計(jì)算機(jī)執(zhí)行程序以實(shí)施處理來(lái)實(shí)施,所述方法包括:從包括貢獻(xiàn)者的第一組貢獻(xiàn)者的公開(kāi)信息中提取多個(gè)關(guān)鍵詞,其中針對(duì)所包括的貢獻(xiàn)者將關(guān)于第一屬性的屬性值計(jì)算為與預(yù)定屬性值相對(duì)應(yīng),所述第一屬性是相對(duì)于所述公共信息的每個(gè)貢獻(xiàn)者的屬性,并且所述第一屬性的屬性值相對(duì)于時(shí)間的推移而改變;通過(guò)形成所述公共信息的貢獻(xiàn)者組來(lái)形成第一貢獻(xiàn)者組集合,其中所述公共信息包含相對(duì)于在所述多個(gè)關(guān)鍵詞中包含的每個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)鍵詞;相對(duì)于新公共信息通過(guò)形成所述新公共信息的貢獻(xiàn)者組來(lái)形成第二貢獻(xiàn)者組集合,其中所述新公共信息包含基于在所述多個(gè)關(guān)鍵詞中包含的每個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)鍵詞;從所述第二貢獻(xiàn)者組集合中包含的貢獻(xiàn)者組之中識(shí)別貢獻(xiàn)者組,其中所識(shí)別的貢獻(xiàn)者組的屬性的屬性值的分布與所述第一分布不同,指示預(yù)定相似度關(guān)系,所述第二貢獻(xiàn)者組集合中包含的貢獻(xiàn)者組是通過(guò)使用與所述第一貢獻(xiàn)者組集合中包含的每個(gè)貢獻(xiàn)者組的關(guān)鍵詞相同的關(guān)鍵詞來(lái)形成的;以及通過(guò)使用來(lái)自在所識(shí)別的貢獻(xiàn)者組中包含的貢獻(xiàn)者之中的貢獻(xiàn)者來(lái)形成與所述第一貢獻(xiàn)者組相對(duì)應(yīng)的新貢獻(xiàn)者組,其中所使用的貢獻(xiàn)者的關(guān)于估算的第一屬性的屬性值被計(jì)算為與所述預(yù)定屬性值相對(duì)應(yīng)。
[0013]根據(jù)實(shí)施方式的另一方面,提供了一種數(shù)據(jù)采集方法,所述數(shù)據(jù)采集方法執(zhí)行對(duì)由屬性隨時(shí)間推移而變化的調(diào)查目標(biāo)向公眾開(kāi)放的數(shù)據(jù)進(jìn)行采集的處理,所述方法由計(jì)算機(jī)執(zhí)行程序以進(jìn)行如下處理而實(shí)施,所述處理包括:基于與第一屬性不同的第二屬性的分布,來(lái)創(chuàng)建用于搜索所述調(diào)查目標(biāo)的所述數(shù)據(jù)的關(guān)鍵詞,其中所述調(diào)查目標(biāo)具有相對(duì)于所述調(diào)查目標(biāo)的群而不足的所述第一屬性;對(duì)使用所述關(guān)鍵詞采集的所述數(shù)據(jù)的所述調(diào)查目標(biāo)的所述第一屬性進(jìn)行估算;以及通過(guò)被估算為具有不足的第一屬性的所述調(diào)查目標(biāo)來(lái)補(bǔ)充要被補(bǔ)充在所述群中的調(diào)查目標(biāo)。
[0014]根據(jù)實(shí)施方式的又一方面,提供了一種一種數(shù)據(jù)采集設(shè)備,對(duì)由調(diào)查目標(biāo)開(kāi)放的數(shù)據(jù)進(jìn)行采集,其中所述調(diào)查目標(biāo)的屬性隨時(shí)間的推移進(jìn)行改變,所述數(shù)據(jù)采集設(shè)備包括:創(chuàng)建部分,所述創(chuàng)建部分基于與第一屬性不同的第二屬性的分布來(lái)創(chuàng)建用于搜索所述調(diào)查目標(biāo)的所述數(shù)據(jù)的關(guān)鍵詞,其中所述調(diào)查目標(biāo)具有相對(duì)于所述調(diào)查目標(biāo)的群不足的第一屬性;估算部分,所述估算部分對(duì)使用所述關(guān)鍵詞采集的所述數(shù)據(jù)的所述調(diào)查目標(biāo)的所述第一屬性進(jìn)行估算;以及采樣部分,所述采樣部分通過(guò)被估算為具有不足的第一屬性的所述調(diào)查目標(biāo)來(lái)補(bǔ)充要被補(bǔ)充在所述群中的調(diào)查目標(biāo)。
【附圖說(shuō)明】
[0015]圖1是示例了根據(jù)實(shí)施方式的系統(tǒng)結(jié)構(gòu)的框圖;
[0016]圖2是示例了數(shù)據(jù)采集設(shè)備的硬件結(jié)構(gòu)的框圖;
[0017]圖3是參考分布的示例;
[0018]圖4是數(shù)據(jù)采集設(shè)備的功能結(jié)構(gòu)的框圖;
[0019]圖5是先前準(zhǔn)備的數(shù)據(jù)庫(kù)和表中數(shù)據(jù)實(shí)例的示例;
[0020]圖6是先前準(zhǔn)備的數(shù)據(jù)庫(kù)和表中數(shù)據(jù)實(shí)例的示例;
[0021]圖7是先前準(zhǔn)備的數(shù)據(jù)庫(kù)和表中數(shù)據(jù)實(shí)例的示例;
[0022]圖8是從群中隨機(jī)選擇的用戶(hù)集合的數(shù)據(jù)示例;
[0023]圖9是新用戶(hù)候選集合的數(shù)據(jù)結(jié)構(gòu)的示例;
[0024]圖10是每個(gè)用戶(hù)表的關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu)示例;
[0025]圖11是每個(gè)用戶(hù)表的估算屬性的數(shù)據(jù)結(jié)構(gòu)示例;
[0026]圖12是新用戶(hù)列表的數(shù)據(jù)示例;
[0027]圖13是新用戶(hù)補(bǔ)充處理的一部分的流程圖;
[0028]圖14是新用戶(hù)補(bǔ)充處理的另一部分的流程圖;
[0029]圖15A是指示隨機(jī)用戶(hù)集合的非調(diào)節(jié)分值分布的一個(gè)實(shí)例的圖;
[0030]圖15B是指示隨機(jī)用戶(hù)集合的非調(diào)節(jié)分值分布的另一實(shí)例的圖;
[0031]圖16A是指示群和不充分職業(yè)屬性值的非調(diào)節(jié)分值分布的一個(gè)實(shí)例的圖;以及
[0032]圖16B是指示群和不充分職業(yè)屬性值的非調(diào)節(jié)分值分布的另一實(shí)例的圖。
【具體實(shí)施方式】
[0033]現(xiàn)在將參照附圖來(lái)給出對(duì)實(shí)施方式的描述。
[0034]圖1是示出根據(jù)實(shí)施方式的系統(tǒng)的結(jié)構(gòu)的框圖。在圖1中,系統(tǒng)1000包括采集設(shè)備100、一個(gè)或更多個(gè)博客服務(wù)器3,以及一個(gè)或更多個(gè)博主終端9。
[0035]數(shù)據(jù)采集設(shè)備100經(jīng)由網(wǎng)絡(luò)與一個(gè)或更多個(gè)博客服務(wù)器3連接,以搜索并且采集博客服務(wù)器3中的博客3a。數(shù)據(jù)采集設(shè)備100在采集博客3a中提供高度可靠的數(shù)據(jù)集合。
[0036]創(chuàng)建由數(shù)據(jù)采集設(shè)備提供的數(shù)據(jù)集合,以用于提取用作針對(duì)產(chǎn)品發(fā)展的有用參考的信息,比如用戶(hù)對(duì)市場(chǎng)上商業(yè)產(chǎn)品的喜好。
[0037]每個(gè)博客服務(wù)器3具有針對(duì)博客的各種管理功能,并且向博主(用戶(hù))提供針對(duì)博客的存儲(chǔ)區(qū)域。
[0038]博主終端9是被博主使用的終端,并且通過(guò)使用博客服務(wù)器3的服務(wù)來(lái)創(chuàng)建、更新并且刪除博客3a。
[0039]圖2是示出數(shù)據(jù)采集設(shè)備100的硬件結(jié)構(gòu)的框圖。數(shù)據(jù)采集設(shè)備100是受計(jì)算機(jī)控制的終端。如圖2所說(shuō)明的,數(shù)據(jù)采集設(shè)備100包括CPU (中央處理單元)11、主存儲(chǔ)裝置12、輔助存儲(chǔ)裝置13、輸入裝置14、顯示裝置15、通信I/F(接口)17和驅(qū)動(dòng)裝置,它們連接至總線B。
[0040]CPU 11根據(jù)存儲(chǔ)在主存儲(chǔ)裝置12中的程序來(lái)控制數(shù)據(jù)采集設(shè)備。主存儲(chǔ)裝置12包括RAM (隨機(jī)存取存儲(chǔ)器)、ROM(只讀存儲(chǔ)器)等,以存儲(chǔ)或暫時(shí)保存CPU 11執(zhí)行的程序、CPU 11的處理需要的數(shù)據(jù)、通過(guò)CPU 11的處理獲取的數(shù)據(jù)等。
[0041]輔助存儲(chǔ)裝置13包括HDD (硬盤(pán)驅(qū)動(dòng)器)等,以存儲(chǔ)數(shù)據(jù)比如用于執(zhí)行各種處理的程序。存儲(chǔ)在輔助存儲(chǔ)裝置13中的程序的一部分被加載至主存儲(chǔ)裝置12,并且通過(guò)實(shí)現(xiàn)各種處理的CPU 11來(lái)執(zhí)行。存儲(chǔ)部分130包括主存儲(chǔ)裝置12和/或輔助存儲(chǔ)裝置13。
[0042]輸入裝置14被用戶(hù)用來(lái)輸入通過(guò)數(shù)據(jù)采集設(shè)備100進(jìn)行處理而需要的各種信息。顯示裝置15顯示通過(guò)CPU 11進(jìn)行控制而需要的各種信息。通信I/F 17通過(guò)有線網(wǎng)絡(luò)或者無(wú)線網(wǎng)絡(luò)執(zhí)行通信。通過(guò)通信I/F 17進(jìn)行的通信不限于有線通信或者無(wú)線通信。
[0043]通過(guò)存儲(chǔ)介質(zhì)19比如⑶-ROM (致密盤(pán)只讀存儲(chǔ)器)等向數(shù)據(jù)采集設(shè)備100提供實(shí)現(xiàn)通過(guò)數(shù)據(jù)采集裝置100執(zhí)行的處理的程序。
[0044]驅(qū)動(dòng)裝置18連接在驅(qū)動(dòng)裝置18中設(shè)定的存儲(chǔ)介質(zhì)19 (例如CD-ROM等)與數(shù)據(jù)采集設(shè)備100之間。
[0045]另外,可以在存儲(chǔ)介質(zhì)19中存儲(chǔ)用于實(shí)現(xiàn)根據(jù)后續(xù)提到的本實(shí)施方式的各種處理的程序。經(jīng)由驅(qū)動(dòng)裝置18將存儲(chǔ)在存儲(chǔ)介質(zhì)19中的程序安裝在數(shù)據(jù)采集設(shè)備100中。這樣安裝的程序可被數(shù)據(jù)采集設(shè)備100執(zhí)行。
[0046]注意,用于存儲(chǔ)程序的存儲(chǔ)介質(zhì)19不限于CD-ROM,而可以使用任何計(jì)算機(jī)可讀介質(zhì)作為存儲(chǔ)介質(zhì)19。作為除了⑶-ROM之外的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存在比如DVD盤(pán)、USB存儲(chǔ)器等的便攜式記錄介質(zhì)和比如閃存等的半導(dǎo)體存儲(chǔ)器。
[0047]為了針對(duì)市場(chǎng)研宄或調(diào)查而使用博客,首先,通過(guò)對(duì)用戶(hù)進(jìn)行采樣來(lái)創(chuàng)建適當(dāng)群。就是說(shuō),創(chuàng)建群使得群中用戶(hù)屬性的比率基本上等于通過(guò)國(guó)內(nèi)群分布等的數(shù)據(jù)來(lái)指示的屬性的比率。例如,參照在作為屬性的性別和職業(yè)的基礎(chǔ)上的群分布來(lái)確定樣本的數(shù)量,使得針對(duì)每個(gè)屬性的比率基本上等于所創(chuàng)建的群的比率。在后文中,在創(chuàng)建群時(shí)參照的樣本的數(shù)量的分布被稱(chēng)為“參考分布”。
[0048]圖3是示出參考分布的實(shí)例的圖示。在圖3中,參考分布I是通過(guò)使用性別和職業(yè)作為屬性的矩陣來(lái)指示樣本的數(shù)量的表。性別的屬性值是“男