產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)的制作方法

文檔序號：10552998閱讀：1251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)，所述方法為建立站內(nèi)外類目映射匹配表；對相似產(chǎn)品判別；通過http請求，基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù)，將所有參與比價產(chǎn)品構(gòu)建文本索引；將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引；基于文本相似判別；基于圖片相似判別；進(jìn)行產(chǎn)品相似融合；相似產(chǎn)品比價。本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)，節(jié)省人力成本，可以通過競爭對手或同類產(chǎn)品現(xiàn)狀分析，體現(xiàn)產(chǎn)品的特點和優(yōu)勢；基于產(chǎn)品文本信息和產(chǎn)品主圖圖像特征進(jìn)行相似產(chǎn)品計算，相似準(zhǔn)確度高。
【專利說明】
產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種信息采集方法，具體的說，是涉及一種互聯(lián)網(wǎng)產(chǎn)品價格數(shù)據(jù)采集方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)資源的不斷豐富和網(wǎng)絡(luò)信息量的不斷膨脹，人們對網(wǎng)絡(luò)的依賴性越來越強，卻也給服務(wù)對象從浩如煙海的互聯(lián)網(wǎng)資源中快速找到自己所需的特定資源帶來了不便;信息自古就有無限的價值，隨著時代的不斷發(fā)展，人類不知不覺已經(jīng)來到了信息時代，各行各業(yè)都充斥了無數(shù)的信息，而信息的價值就在于數(shù)據(jù)的流通，如果數(shù)據(jù)能夠及時的流通和傳遞起來，才能發(fā)揮信息真正的不可比擬的價值;在市場經(jīng)濟(jì)條件下，采集數(shù)據(jù)已經(jīng)成為重要的工具和手段。如何從海量信息中收集有價值的數(shù)據(jù)并進(jìn)行分析研究，形成企業(yè)各種決策的依據(jù)，是數(shù)據(jù)采集人員及市場研究人員所面臨的一個問題;要從大量的數(shù)據(jù)中迅速的找到并獲得自己所需要的信息和服務(wù)，變得越來越困難，服務(wù)對象在查詢信息時往往會迷失他們的目標(biāo)或者是得到一些比較偏頗的結(jié)果;數(shù)據(jù)必須經(jīng)過匯總、整合、分析才能產(chǎn) 生價值，零散的信息只能是新聞性的，無法體現(xiàn)真正的商業(yè)價值;對于企業(yè)以及信息分析人員來說，一方面要在大量的信息中過濾出有效的價值點，同時又要降低獲取相應(yīng)信息的成本，使信息的實際使用價值大于收集、分析信息等過程所產(chǎn)生的成本，使信息為企業(yè)的決策帶來增值價值。而進(jìn)行數(shù)據(jù)分析研究必須獲取所需的數(shù)據(jù)。
[0003] 現(xiàn)有采集網(wǎng)站數(shù)據(jù)的方式主要有兩種，一種傳統(tǒng)方式:主要采用人工的方式，從目的網(wǎng)站通過復(fù)制、粘貼方式實現(xiàn)網(wǎng)站數(shù)據(jù)的采集。另一種是采用軟件的方式，如采用網(wǎng)絡(luò)爬蟲程序，按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。具體的，網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。現(xiàn)有的傳統(tǒng)方式費時費力，工作量大;而采用軟件的方式雖然可以采集網(wǎng)站數(shù)據(jù)，但是不能區(qū)分所采集的大量網(wǎng)站數(shù)據(jù) 之間的關(guān)聯(lián)性，且網(wǎng)絡(luò)爬蟲一般基于關(guān)鍵字獲取網(wǎng)站數(shù)據(jù)，很容易采集到無用的垃圾信息，信息提取質(zhì)量不高。
[0004] 產(chǎn)品價格是在電商行業(yè)交易過程中的的重要環(huán)節(jié)，據(jù)相關(guān)數(shù)據(jù)統(tǒng)計，影響電商行業(yè)成交率的十大因素中包括產(chǎn)品價格。
[0005] 目前平臺重點成交產(chǎn)品沒有競品價格情況的系統(tǒng)管理和查看，目前主要是通過各個行業(yè)日常通過手工方式人工整理。耗費時間和人力。

【發(fā)明內(nèi)容】

[0006] 針對上述現(xiàn)有技術(shù)中的不足，本發(fā)明提供一種快捷、準(zhǔn)確的產(chǎn)品價格數(shù)據(jù)采集方法。
[0007] 本發(fā)明所采取的技術(shù)方案是：
[0008] -種產(chǎn)品價格數(shù)據(jù)采集方法，建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別;通過 http請求，基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù)，
[0009] 1)將所有參與比價產(chǎn)品構(gòu)建文本索引；
[0010] 2)將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引；基于文本相似判別；基于圖片相似判另IJ;進(jìn)行產(chǎn)品相似融合;相似產(chǎn)品比價。
[0011]優(yōu)選的是，基于文本相似判別步驟為：
[0012] 1)進(jìn)行文本詞頻統(tǒng)計，計算BM25系數(shù)，從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合；
[0013] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合，基于標(biāo)題維度計算Jaccard距離和空間向量余弦相似距離；
[0014] 3)基于相似距離，得到基于文本相似度的候選相似產(chǎn)品。
[0015]在上述任一方案中優(yōu)選的是，
[0016]詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù)，BM25系數(shù)是一種表示查詢文本和搜索文本之間的相似系數(shù)；
[0018] Q為查詢文本，包含關(guān)鍵詞qi，. . .，qn，D為搜索文本，f(qi，D)為關(guān)鍵詞qi在文檔D中出現(xiàn)的詞頻。
[0020] N為總的搜索文本數(shù)量，n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
[0021 ]設(shè)定bm25系數(shù)閾值，獲得初步目標(biāo)相似數(shù)據(jù)。
[0022]在上述任一方案中優(yōu)選的是，
[0023] Jaccard相似指數(shù)用來度量兩個集合之間的相似性，它被定義為兩個集合交集的元素個數(shù)除以并集的元素個數(shù)；
[0024] Jaccard距離用來度量兩個集合之間的差異性，它是Jaccard的相似系數(shù)的補集，被定義為1減去Jaccard相似系數(shù)；
[0025]余弦相似距離是指兩個向量之間夾角余弦；
[0026]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
[0027]在上述任一方案中優(yōu)選的是，
[0028]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括，設(shè)定距離閾值，將距離小于閾值的文本作為候選相似產(chǎn)品。
[0029] 在上述任一方案中優(yōu)選的是，基于圖片相似判別步驟為；
[0030] 1)針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量；
[0031] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
[0032]在上述任一方案中優(yōu)選的是，
[0033] 針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量；
[0034] 米用CEDD 特征，CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即顏色和邊緣方向特征描述符；
[0035] 結(jié)合圖像的顏色和紋理信息，生成一個144位的直方圖。
[0036] 在上述任一方案中優(yōu)選的是，基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品進(jìn)一步包括，計算圖像特征向量距離，或者是向量余弦距離，根據(jù)距離大小排序，設(shè)定距離閾值，得到相似產(chǎn)品。
[0037] 在上述任一方案中優(yōu)選的是，進(jìn)行產(chǎn)品相似融合進(jìn)一步包括，基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品。
[0038] 在上述任一方案中優(yōu)選的是，基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品，進(jìn)一步包括如下步驟：
[0039] 將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似；當(dāng)文本相似度為Ts(0-100)，圖像相似度為Is(O-lOO)，加權(quán)后的相似度為Ss = TS*W+IS*(l-W)，W取值 0-1之間的數(shù)，然后根據(jù)加權(quán)后的相似度設(shè)定閾值，得到最后的相似產(chǎn)品。
[0040] 在上述任一方案中優(yōu)選的是，相似產(chǎn)品比價進(jìn)一步包括，將產(chǎn)品劃分不同的價格區(qū)間，針對相同價格區(qū)間的產(chǎn)品進(jìn)行單品價格比價。
[0041 ]在上述任一方案中優(yōu)選的是，
[0042]基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮，將相似產(chǎn)品價格劃分價格區(qū) 間，是固定的價格區(qū)間；或者是浮動的價格區(qū)間，以查詢產(chǎn)品價格為基準(zhǔn)，在其價格上下一定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
[0043]在上述任一方案中優(yōu)選的是，通過不同的ip地址訪問目標(biāo)網(wǎng)站。
[0044] 在上述任一方案中優(yōu)選的是，降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù)，請求次數(shù)范圍是10次/秒。
[0045] 在上述任一方案中優(yōu)選的是，測試目標(biāo)網(wǎng)站允許的單個ip的最快速度，設(shè)定ip采集速度和頻率。
[0046]在上述任一方案中優(yōu)選的是，代理服務(wù)器，代理服務(wù)器配置多個ip，每次訪問隨機 ip抽取訪問。
[0047]在上述任一方案中優(yōu)選的是，配置多個服務(wù)器，每個服務(wù)器配置不同的出口 ip，訪問時隨機抽取ip訪問。
[0 04 8 ]在上述任一方案中優(yōu)選的是，抓取產(chǎn)品最終頁數(shù)據(jù)，解析產(chǎn)品i t e m c 〇 d e，產(chǎn)品標(biāo) 題，產(chǎn)品類目，產(chǎn)品價格等信息.
[0049] 一種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng)，包括信息處理服務(wù)器，所述信息處理服務(wù)器包括：用來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn)品的服務(wù)器。
[0050] 優(yōu)選的是，用來計算相似產(chǎn)品的服務(wù)器處理內(nèi)容包括:文本相似計算處理步驟，圖像相似計算處理步驟，消息隊列處理步驟，配置文件管理處理步驟，產(chǎn)品比價處理步驟。
[0051] 本發(fā)明相對現(xiàn)有技術(shù)的有益效果：
[0052]本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法，人工比價系統(tǒng)化，節(jié)省人力成本，可以通過競爭對手或同類產(chǎn)品現(xiàn)狀分析，體現(xiàn)產(chǎn)品的特點和優(yōu)勢;基于產(chǎn)品文本信息和產(chǎn)品主圖圖像特征進(jìn)行相似產(chǎn)品計算，相似準(zhǔn)確度高。普通的比價網(wǎng)站主要是應(yīng)用產(chǎn)品文本信息進(jìn)行相似計算，準(zhǔn)確度低。
[0053] 本發(fā)明通過http請求，基于網(wǎng)絡(luò)爬蟲抓取站外產(chǎn)品數(shù)據(jù)，通過降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù);測試目標(biāo)網(wǎng)站允許的單個ip的最快速度，設(shè)定ip采集速度和頻率，采用代理服務(wù)器，代理服務(wù)器配置多個ip，每次訪問隨機ip抽取訪問；配置多個服務(wù)器，每個服務(wù)器配置不同的出口 ip，訪問時隨機抽取ip訪問，防止目標(biāo)網(wǎng)站對ip封禁。
【附圖說明】
[0054] 圖1是按照本發(fā)明的產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選流程示意圖；
[0055] 圖2是按照本發(fā)明的產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選比價示意圖；
[0056] 圖3是按照本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選的系統(tǒng)邏輯示意圖。
【具體實施方式】
[0057]以下參照附圖及實施例對本發(fā)明進(jìn)行詳細(xì)的說明：
[0058] 實施例1
[0059]附圖1-3可知，為一種產(chǎn)品價格數(shù)據(jù)采集方法，建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別;通過http請求，基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù)，
[0060] 1)將所有參與比價產(chǎn)品構(gòu)建文本索引；
[0061] 2)將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引；基于文本相似判別；基于圖片相似判另IJ;進(jìn)行產(chǎn)品相似融合;相似產(chǎn)品比價。
[0062]基于文本相似判別步驟為：
[0063] 1)進(jìn)行文本詞頻統(tǒng)計，計算BM25系數(shù)，從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合；
[0064] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合，基于標(biāo)題維度計算Jaccard距離和空間向量余弦相似距離；
[0065] 3)基于相似距離，得到基于文本相似度的候選相似產(chǎn)品。
[0066]詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù)，BM25系數(shù)是一種表示查詢文本和搜索文本之間的相似系數(shù)；
[0068] Q為查詢文本，包含關(guān)鍵詞qi，. . .，qn，D為搜索文本，f(qi，D)為關(guān)鍵詞qi在文檔D中出現(xiàn)的詞頻。
[0070] N為總的搜索文本數(shù)量，n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
[0071 ]設(shè)定bm25系數(shù)閾值，獲得初步目標(biāo)相似數(shù)據(jù)。
[0072] Jaccard相似指數(shù)用來度量兩個集合之間的相似性，它被定義為兩個集合交集的元素個數(shù)除以并集的元素個數(shù)；
[0073] Jaccard距離用來度量兩個集合之間的差異性，它是Jaccard的相似系數(shù)的補集，被定義為1減去Jaccard相似系數(shù)；
[0074]余弦相似距離是指兩個向量之間夾角余弦；
[0075]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
[0076]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括，設(shè)定距離閾值，將距離小于閾值的文本作為候選相似產(chǎn)品。
[0077]基于圖片相似判別步驟為；
[0078] 1)針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量；
[0079] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
[0080]針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量；
[0081]米用CEDD 特征，CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即顏色和邊緣方向特征描述符；
[0082]結(jié)合圖像的顏色和紋理信息，生成一個144位的直方圖。
[0083] 基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品進(jìn)一步包括，計算圖像特征向量距離，或者是向量余弦距離，根據(jù)距離大小排序，設(shè)定距離閾值，得到相似產(chǎn)品。
[0084] 進(jìn)行產(chǎn)品相似融合進(jìn)一步包括，基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似廣品。
[0085] 基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品進(jìn)一步包括如下步驟：
[0086] 將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似；當(dāng)文本相似度為Ts(0-100)，圖像相似度為Is(O-lOO)，加權(quán)后的相似度為Ss = TS*W+IS*(l-W)，W取值 0-1之間的數(shù)，然后根據(jù)加權(quán)后的相似度設(shè)定閾值，得到最后的相似產(chǎn)品。
[0087] 相似產(chǎn)品比價進(jìn)一步包括，將產(chǎn)品劃分不同的價格區(qū)間，針對相同價格區(qū)間的產(chǎn) 品進(jìn)行單品價格比價。
[0088] 基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮，將相似產(chǎn)品價格劃分價格區(qū)間進(jìn)一步包括，固定的價格區(qū)間，比如0-50，50-100，100-200等;或者是浮動的價格區(qū)間，以查詢產(chǎn)品價格為基準(zhǔn)，在其價格上下一定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
[0089] 通過不同的ip地址訪問目標(biāo)網(wǎng)站。
[0090] 降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù)，請求次數(shù)范圍是10次/秒。
[0091] 測試目標(biāo)網(wǎng)站允許的單個ip的最快速度，設(shè)定ip采集速度和頻率。
[0092] 代理服務(wù)器，代理服務(wù)器配置多個ip，每次訪問隨機ip抽取訪問。
[0093]配置多個服務(wù)器，每個服務(wù)器配置不同的出口 ip，訪問時隨機抽取ip訪問。
[0094]抓取產(chǎn)品最終頁數(shù)據(jù)，解析產(chǎn)品itemcode，產(chǎn)品標(biāo)題，產(chǎn)品類目，產(chǎn)品價格等信息。 [0095] 實施例2
[0096]附圖1-3可知，為一種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng)，包括信息處理服務(wù)器，所述信息處理服務(wù)器包括:用來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn)品的服務(wù)器。 [0097]用來計算相似產(chǎn)品的服務(wù)器處理內(nèi)容包括:文本相似計算處理步驟，圖像相似計算處理步驟，消息隊列處理步驟，配置文件管理處理步驟，產(chǎn)品比價處理步驟。
[0098] 所述文本相似計算處理步驟進(jìn)一步包括；
[0099] 1)進(jìn)行文本詞頻統(tǒng)計，計算BM25系數(shù)，從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合；
[0100] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合，基于標(biāo)題維度計算Jaccard距離和空間向量余弦相似距離；
[0101] 3)基于相似距離，得到基于文本相似度的候選相似產(chǎn)品。
[0102] 所述詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù)，所述BM25系數(shù)是一種表示查詢文本和搜索文本之間的相似系數(shù)；
[0104] Q為查詢文本，包含關(guān)鍵詞q!，. . .，qn，D為搜索文本，f(qi，D)為關(guān)鍵詞qi在文檔D中出現(xiàn)的詞頻。
[0106] N為總的搜索文本數(shù)量，n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
[0107] 設(shè)定bm25系數(shù)閾值，獲得初步目標(biāo)相似數(shù)據(jù)。
[0108] Jaccard相似指數(shù)用來度量兩個集合之間的相似性，它被定義為兩個集合交集的元素個數(shù)除以并集的元素個數(shù)；
[0109] Jaccard距離用來度量兩個集合之間的差異性，它是Jaccard的相似系數(shù)的補集，被定義為1減去Jaccard相似系數(shù)；
[0110]余弦相似距離是指兩個向量之間夾角余弦；
[0111]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
[0112]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括，設(shè)定距離閾值，將距離小于閾值的文本作為候選相似產(chǎn)品。
[0113] 基于圖像相似計算處理步驟進(jìn)一步包括；
[0114] 1)針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量；
[0115] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
[0116] 針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量進(jìn)一步包括：
[0117] 米用CEDD 特征，CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即顏色和邊緣方向特征描述符；
[0118] 結(jié)合圖像的顏色和紋理信息，生成一個144位的直方圖。
[0119] 基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品進(jìn)一步包括，計算圖像特征向量距離，或者是向量余弦距離，根據(jù)距離大小排序，設(shè)定距離閾值，得到相似產(chǎn)品。
[0120] 得到相似產(chǎn)品包括基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn) 品。
[0121] 基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品具體包括如下步驟:將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似;當(dāng)文本相似度為 Ts(0-100)，圖像相似度為Is(0-100)，加權(quán)后的相似度為Ss = Ts*W+Is*(l-W)，w取值0-1之間的數(shù)，然后根據(jù)加權(quán)后的相似度設(shè)定閾值，得到最后的相似產(chǎn)品。
[0122] 產(chǎn)品比價處理是將將產(chǎn)品劃分不同的價格區(qū)間，針對相同價格區(qū)間的產(chǎn)品進(jìn)行單品價格比價。
[0123] 基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮，將相似產(chǎn)品價格劃分價格區(qū) 間，是固定的價格區(qū)間；或者是浮動的價格區(qū)間，以查詢產(chǎn)品價格為基準(zhǔn)，在其價格上下一定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
[0124] 所述代理服務(wù)器配置多個ip，每次訪問隨機抽取ip訪問。
[0125] 本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)，人工比價系統(tǒng)化，節(jié)省人力成本，可以通過競爭對手或同類產(chǎn)品現(xiàn)狀分析，體現(xiàn)產(chǎn)品的特點和優(yōu)勢;基于產(chǎn)品文本信息和產(chǎn)品主圖圖像特征進(jìn)行相似產(chǎn)品計算，相似準(zhǔn)確度高。普通的比價網(wǎng)站主要是應(yīng)用產(chǎn)品文本信息進(jìn)行相似計算，準(zhǔn)確度低。
[0126] 本發(fā)明通過http請求，基于網(wǎng)絡(luò)爬蟲抓取站外產(chǎn)品數(shù)據(jù)，通過降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù);測試目標(biāo)網(wǎng)站允許的單個ip的最快速度，設(shè)定ip采集速度和頻率，采用代理服務(wù)器，代理服務(wù)器配置多個ip，每次訪問隨機ip抽取訪問；配置多個服務(wù)器，每個服務(wù)器配置不同的出口 ip，訪問時隨機抽取ip訪問，防止目標(biāo)網(wǎng)站對ip封禁。
[0127] 業(yè)務(wù)部門需要了解平臺上的產(chǎn)品與競爭對手相比，在價格上的差異度有多少，通過對價格有很強的了解，為業(yè)務(wù)完成引導(dǎo)賣家價格調(diào)整，并提高平臺交易可能性。
[0128] 網(wǎng)站將排名靠前的產(chǎn)品與競爭對手同類且相似的產(chǎn)品比價，以競爭對手平臺的銷量排名靠前的產(chǎn)品與敦煌網(wǎng)與之類似的產(chǎn)品比價。
[0129] 以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明的結(jié)構(gòu)作任何形式上的限制。凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均屬于本發(fā)明的技術(shù)方案范圍內(nèi)。
【主權(quán)項】
1. 一種產(chǎn)品價格數(shù)據(jù)采集方法，建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別；通過 ht化請求，基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù)，其特征在于， 1) 將所有參與比價產(chǎn)品構(gòu)建文本索引； 2) 將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引；基于文本相似判別;基于圖片相似判別;進(jìn) 行產(chǎn)品相似融合;相似產(chǎn)品比價。2. 根據(jù)權(quán)利要求1所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于：基于文本相似判別步驟為： 1) 進(jìn)行文本詞頻統(tǒng)計，計算BM25系數(shù)，從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合； 2) 對初步目標(biāo)相似數(shù)據(jù)范圍集合，基于標(biāo)題維度計算化ccard距離和空間向量余弦相似距離； 3) 基于相似距離，得到基于文本相似度的候選相似產(chǎn)品。3. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于：所述詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù)，所述BM25系數(shù)是一種表示查詢文本和捜索文本之間的相似系數(shù)；Q為查詢文本，包含關(guān)鍵詞qi，. . .，qn，D為捜索文本，f(qi，D)為關(guān)鍵詞Qi在文檔D中出現(xiàn) 的詞頻。N為總的捜索文本數(shù)量，n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。設(shè)定bm25系數(shù)闊值，獲得初步目標(biāo)相似數(shù)據(jù)。4. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于： Jaccard相似指數(shù)用來度量兩個集合之間的相似性，它被定義為兩個集合交集的元素個數(shù)除W并集的元素個數(shù)； Jaccard距離用來度量兩個集合之間的差異性，它是化ccard的相似系數(shù)的補集，被定義為1減去化ccard相似系數(shù)；余弦相似距離是指兩個向量之間夾角余弦；計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。5. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于：得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括，設(shè)定距離闊值，將距離小于闊值的文本作為候選相似產(chǎn)品。6. 根據(jù)權(quán)利要求1所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于：基于圖片相似判別步驟為； 1) 針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量； 2) 基于圖像特征向量距離從圖像索引捜索到相似產(chǎn)品。7. 根據(jù)權(quán)利要求6所述產(chǎn)品價格數(shù)據(jù)采集方法，其特征在于：針對產(chǎn)品首圖，提取圖片顏色和紋理特征向量進(jìn)一步包括：采用CE孤特征，CE孤的英文全稱是Color and Edge Directivity Descriptor,即顏色和邊緣方向特征描述符；結(jié)合圖像的顏色和紋理信息，生成一個144位的直方圖。8. -種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng)，包括信息處理服務(wù)器，其特征在于：所述信息處理服務(wù)器包括：用來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn) 品的服務(wù)器。9. 根據(jù)權(quán)利要求8所述產(chǎn)品價格數(shù)據(jù)采集系統(tǒng)，其特征在于：用來計算相似產(chǎn)品的服務(wù) 器處理內(nèi)容包括:文本相似計算處理步驟，圖像相似計算處理步驟，消息隊列處理步驟，配置文件管理處理步驟，產(chǎn)品比價處理步驟。10. 根據(jù)權(quán)利要求9所述產(chǎn)品價格數(shù)據(jù)采集系統(tǒng)，其特征在于，所述文本相似計算處理步驟進(jìn)一步包括； 1) 進(jìn)行文本詞頻統(tǒng)計，計算BM25系數(shù)，從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合； 2) 對初步目標(biāo)相似數(shù)據(jù)范圍集合，基于標(biāo)題維度計算化ccard距離和空間向量余弦相似距離； 3) 基于相似距離，得到基于文本相似度的候選相似產(chǎn)品。
【文檔編號】G06Q30/02GK105912642SQ201610217664
【公開日】2016年8月31日
【申請日】2016年4月8日
【發(fā)明人】張宏志, 謝志勝, 顧錫棟, 陳磊, 楊秦, 郭田華
【申請人】世紀(jì)禾光科技發(fā)展（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張宏志;謝志勝;顧錫棟;陳磊;楊秦;郭田華;
技術(shù)所有人：世紀(jì)禾光科技發(fā)展（北京）有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

廣西機保數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)采集系統(tǒng)設(shè)計相關(guān)技術(shù)

實時數(shù)據(jù)采集系統(tǒng)方案相關(guān)技術(shù)

傳感器數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

自動化數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

工業(yè)數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)采集系統(tǒng)方案相關(guān)技術(shù)

高速數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)的制作方法