国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)的制作方法

      文檔序號:10552998閱讀:1251來源:國知局
      產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明涉及一種產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng),所述方法為建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別;通過http請求,基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù),將所有參與比價產(chǎn)品構(gòu)建文本索引;將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引;基于文本相似判別;基于圖片相似判別;進(jìn)行產(chǎn)品相似融合;相似產(chǎn)品比價。本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng),節(jié)省人力成本,可以通過競爭對手或同類產(chǎn)品現(xiàn)狀分析,體現(xiàn)產(chǎn)品的特點和優(yōu)勢;基于產(chǎn)品文本信息和產(chǎn)品主圖圖像特征進(jìn)行相似產(chǎn)品計算,相似準(zhǔn)確度高。
      【專利說明】
      產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng)
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及一種信息采集方法,具體的說,是涉及一種互聯(lián)網(wǎng)產(chǎn)品價格數(shù)據(jù)采集 方法。
      【背景技術(shù)】
      [0002] 隨著網(wǎng)絡(luò)資源的不斷豐富和網(wǎng)絡(luò)信息量的不斷膨脹,人們對網(wǎng)絡(luò)的依賴性越來越 強,卻也給服務(wù)對象從浩如煙海的互聯(lián)網(wǎng)資源中快速找到自己所需的特定資源帶來了不 便;信息自古就有無限的價值,隨著時代的不斷發(fā)展,人類不知不覺已經(jīng)來到了信息時代, 各行各業(yè)都充斥了無數(shù)的信息,而信息的價值就在于數(shù)據(jù)的流通,如果數(shù)據(jù)能夠及時的流 通和傳遞起來,才能發(fā)揮信息真正的不可比擬的價值;在市場經(jīng)濟(jì)條件下,采集數(shù)據(jù)已經(jīng)成 為重要的工具和手段。如何從海量信息中收集有價值的數(shù)據(jù)并進(jìn)行分析研究,形成企業(yè)各 種決策的依據(jù),是數(shù)據(jù)采集人員及市場研究人員所面臨的一個問題;要從大量的數(shù)據(jù)中迅 速的找到并獲得自己所需要的信息和服務(wù),變得越來越困難,服務(wù)對象在查詢信息時往往 會迷失他們的目標(biāo)或者是得到一些比較偏頗的結(jié)果;數(shù)據(jù)必須經(jīng)過匯總、整合、分析才能產(chǎn) 生價值,零散的信息只能是新聞性的,無法體現(xiàn)真正的商業(yè)價值;對于企業(yè)以及信息分析人 員來說,一方面要在大量的信息中過濾出有效的價值點,同時又要降低獲取相應(yīng)信息的成 本,使信息的實際使用價值大于收集、分析信息等過程所產(chǎn)生的成本,使信息為企業(yè)的決策 帶來增值價值。而進(jìn)行數(shù)據(jù)分析研究必須獲取所需的數(shù)據(jù)。
      [0003] 現(xiàn)有采集網(wǎng)站數(shù)據(jù)的方式主要有兩種,一種傳統(tǒng)方式:主要采用人工的方式,從目 的網(wǎng)站通過復(fù)制、粘貼方式實現(xiàn)網(wǎng)站數(shù)據(jù)的采集。另一種是采用軟件的方式,如采用網(wǎng)絡(luò)爬 蟲程序,按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。具體的,網(wǎng)絡(luò)爬蟲從一 個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁 面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。現(xiàn)有的傳統(tǒng)方式費時費力,工 作量大;而采用軟件的方式雖然可以采集網(wǎng)站數(shù)據(jù),但是不能區(qū)分所采集的大量網(wǎng)站數(shù)據(jù) 之間的關(guān)聯(lián)性,且網(wǎng)絡(luò)爬蟲一般基于關(guān)鍵字獲取網(wǎng)站數(shù)據(jù),很容易采集到無用的垃圾信息, 信息提取質(zhì)量不高。
      [0004] 產(chǎn)品價格是在電商行業(yè)交易過程中的的重要環(huán)節(jié),據(jù)相關(guān)數(shù)據(jù)統(tǒng)計,影響電商行 業(yè)成交率的十大因素中包括產(chǎn)品價格。
      [0005] 目前平臺重點成交產(chǎn)品沒有競品價格情況的系統(tǒng)管理和查看,目前主要是通過各 個行業(yè)日常通過手工方式人工整理。耗費時間和人力。

      【發(fā)明內(nèi)容】

      [0006] 針對上述現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種快捷、準(zhǔn)確的產(chǎn)品價格數(shù)據(jù)采集方 法。
      [0007] 本發(fā)明所采取的技術(shù)方案是:
      [0008] -種產(chǎn)品價格數(shù)據(jù)采集方法,建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別;通過 http請求,基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù),
      [0009] 1)將所有參與比價產(chǎn)品構(gòu)建文本索引;
      [0010] 2)將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引;基于文本相似判別;基于圖片相似判 另IJ;進(jìn)行產(chǎn)品相似融合;相似產(chǎn)品比價。
      [0011]優(yōu)選的是,基于文本相似判別步驟為:
      [0012] 1)進(jìn)行文本詞頻統(tǒng)計,計算BM25系數(shù),從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集 合;
      [0013] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合,基于標(biāo)題維度計算Jaccard距離和空間向量余 弦相似距離;
      [0014] 3)基于相似距離,得到基于文本相似度的候選相似產(chǎn)品。
      [0015]在上述任一方案中優(yōu)選的是,
      [0016]詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù),BM25系數(shù)是一種表示查詢文本和搜索文本之 間的相似系數(shù);
      [0018] Q為查詢文本,包含關(guān)鍵詞qi,. . .,qn,D為搜索文本,f(qi,D)為關(guān)鍵詞qi在文檔D中 出現(xiàn)的詞頻。
      [0020] N為總的搜索文本數(shù)量,n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
      [0021 ]設(shè)定bm25系數(shù)閾值,獲得初步目標(biāo)相似數(shù)據(jù)。
      [0022]在上述任一方案中優(yōu)選的是,
      [0023] Jaccard相似指數(shù)用來度量兩個集合之間的相似性,它被定義為兩個集合交集的 元素個數(shù)除以并集的元素個數(shù);
      [0024] Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數(shù)的補集, 被定義為1減去Jaccard相似系數(shù);
      [0025]余弦相似距離是指兩個向量之間夾角余弦;
      [0026]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
      [0027]在上述任一方案中優(yōu)選的是,
      [0028]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括,設(shè)定距離閾值,將距離小于閾 值的文本作為候選相似產(chǎn)品。
      [0029] 在上述任一方案中優(yōu)選的是,基于圖片相似判別步驟為;
      [0030] 1)針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量;
      [0031] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
      [0032]在上述任一方案中優(yōu)選的是,
      [0033] 針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量;
      [0034] 米用CEDD 特征,CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即 顏色和邊緣方向特征描述符;
      [0035] 結(jié)合圖像的顏色和紋理信息,生成一個144位的直方圖。
      [0036] 在上述任一方案中優(yōu)選的是,基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品 進(jìn)一步包括,計算圖像特征向量距離,或者是向量余弦距離,根據(jù)距離大小排序,設(shè)定距離 閾值,得到相似產(chǎn)品。
      [0037] 在上述任一方案中優(yōu)選的是,進(jìn)行產(chǎn)品相似融合進(jìn)一步包括,基于文本和圖像相 似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品。
      [0038] 在上述任一方案中優(yōu)選的是,基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后 的相似產(chǎn)品,進(jìn)一步包括如下步驟:
      [0039] 將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似;當(dāng)文本相 似度為Ts(0-100),圖像相似度為Is(O-lOO),加權(quán)后的相似度為Ss = TS*W+IS*(l-W),W取值 0-1之間的數(shù),然后根據(jù)加權(quán)后的相似度設(shè)定閾值,得到最后的相似產(chǎn)品。
      [0040] 在上述任一方案中優(yōu)選的是,相似產(chǎn)品比價進(jìn)一步包括,將產(chǎn)品劃分不同的價格 區(qū)間,針對相同價格區(qū)間的產(chǎn)品進(jìn)行單品價格比價。
      [0041 ]在上述任一方案中優(yōu)選的是,
      [0042]基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮,將相似產(chǎn)品價格劃分價格區(qū) 間,是固定的價格區(qū)間;或者是浮動的價格區(qū)間,以查詢產(chǎn)品價格為基準(zhǔn),在其價格上下一 定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
      [0043]在上述任一方案中優(yōu)選的是,通過不同的ip地址訪問目標(biāo)網(wǎng)站。
      [0044] 在上述任一方案中優(yōu)選的是,降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù), 請求次數(shù)范圍是10次/秒。
      [0045] 在上述任一方案中優(yōu)選的是,測試目標(biāo)網(wǎng)站允許的單個ip的最快速度,設(shè)定ip采 集速度和頻率。
      [0046]在上述任一方案中優(yōu)選的是,代理服務(wù)器,代理服務(wù)器配置多個ip,每次訪問隨機 ip抽取訪問。
      [0047]在上述任一方案中優(yōu)選的是,配置多個服務(wù)器,每個服務(wù)器配置不同的出口 ip,訪 問時隨機抽取ip訪問。
      [0 04 8 ]在上述任一方案中優(yōu)選的是,抓取產(chǎn)品最終頁數(shù)據(jù),解析產(chǎn)品i t e m c 〇 d e,產(chǎn)品標(biāo) 題,產(chǎn)品類目,產(chǎn)品價格等信息.
      [0049] 一種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng),包括信息處理服務(wù)器,所述信息處理服務(wù)器包括:用 來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn)品的服務(wù)器。
      [0050] 優(yōu)選的是,用來計算相似產(chǎn)品的服務(wù)器處理內(nèi)容包括:文本相似計算處理步驟,圖 像相似計算處理步驟,消息隊列處理步驟,配置文件管理處理步驟,產(chǎn)品比價處理步驟。
      [0051] 本發(fā)明相對現(xiàn)有技術(shù)的有益效果:
      [0052]本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法,人工比價系統(tǒng)化,節(jié)省人力成本,可以通過競爭對 手或同類產(chǎn)品現(xiàn)狀分析,體現(xiàn)產(chǎn)品的特點和優(yōu)勢;基于產(chǎn)品文本信息和產(chǎn)品主圖圖像特征 進(jìn)行相似產(chǎn)品計算,相似準(zhǔn)確度高。普通的比價網(wǎng)站主要是應(yīng)用產(chǎn)品文本信息進(jìn)行相似計 算,準(zhǔn)確度低。
      [0053] 本發(fā)明通過http請求,基于網(wǎng)絡(luò)爬蟲抓取站外產(chǎn)品數(shù)據(jù),通過降低單個ip在單位 時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù);測試目標(biāo)網(wǎng)站允許的單個ip的最快速度,設(shè)定ip采集速度 和頻率,采用代理服務(wù)器,代理服務(wù)器配置多個ip,每次訪問隨機ip抽取訪問;配置多個服 務(wù)器,每個服務(wù)器配置不同的出口 ip,訪問時隨機抽取ip訪問,防止目標(biāo)網(wǎng)站對ip封禁。
      【附圖說明】
      [0054] 圖1是按照本發(fā)明的產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選流程示意圖;
      [0055] 圖2是按照本發(fā)明的產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選比價示意圖;
      [0056] 圖3是按照本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法的優(yōu)選的系統(tǒng)邏輯示意圖。
      【具體實施方式】
      [0057]以下參照附圖及實施例對本發(fā)明進(jìn)行詳細(xì)的說明:
      [0058] 實施例1
      [0059]附圖1-3可知,為一種產(chǎn)品價格數(shù)據(jù)采集方法,建立站內(nèi)外類目映射匹配表;對相 似產(chǎn)品判別;通過http請求,基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù),
      [0060] 1)將所有參與比價產(chǎn)品構(gòu)建文本索引;
      [0061] 2)將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引;基于文本相似判別;基于圖片相似判 另IJ;進(jìn)行產(chǎn)品相似融合;相似產(chǎn)品比價。
      [0062]基于文本相似判別步驟為:
      [0063] 1)進(jìn)行文本詞頻統(tǒng)計,計算BM25系數(shù),從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集 合;
      [0064] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合,基于標(biāo)題維度計算Jaccard距離和空間向量余 弦相似距離;
      [0065] 3)基于相似距離,得到基于文本相似度的候選相似產(chǎn)品。
      [0066]詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù),BM25系數(shù)是一種表示查詢文本和搜索文本之 間的相似系數(shù);
      [0068] Q為查詢文本,包含關(guān)鍵詞qi,. . .,qn,D為搜索文本,f(qi,D)為關(guān)鍵詞qi在文檔D中 出現(xiàn)的詞頻。
      [0070] N為總的搜索文本數(shù)量,n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
      [0071 ]設(shè)定bm25系數(shù)閾值,獲得初步目標(biāo)相似數(shù)據(jù)。
      [0072] Jaccard相似指數(shù)用來度量兩個集合之間的相似性,它被定義為兩個集合交集的 元素個數(shù)除以并集的元素個數(shù);
      [0073] Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數(shù)的補集, 被定義為1減去Jaccard相似系數(shù);
      [0074]余弦相似距離是指兩個向量之間夾角余弦;
      [0075]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
      [0076]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括,設(shè)定距離閾值,將距離小于閾 值的文本作為候選相似產(chǎn)品。
      [0077]基于圖片相似判別步驟為;
      [0078] 1)針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量;
      [0079] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
      [0080]針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量;
      [0081]米用CEDD 特征,CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即 顏色和邊緣方向特征描述符;
      [0082]結(jié)合圖像的顏色和紋理信息,生成一個144位的直方圖。
      [0083] 基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品進(jìn)一步包括,計算圖像特征向 量距離,或者是向量余弦距離,根據(jù)距離大小排序,設(shè)定距離閾值,得到相似產(chǎn)品。
      [0084] 進(jìn)行產(chǎn)品相似融合進(jìn)一步包括,基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最 后的相似廣品。
      [0085] 基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品進(jìn)一步包括如下 步驟:
      [0086] 將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似;當(dāng)文本相 似度為Ts(0-100),圖像相似度為Is(O-lOO),加權(quán)后的相似度為Ss = TS*W+IS*(l-W),W取值 0-1之間的數(shù),然后根據(jù)加權(quán)后的相似度設(shè)定閾值,得到最后的相似產(chǎn)品。
      [0087] 相似產(chǎn)品比價進(jìn)一步包括,將產(chǎn)品劃分不同的價格區(qū)間,針對相同價格區(qū)間的產(chǎn) 品進(jìn)行單品價格比價。
      [0088] 基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮,將相似產(chǎn)品價格劃分價格區(qū)間 進(jìn)一步包括,固定的價格區(qū)間,比如0-50,50-100,100-200等;或者是浮動的價格區(qū)間,以查 詢產(chǎn)品價格為基準(zhǔn),在其價格上下一定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
      [0089] 通過不同的ip地址訪問目標(biāo)網(wǎng)站。
      [0090] 降低單個ip在單位時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù),請求次數(shù)范圍是10次/秒。
      [0091] 測試目標(biāo)網(wǎng)站允許的單個ip的最快速度,設(shè)定ip采集速度和頻率。
      [0092] 代理服務(wù)器,代理服務(wù)器配置多個ip,每次訪問隨機ip抽取訪問。
      [0093]配置多個服務(wù)器,每個服務(wù)器配置不同的出口 ip,訪問時隨機抽取ip訪問。
      [0094]抓取產(chǎn)品最終頁數(shù)據(jù),解析產(chǎn)品itemcode,產(chǎn)品標(biāo)題,產(chǎn)品類目,產(chǎn)品價格等信息。 [0095] 實施例2
      [0096]附圖1-3可知,為一種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng),包括信息處理服務(wù)器,所述信息處 理服務(wù)器包括:用來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn)品的服務(wù)器。 [0097]用來計算相似產(chǎn)品的服務(wù)器處理內(nèi)容包括:文本相似計算處理步驟,圖像相似計 算處理步驟,消息隊列處理步驟,配置文件管理處理步驟,產(chǎn)品比價處理步驟。
      [0098] 所述文本相似計算處理步驟進(jìn)一步包括;
      [0099] 1)進(jìn)行文本詞頻統(tǒng)計,計算BM25系數(shù),從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集 合;
      [0100] 2)對初步目標(biāo)相似數(shù)據(jù)范圍集合,基于標(biāo)題維度計算Jaccard距離和空間向量余 弦相似距離;
      [0101] 3)基于相似距離,得到基于文本相似度的候選相似產(chǎn)品。
      [0102] 所述詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù),所述BM25系數(shù)是一種表示查詢文本和搜 索文本之間的相似系數(shù);
      [0104] Q為查詢文本,包含關(guān)鍵詞q!,. . .,qn,D為搜索文本,f(qi,D)為關(guān)鍵詞qi在文檔D中 出現(xiàn)的詞頻。
      [0106] N為總的搜索文本數(shù)量,n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。
      [0107] 設(shè)定bm25系數(shù)閾值,獲得初步目標(biāo)相似數(shù)據(jù)。
      [0108] Jaccard相似指數(shù)用來度量兩個集合之間的相似性,它被定義為兩個集合交集的 元素個數(shù)除以并集的元素個數(shù);
      [0109] Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數(shù)的補集, 被定義為1減去Jaccard相似系數(shù);
      [0110]余弦相似距離是指兩個向量之間夾角余弦;
      [0111]計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。
      [0112]得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括,設(shè)定距離閾值,將距離小于閾 值的文本作為候選相似產(chǎn)品。
      [0113] 基于圖像相似計算處理步驟進(jìn)一步包括;
      [0114] 1)針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量;
      [0115] 2)基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品。
      [0116] 針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量進(jìn)一步包括:
      [0117] 米用CEDD 特征,CEDD 的英文全稱是 Color and Edge Directivity Descriptor,即 顏色和邊緣方向特征描述符;
      [0118] 結(jié)合圖像的顏色和紋理信息,生成一個144位的直方圖。
      [0119] 基于圖像特征向量距離從圖像索引搜索到相似產(chǎn)品進(jìn)一步包括,計算圖像特征向 量距離,或者是向量余弦距離,根據(jù)距離大小排序,設(shè)定距離閾值,得到相似產(chǎn)品。
      [0120] 得到相似產(chǎn)品包括基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn) 品。
      [0121] 基于文本和圖像相似產(chǎn)品相似度加權(quán)融合得到最后的相似產(chǎn)品具體包括如下步 驟:將文本相似度和圖像相似度進(jìn)行歸一化到0-100,100認(rèn)為是完全相似;當(dāng)文本相似度為 Ts(0-100),圖像相似度為Is(0-100),加權(quán)后的相似度為Ss = Ts*W+Is*(l-W),w取值0-1之 間的數(shù),然后根據(jù)加權(quán)后的相似度設(shè)定閾值,得到最后的相似產(chǎn)品。
      [0122] 產(chǎn)品比價處理是將將產(chǎn)品劃分不同的價格區(qū)間,針對相同價格區(qū)間的產(chǎn)品進(jìn)行單 品價格比價。
      [0123] 基于相似產(chǎn)品價格應(yīng)該在一定合理范圍內(nèi)的考慮,將相似產(chǎn)品價格劃分價格區(qū) 間,是固定的價格區(qū)間;或者是浮動的價格區(qū)間,以查詢產(chǎn)品價格為基準(zhǔn),在其價格上下一 定范圍內(nèi)的產(chǎn)品進(jìn)行比價。
      [0124] 所述代理服務(wù)器配置多個ip,每次訪問隨機抽取ip訪問。
      [0125] 本發(fā)明產(chǎn)品價格數(shù)據(jù)采集方法及系統(tǒng),人工比價系統(tǒng)化,節(jié)省人力成本,可以通過 競爭對手或同類產(chǎn)品現(xiàn)狀分析,體現(xiàn)產(chǎn)品的特點和優(yōu)勢;基于產(chǎn)品文本信息和產(chǎn)品主圖圖 像特征進(jìn)行相似產(chǎn)品計算,相似準(zhǔn)確度高。普通的比價網(wǎng)站主要是應(yīng)用產(chǎn)品文本信息進(jìn)行 相似計算,準(zhǔn)確度低。
      [0126] 本發(fā)明通過http請求,基于網(wǎng)絡(luò)爬蟲抓取站外產(chǎn)品數(shù)據(jù),通過降低單個ip在單位 時間內(nèi)對目標(biāo)網(wǎng)站的請求次數(shù);測試目標(biāo)網(wǎng)站允許的單個ip的最快速度,設(shè)定ip采集速度 和頻率,采用代理服務(wù)器,代理服務(wù)器配置多個ip,每次訪問隨機ip抽取訪問;配置多個服 務(wù)器,每個服務(wù)器配置不同的出口 ip,訪問時隨機抽取ip訪問,防止目標(biāo)網(wǎng)站對ip封禁。
      [0127] 業(yè)務(wù)部門需要了解平臺上的產(chǎn)品與競爭對手相比,在價格上的差異度有多少,通 過對價格有很強的了解,為業(yè)務(wù)完成引導(dǎo)賣家價格調(diào)整,并提高平臺交易可能性。
      [0128] 網(wǎng)站將排名靠前的產(chǎn)品與競爭對手同類且相似的產(chǎn)品比價,以競爭對手平臺的銷 量排名靠前的產(chǎn)品與敦煌網(wǎng)與之類似的產(chǎn)品比價。
      [0129] 以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明的結(jié)構(gòu)作任何形式上的 限制。凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均 屬于本發(fā)明的技術(shù)方案范圍內(nèi)。
      【主權(quán)項】
      1. 一種產(chǎn)品價格數(shù)據(jù)采集方法,建立站內(nèi)外類目映射匹配表;對相似產(chǎn)品判別;通過 ht化請求,基于網(wǎng)絡(luò)爬蟲抓取目標(biāo)網(wǎng)站產(chǎn)品數(shù)據(jù), 其特征在于, 1) 將所有參與比價產(chǎn)品構(gòu)建文本索引; 2) 將所有參與比價產(chǎn)品主圖構(gòu)建圖像索引;基于文本相似判別;基于圖片相似判別;進(jìn) 行產(chǎn)品相似融合;相似產(chǎn)品比價。2. 根據(jù)權(quán)利要求1所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于:基于文本相似判別步驟 為: 1) 進(jìn)行文本詞頻統(tǒng)計,計算BM25系數(shù),從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合; 2) 對初步目標(biāo)相似數(shù)據(jù)范圍集合,基于標(biāo)題維度計算化ccard距離和空間向量余弦相 似距離; 3) 基于相似距離,得到基于文本相似度的候選相似產(chǎn)品。3. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于: 所述詞頻為關(guān)鍵詞在文本中出現(xiàn)的次數(shù),所述BM25系數(shù)是一種表示查詢文本和捜索文 本之間的相似系數(shù);Q為查詢文本,包含關(guān)鍵詞qi,. . .,qn,D為捜索文本,f(qi,D)為關(guān)鍵詞Qi在文檔D中出現(xiàn) 的詞頻。N為總的捜索文本數(shù)量,n (qi)為出現(xiàn)關(guān)鍵詞qi的文本數(shù)量。 設(shè)定bm25系數(shù)闊值,獲得初步目標(biāo)相似數(shù)據(jù)。4. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于: Jaccard相似指數(shù)用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素 個數(shù)除W并集的元素個數(shù); Jaccard距離用來度量兩個集合之間的差異性,它是化ccard的相似系數(shù)的補集,被定 義為1減去化ccard相似系數(shù); 余弦相似距離是指兩個向量之間夾角余弦; 計算查詢文本與初步目標(biāo)相似數(shù)據(jù)集內(nèi)文本距離。5. 根據(jù)權(quán)利要求2所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于: 得到基于文本相似度的候選相似產(chǎn)品進(jìn)一步包括,設(shè)定距離闊值,將距離小于闊值的 文本作為候選相似產(chǎn)品。6. 根據(jù)權(quán)利要求1所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于:基于圖片相似判別步驟 為; 1) 針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量; 2) 基于圖像特征向量距離從圖像索引捜索到相似產(chǎn)品。7. 根據(jù)權(quán)利要求6所述產(chǎn)品價格數(shù)據(jù)采集方法,其特征在于: 針對產(chǎn)品首圖,提取圖片顏色和紋理特征向量進(jìn)一步包括: 采用CE孤特征,CE孤的英文全稱是Color and Edge Directivity Descriptor,即顏色 和邊緣方向特征描述符; 結(jié)合圖像的顏色和紋理信息,生成一個144位的直方圖。8. -種產(chǎn)品價格數(shù)據(jù)采集系統(tǒng),包括信息處理服務(wù)器,其特征在于: 所述信息處理服務(wù)器包括:用來抓取數(shù)據(jù)的代理服務(wù)器、抓取服務(wù)器、用來計算相似產(chǎn) 品的服務(wù)器。9. 根據(jù)權(quán)利要求8所述產(chǎn)品價格數(shù)據(jù)采集系統(tǒng),其特征在于:用來計算相似產(chǎn)品的服務(wù) 器處理內(nèi)容包括:文本相似計算處理步驟,圖像相似計算處理步驟,消息隊列處理步驟,配 置文件管理處理步驟,產(chǎn)品比價處理步驟。10. 根據(jù)權(quán)利要求9所述產(chǎn)品價格數(shù)據(jù)采集系統(tǒng),其特征在于,所述文本相似計算處理 步驟進(jìn)一步包括; 1) 進(jìn)行文本詞頻統(tǒng)計,計算BM25系數(shù),從文本索引獲取初步目標(biāo)相似數(shù)據(jù)范圍集合; 2) 對初步目標(biāo)相似數(shù)據(jù)范圍集合,基于標(biāo)題維度計算化ccard距離和空間向量余弦相 似距離; 3) 基于相似距離,得到基于文本相似度的候選相似產(chǎn)品。
      【文檔編號】G06Q30/02GK105912642SQ201610217664
      【公開日】2016年8月31日
      【申請日】2016年4月8日
      【發(fā)明人】張宏志, 謝志勝, 顧錫棟, 陳磊, 楊秦, 郭田華
      【申請人】世紀(jì)禾光科技發(fā)展(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1