国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息的篩選方法及裝置的制造方法

      文檔序號:9326958閱讀:734來源:國知局
      信息的篩選方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種信息的篩選方法及裝置。
      【背景技術(shù)】
      [0002] 隨著近年來電子商務(wù)的快速發(fā)展,線上銷售的品類與商品數(shù)量日益增多,大型電 商商品總SKU(Stock Keeping Unit,庫存量單位,即庫存進(jìn)出計量的單位,可以是以件,盒, 托盤等為單位;也指用于區(qū)分單品,對一種商品而言,當(dāng)其品牌、型號、配置、等級、花色、包 裝容量、單位、生產(chǎn)日期、保質(zhì)期、用途、價格、產(chǎn)地等屬性與其他商品存在不同時,可稱為一 個單品。此處指單品)數(shù)量都已經(jīng)達(dá)到數(shù)千萬甚至數(shù)億,各種優(yōu)惠信息總量日益攀升。電 商導(dǎo)購平臺需要對這些優(yōu)惠信息數(shù)據(jù)及時進(jìn)行篩選,將綜合優(yōu)惠力度較大的優(yōu)惠信息展示 給用戶。
      [0003] 優(yōu)惠信息主要包括兩類:活動信息與單品信息。活動信息主要指的是以活動形式 出現(xiàn)的網(wǎng)頁信息,并網(wǎng)頁包含多個促銷的商品展示、領(lǐng)券等;單品信息主要指的是一個商品 的信息,如"蘋果(Apple) iPhone6Plus (A1524) 16GB深空灰色移動聯(lián)通電信4G手機(jī)",并附 加上優(yōu)惠力度信息,例如滿減、降價、優(yōu)惠券領(lǐng)取等信息,本發(fā)明主要針對單品信息。
      [0004] 現(xiàn)有的信息篩選方法,大致采用以下兩種方法:
      [0005] (1)手動篩選方法:主要由人工從電商主站上各個子頻道以及類目頻道進(jìn)行瀏覽 查看,并收集所有子頻道的優(yōu)惠活動地址,組成一個活動優(yōu)惠信息集合,然后根據(jù)各個活動 優(yōu)惠力度排序篩選,最后將綜合優(yōu)惠力度較大的信息提交到前臺展示。與此同時,通過人工 的方式瀏覽各個類目列表頁面中的商品,通過銷量排序、評價排序并結(jié)合比價工具選擇有 優(yōu)惠以及優(yōu)惠力度大的單品信息。
      [0006] (2)半自動化篩選方法:相對手動篩選方法而言,主要在促銷信息數(shù)據(jù)獲取上實 現(xiàn)了自動化。數(shù)據(jù)獲取模塊由網(wǎng)絡(luò)爬蟲與通信接口服務(wù)兩個子服務(wù)模塊實現(xiàn)。其中,網(wǎng)絡(luò) 爬蟲服務(wù)模塊主要是通過電商主站抓取全部活動鏈接,并將信息傳到數(shù)據(jù)庫,再由人工進(jìn) 行篩選;通信接口服務(wù)模塊,通過消息隊列的方式從促銷系統(tǒng)服務(wù)接口獲取促銷信息,包括 降價、滿減、打折等形式的單品優(yōu)惠信息。同時,促銷服務(wù)系統(tǒng)是將將要做促銷的單品信息 包裝成一個接口,提供對外服務(wù),例如某個單品將要降價、或者參加滿減服務(wù)等。
      [0007] 現(xiàn)有的兩種單品優(yōu)惠信息篩選方法,都能達(dá)到篩選的目的,但是各自存在一定的 缺陷:
      [0008] 對于手動篩選方法而言,要將一個電商網(wǎng)站全網(wǎng)單品優(yōu)惠信息通過瀏覽主站的方 式手動篩選出來,需要耗費大量的人力和時間成本,從而導(dǎo)致優(yōu)惠信息獲取及處理的不及 時,并且通過這種方法無法保證獲取信息的完整性。
      [0009] 相比手動篩選方法,半自動篩選方法實現(xiàn)了數(shù)據(jù)獲取的自動化,但數(shù)據(jù)獲取后的 篩選仍然采用人工的方式,依舊沒有提高數(shù)據(jù)篩選效率,導(dǎo)致部分力度大的優(yōu)惠信息未能 及時找出并呈現(xiàn)。

      【發(fā)明內(nèi)容】

      [0010] 有鑒于此,本發(fā)明提供一種信息的篩選方法及裝置,能夠從信息獲取到信息篩選 各個環(huán)節(jié)實現(xiàn)對商品優(yōu)惠信息的自動化處理,節(jié)省單品優(yōu)惠信息篩選成本,提高篩選的效 率。
      [0011] 為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種信息的篩選方法。
      [0012] 本發(fā)明的信息的篩選方法,包括:采集并按照預(yù)設(shè)規(guī)則分類存儲單品信息數(shù)據(jù); 建模計算各分類中各單品的優(yōu)惠力度綜合得分;篩選并輸出各分類中綜合得分排名在前的 數(shù)條單品信息數(shù)據(jù)。
      [0013] 可選地,采集單品信息數(shù)據(jù)包括:通過分布式網(wǎng)絡(luò)爬蟲客戶端獲取單品的SKU ;根 據(jù)所述單品的SKU對應(yīng)的SKU號拼接得到單品鏈接地址;根據(jù)所述單品鏈接地址采集各單 品網(wǎng)頁中的單品信息數(shù)據(jù)。
      [0014] 可選地,采集單品信息數(shù)據(jù)包括:通過文本解析的方法獲取到的各單品網(wǎng)頁中的 單品各優(yōu)惠維度的信息數(shù)據(jù)。
      [0015] 可選地,所述按照預(yù)設(shè)規(guī)則分類存儲單品信息數(shù)據(jù)包括:根據(jù)商品類目的不同對 所采集的單品信息數(shù)據(jù)進(jìn)行分類存儲,使相同類目的單品信息數(shù)據(jù)保存到同一數(shù)據(jù)集合 內(nèi)。
      [0016] 可選地,所述建模計算各分類中各單品的優(yōu)惠力度綜合得分包括:按照預(yù)設(shè)的各 維度價值規(guī)則確定單品各優(yōu)惠維度的維度值;按照預(yù)設(shè)的系數(shù)定義規(guī)則確定單品各優(yōu)惠維 度的權(quán)重系數(shù);對單品各優(yōu)惠維度的維度值與權(quán)重系數(shù)的乘積采用西格瑪求和計算所述各 單品的優(yōu)惠力度綜合得分。
      [0017] 根據(jù)本發(fā)明的另一方面,提供了一種信息的篩選裝置。
      [0018] 本發(fā)明的信息的篩選裝置,包括:采集模塊,用于采集并按照預(yù)設(shè)規(guī)則分類存儲單 品信息數(shù)據(jù);建模計算模塊,用于建模計算各分類中各單品的優(yōu)惠力度綜合得分;篩選模 塊,用于篩選并輸出各分類中綜合得分排名在前的數(shù)條單品信息數(shù)據(jù)。
      [0019] 可選地,所述采集模塊還用于:通過分布式網(wǎng)絡(luò)爬蟲客戶端獲取單品的SKU ;根據(jù) 所述單品的SKU對應(yīng)的SKU號拼接得到單品鏈接地址;根據(jù)所述單品鏈接地址采集各單品 網(wǎng)頁中的單品信息數(shù)據(jù)。
      [0020] 可選地,所述采集模塊還用于:通過文本解析的方法獲取到的各單品網(wǎng)頁中的單 品各優(yōu)惠維度的信息數(shù)據(jù)。
      [0021] 可選地,所述采集模塊還用于:根據(jù)商品類目的不同對所采集的單品信息數(shù)據(jù)進(jìn) 行分類存儲,使相同類目的單品信息數(shù)據(jù)保存到同一數(shù)據(jù)集合內(nèi)。
      [0022] 可選地,所述建模計算模塊還用于:按照預(yù)設(shè)的各維度價值規(guī)則確定單品各優(yōu)惠 維度的維度值;按照預(yù)設(shè)的系數(shù)定義規(guī)則確定單品各優(yōu)惠維度的權(quán)重系數(shù);對單品各優(yōu)惠 維度的維度值與權(quán)重系數(shù)的乘積采用西格瑪求和計算所述各單品的優(yōu)惠力度綜合得分。
      [0023] 根據(jù)本發(fā)明的技術(shù)方案,通過分布式爬蟲抓取全網(wǎng)單品的優(yōu)惠信息,從而能確保 優(yōu)惠信息獲取的廣度和深度,克服現(xiàn)有技術(shù)方案促銷信息獲取不全的缺陷;利用文本解析 方法,從而能抽取到單品信息文本中的關(guān)鍵優(yōu)惠信息;通過對獲取的單品信息數(shù)據(jù)分類存 儲,從而能保障不同品牌商品優(yōu)惠信息的比較結(jié)果的有效性;通過對各類目中各單品優(yōu)惠 信息的建模計算,從而能得出各單品的優(yōu)惠力度綜合得分,進(jìn)而能有效篩選出商品優(yōu)惠信 息數(shù)據(jù)。
      【附圖說明】
      [0024] 附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
      [0025] 圖1是根據(jù)本發(fā)明實施例的信息的篩選方法的主要步驟的示意圖;
      [0026] 圖2是根據(jù)本發(fā)明實施例的信息的篩選裝置主要模塊的示意圖。
      【具體實施方式】
      [0027] 以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種 細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識 到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同 樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
      [0028] 圖1是根據(jù)本發(fā)明實施例的信息的篩選方法的主要步驟的示意圖。
      [0029] 如圖1所示,本發(fā)明實施例的信息的篩選方法主要包括如下步驟:
      [0030] 步驟Sll :采集并按照預(yù)設(shè)規(guī)則分類存儲單品信息數(shù)據(jù)。對全網(wǎng)單品優(yōu)惠信息的 篩選之前需要先進(jìn)行信息的獲取。例如,可以通過分布式網(wǎng)絡(luò)爬蟲客戶端,抓取電子商務(wù)網(wǎng) 站全網(wǎng)的單品信息。
      [0031] 分布式爬蟲客戶端抓取商品信息過程如下:通過一個調(diào)度端機(jī)器(分發(fā)中心),向 各個爬蟲客戶端批量分發(fā)URL種子,例如將電視類URL種子和炒鍋類URL種子分別分發(fā)給 爬蟲端A和爬蟲端B,然后由這兩個爬蟲客戶端節(jié)點負(fù)責(zé)網(wǎng)頁請求,抓取網(wǎng)頁內(nèi)的各商品的 SKU號(SKU即Stock Keeping Unit,指庫存量單位,現(xiàn)在已經(jīng)被引申為產(chǎn)品統(tǒng)一編號的簡 稱,每種產(chǎn)品均對應(yīng)有唯一的SKU號),然后根據(jù)商品的SKU號拼接商品鏈接地址,根據(jù)鏈接 地址利用分布式爬蟲實時采集每個單品網(wǎng)頁的頁面信息數(shù)據(jù)。
      [0032] 在抓取到單品頁面信息數(shù)據(jù)之后,解析和抽取其中的優(yōu)惠信息。例如,單品網(wǎng)頁中 包括商品標(biāo)題、價格、顏色、型號、評價、促銷信息、商品介紹等,通過對頁面的解析,提取評 價數(shù)、品牌、好評率、促銷信息(包括滿減、降價、送積分、打折等)、價格(包括價格趨勢、歷 史低價)等關(guān)鍵信息作為優(yōu)惠信息篩選打分依據(jù),每項關(guān)鍵信息代表一個維度,維度數(shù)學(xué) 集合定義為 c,C = {cl,c2, c3,…,cn}。
      [0033] 在一個實施例中,對于這些關(guān)鍵優(yōu)惠信息的提取,可以利用文本解析進(jìn)行。通過基 于HttpClient的網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁源文件內(nèi)容,然后通過java Dom解析技術(shù),對內(nèi)容 進(jìn)行解析和抽取。DOM解析器把XML轉(zhuǎn)換為JavaScript可存取的對象。并且大多數(shù)瀏覽器 都有供讀取和操作XML的XML解析器。
      [0034] 例如,通過HTTPClient請求,抓取到源文件片段為:
      [0035] 〈trXth class = " tdTitle" colspan = " 2" > 主體〈/th>〈tr>
      [0036] 〈trXtd class = " tdTitle" > 品牌 </td>〈td> 蘋果(Apple)〈/td>〈tr>,則通過 Dom解析技術(shù)解析之后,得到"主體""品牌""蘋果"的文本內(nèi)容。
      [0037] 又如,促銷信息中的滿減維度。商品有不同的滿減類型,如"滿200減10","滿1000 減50","滿50減10"等文案描述。利用文本解析方法,抽取上述文本中的數(shù)字,將文本中 的兩位數(shù)字分別定義為m和n,即"滿m減η";還比如降價維度信息包含降價力度,如"原價 100,降20,100減去20,現(xiàn)價為80"
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1