国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      全網(wǎng)搜索系統(tǒng)的制作方法

      文檔序號:10655454閱讀:288來源:國知局
      全網(wǎng)搜索系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開了一種全網(wǎng)搜索系統(tǒng),其包括數(shù)據(jù)索引模塊、爬蟲框架模塊、Elasticsearch集群模塊、檢索服務(wù)模塊,數(shù)據(jù)索引模塊、爬蟲框架模塊、Elasticsearch集群模塊兩兩連接,檢索服務(wù)模塊與數(shù)據(jù)索引模塊連接。本發(fā)明能夠更好的控制壞賬基數(shù),給公司的發(fā)展帶來一個(gè)巨大的飛躍,作為可靠的服務(wù)從互聯(lián)網(wǎng)上不斷去抓取用戶數(shù)據(jù),一方面可以幫助公司識別一些網(wǎng)絡(luò)騙子,一方面也可以獲取更多的壞賬用戶的資料,加大催收力度。
      【專利說明】
      全網(wǎng)搜索系統(tǒng)
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及一種搜索系統(tǒng),特別是涉及一種全網(wǎng)搜索系統(tǒng)。
      【背景技術(shù)】
      [0002]隨著公司業(yè)務(wù)的發(fā)展,知名度越來越高,常常會(huì)有一些慣例的網(wǎng)絡(luò)騙子來公司擼錢,也有一些用戶逾期很久后沒有還款意愿,使用我們系統(tǒng)中錄入的該用戶的數(shù)據(jù)去催收,效果不是太大。
      [0003]同時(shí)隨著公司的發(fā)展,業(yè)務(wù)量成倍的增長,雖然壞賬的比率在不斷減小,但是壞賬的基數(shù)再慢慢變大,如果有辦法更好的控制這個(gè)基數(shù),將會(huì)給公司的發(fā)展帶來一個(gè)巨大的飛躍,所以迫切的需要一個(gè)可靠的服務(wù)從互聯(lián)網(wǎng)上不斷去抓取用戶數(shù)據(jù),解決兩大問題:
      一、公司對一些網(wǎng)絡(luò)騙子的識別問題,二、缺乏壞賬用戶的資料,催收力度較低。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明所要解決的技術(shù)問題是提供一種全網(wǎng)搜索系統(tǒng),其能夠更好的控制壞賬基數(shù),給公司的發(fā)展帶來一個(gè)巨大的飛躍,作為可靠的服務(wù)從互聯(lián)網(wǎng)上不斷去抓取用戶數(shù)據(jù),一方面可以幫助公司識別一些網(wǎng)絡(luò)騙子,一方面也可以獲取更多的壞賬用戶的資料,加大催收力度。
      [0005]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:一種全網(wǎng)搜索系統(tǒng),其包括數(shù)據(jù)索引模塊、爬蟲框架模塊、Elast i csearch集群模塊、檢索服務(wù)模塊,數(shù)據(jù)索引模塊、爬蟲框架模塊、Elasticsearch集群模塊兩兩連接,檢索服務(wù)模塊與數(shù)據(jù)索引模塊連接。
      [0006]優(yōu)選地,所述數(shù)據(jù)索引模塊中每臺機(jī)器上都有一個(gè)線程在提供存儲(chǔ)數(shù)據(jù)的服務(wù),多線程在不斷的抓取數(shù)據(jù)后,會(huì)打包給數(shù)據(jù)存儲(chǔ)服務(wù);數(shù)據(jù)存儲(chǔ)服務(wù)拿到數(shù)據(jù)后,緩存下來,達(dá)到一定的數(shù)量后,批量的將這些數(shù)據(jù)來源的url去elasticsearch中查重,對于沒有重復(fù)的數(shù)據(jù),在批量的索引到elasticsearch中,同時(shí)更新這個(gè)小任務(wù)片的執(zhí)行狀態(tài),以便斷點(diǎn)恢復(fù)。
      [0007]優(yōu)選地,所述爬蟲框架模塊禁掉了httpclient的cookie自動(dòng)維護(hù)功能,實(shí)現(xiàn)了一套更符合我們業(yè)務(wù)邏輯的維護(hù)cookie的服務(wù);框架內(nèi)部會(huì)幫我們統(tǒng)計(jì)本次的成功失敗率,反饋給我們,以用來優(yōu)化程序;如果請求失敗,狀態(tài)碼異常,框架內(nèi)部幫我們做重試操作;支持隨機(jī)模擬任意瀏覽器去請求;支持代理的切換功能。
      [0008]優(yōu)選地,所述Elasticsearch集群模塊中的ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器,它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎,設(shè)計(jì)用于云計(jì)算中,達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。
      [0009]優(yōu)選地,所述檢索服務(wù)模塊維護(hù)自己的敏感詞庫,例如騙子、欠錢等敏感詞匯;線上環(huán)境有人提交申請后,實(shí)時(shí)來我們的大數(shù)據(jù)集中搜索該用戶的數(shù)據(jù),檢查是否有敏感詞匯,如果命中,將其打入人工審核;審核人員具體看下命中的場景是什么,進(jìn)行人工核實(shí)判斷該用戶是否有信用問題,避免網(wǎng)絡(luò)詐騙行為。
      [0010]本發(fā)明的積極進(jìn)步效果在于:本發(fā)明能夠:
      一、利用現(xiàn)有的硬件資源,不斷的在互聯(lián)網(wǎng)上抓取用戶的一些網(wǎng)絡(luò)痕跡,不斷豐富用戶的數(shù)據(jù),以供系統(tǒng)和業(yè)務(wù)部門使用;
      二、利用空閑的硬件資源,無目的的全網(wǎng)抓取網(wǎng)絡(luò)用戶的數(shù)據(jù),以供以后檢索使用;
      三、精確快速的全網(wǎng)尋找某些用戶網(wǎng)絡(luò)痕跡,快速抓取到,提供給分控系統(tǒng)、審核人員、催收人員使用;
      四、創(chuàng)建自動(dòng)化任務(wù),在一段時(shí)間內(nèi),有目的的去全網(wǎng)搜尋一些既定用戶的網(wǎng)絡(luò)痕跡以尋求更多獲取更多的用戶數(shù)據(jù),通過用戶的這些數(shù)據(jù),了解用戶;
      五、不斷更新既有數(shù)據(jù),定期自動(dòng)去抓取網(wǎng)絡(luò)上最新的數(shù)據(jù),更新和豐富我們的大數(shù)據(jù)系統(tǒng);
      六、快速檢索,一般三秒內(nèi)必須返回結(jié)果;
      七、分布式存儲(chǔ),數(shù)據(jù)量會(huì)越來越大;
      八、分布式提供服務(wù),高可用;
      九、盡可能自動(dòng)化,在現(xiàn)有資源基礎(chǔ)上,抓取速度做到最快。
      【附圖說明】
      [0011]圖1為本發(fā)明的模塊圖。
      【具體實(shí)施方式】
      [0012]下面結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
      [0013]如圖1所示,本發(fā)明全網(wǎng)搜索系統(tǒng)包括數(shù)據(jù)索引模塊1、爬蟲框架模塊2、Elas ti csearch(Elast i cSearch是一個(gè)基于Lucene的搜索服務(wù)器)集群模塊3、檢索服務(wù)模塊4,數(shù)據(jù)索引模塊1、爬蟲框架模塊2、ElastiCSearCh集群模塊3兩兩連接,檢索服務(wù)模塊4與數(shù)據(jù)索引模塊I連接。
      [0014]數(shù)據(jù)索引模塊I中每臺機(jī)器上都有一個(gè)線程在提供存儲(chǔ)數(shù)據(jù)的服務(wù),多線程在不斷的抓取數(shù)據(jù)后,會(huì)打包給數(shù)據(jù)存儲(chǔ)服務(wù);數(shù)據(jù)存儲(chǔ)服務(wù)拿到數(shù)據(jù)后,會(huì)緩存下來,達(dá)到一定的數(shù)量后,會(huì)批量的將這些數(shù)據(jù)來源的url去elasticsearch中查重,對于沒有重復(fù)的數(shù)據(jù),在批量的索引到elasticsearch中,同時(shí)更新這個(gè)小任務(wù)片的執(zhí)行狀態(tài),以便斷點(diǎn)恢復(fù)。
      [0015]爬蟲框架模塊2禁掉了httpclient的cookie自動(dòng)維護(hù)功能,實(shí)現(xiàn)了一套更符合我們業(yè)務(wù)邏輯的維護(hù)cookie的服務(wù);框架內(nèi)部會(huì)幫我們統(tǒng)計(jì)本次的成功失敗率,反饋給我們,以用來優(yōu)化程序;如果請求失敗,狀態(tài)碼異常,框架內(nèi)部會(huì)幫我們做重試操作;支持隨機(jī)模擬任意瀏覽器去請求;支持代理的切換功能。
      [0016]Elasticsearch集群模塊3中的Elasti cSearch是一個(gè)基于Lucene的搜索服務(wù)器,它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎,設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。
      [0017]檢索服務(wù)模塊4維護(hù)自己的敏感詞庫,例如騙子、欠錢等敏感詞匯;線上環(huán)境有人提交申請后,實(shí)時(shí)來我們的大數(shù)據(jù)集中搜索該用戶的數(shù)據(jù),檢查是否有敏感詞匯,如果命中,將其打入人工審核;審核人員具體看下命中的場景是什么,進(jìn)行人工核實(shí)判斷該用戶是否有信用問題,避免網(wǎng)絡(luò)詐騙行為。
      [0018]全網(wǎng)搜索這個(gè)項(xiàng)目是多臺機(jī)器組成一個(gè)集群來提供一個(gè)完整的服務(wù),需要合理的總體架構(gòu)去協(xié)調(diào)整個(gè)系統(tǒng)的交互,主要是下面幾點(diǎn):
      一、某臺機(jī)器宕機(jī),自動(dòng)下線其服務(wù),不影響整個(gè)集群的服務(wù);
      二、創(chuàng)建的自動(dòng)化任務(wù),需要主節(jié)點(diǎn)去分配給從屬節(jié)點(diǎn)做,分布式工作,加快速度;
      三、任務(wù)調(diào)度的優(yōu)先級策略,對于一些線上實(shí)時(shí)的任務(wù),系統(tǒng)應(yīng)該調(diào)度所有可用的機(jī)器優(yōu)先去完成這些要求實(shí)時(shí)的任務(wù)。
      [0019]業(yè)務(wù)場景:如要快速的全網(wǎng)抓取某一個(gè)論壇的所有數(shù)據(jù),如何多機(jī)器多線程的方式無冗余的在最短時(shí)間內(nèi)完成任務(wù)。
      [0020]要滿足上述業(yè)務(wù)的場景需要幾個(gè)任務(wù)調(diào)度策略,如下:
      搶占式的,能者多勞;
      不能有重復(fù)勞動(dòng);
      CPU和帶寬要充分利用。
      [0021]那么如何做到這幾點(diǎn),分布式和多線程是必須的,所以需要兩個(gè)調(diào)度者的角色,一種用來決策分布式調(diào)度,一種用來決策多線程調(diào)度,這樣才可以合理分配,避免重復(fù)工作,同時(shí)每臺機(jī)器的消費(fèi)能力是不一樣,如何同時(shí)能做到能者多勞,我們通過如下解決方案,優(yōu)化其整體速度:
      分布式節(jié)點(diǎn)中,有一個(gè)別選為masterf點(diǎn),負(fù)責(zé)任務(wù)的分配調(diào)度;一個(gè)任務(wù)的到來,主節(jié)點(diǎn)需要合理的將其分片,無狀態(tài)的拆分成多個(gè)小任務(wù)片,以便給分布式集群共同處理;每臺機(jī)器都去分布式調(diào)度者那里注冊自己的身份,并獲得一個(gè)小分片的任務(wù),master節(jié)點(diǎn)將該分片用這臺機(jī)器的ip鎖住,標(biāo)識已分配;某臺機(jī)器做完了當(dāng)前的小分片中的任務(wù),繼續(xù)去master節(jié)點(diǎn)中請求自己任務(wù);當(dāng)某臺機(jī)器獲取到一個(gè)小任務(wù)片時(shí),由主線程調(diào)度線程池中的子線程去搶占式消費(fèi)所有耗時(shí)任務(wù)。
      [0022]斷點(diǎn)運(yùn)行,如果某臺機(jī)器掛了,如何恢復(fù)當(dāng)時(shí)的工作狀態(tài),由另外一臺機(jī)器去恢復(fù)到當(dāng)時(shí)所處的狀態(tài),盡量不做重復(fù)工作:
      每臺機(jī)器的線程調(diào)度者會(huì)間歇性向master節(jié)點(diǎn)匯報(bào)當(dāng)前完成的狀態(tài),由主節(jié)點(diǎn)實(shí)例化到數(shù)據(jù)庫中;每臺機(jī)器和主節(jié)點(diǎn)之間有心跳探測,一但旦某臺機(jī)器宕機(jī),master節(jié)點(diǎn)會(huì)將分給該機(jī)器的任務(wù)片的鎖去掉,以便及時(shí)分配給其他空閑機(jī)器,盡快完成整個(gè)任務(wù)。
      [0023]經(jīng)過調(diào)研,結(jié)合現(xiàn)有的數(shù)據(jù)量,考慮到成本,我們采用增量擴(kuò)容的方式,隨著數(shù)據(jù)量的不斷增大我們也會(huì)不斷增加節(jié)點(diǎn),來增大數(shù)據(jù)存儲(chǔ)空間和提升搜索速度,目前才用如下配置:
      四臺下掛一千G的云服務(wù)器組建了 elasticsearch的集群,后期隨著數(shù)據(jù)量的不斷增大我們也會(huì)不斷增加節(jié)點(diǎn),來增大數(shù)據(jù)存儲(chǔ)空間和提升搜索速度;
      為了加快搜索,分了多個(gè)索引,搜索數(shù)據(jù)時(shí)程序程序盡可能主動(dòng)路由到特定的索引,然后去搜索; 考慮到分片的數(shù)量一旦定下來,就不可更改,雖然一開始的數(shù)據(jù)量不是很大,但是也還是設(shè)定了一百個(gè)分片;
      副本的數(shù)量,考慮到可以隨時(shí)變更,目前的搜索壓力不是太大,為了減小成本同時(shí)又不能丟失數(shù)據(jù),我們暫時(shí)是設(shè)定了一個(gè)副本;
      考慮到數(shù)據(jù)的安全性,我們集群間的通信都是用的內(nèi)網(wǎng)ip,平時(shí)有需求通過http和集群間交互,用ngn i X做了個(gè)反向代理并且設(shè)了密碼保護(hù)。
      [0024]—般中文分詞器一般使用第三方的ik分詞器、mmsegf分詞器和paoding分詞器,他們最初構(gòu)建于Iucene,后來移植于elasticsearch。我們的elasticsearch集群,主要使用了ik分詞器。安裝ik分詞器到elasticsearch很簡單,它有個(gè)插件目錄analysis_ik,和一個(gè)配置目錄ik,分別拷貝到plugins和conf目錄就可以了。然后在elasticsearch.yml文件中配置。
      [0025]很多用戶提交借款后,由于數(shù)據(jù)異常,會(huì)被打到人工審核,這時(shí)就需要外部更多的數(shù)據(jù)來判斷這個(gè)人的信用,我們的搜索服務(wù)會(huì)提供給現(xiàn)有系統(tǒng)這個(gè)用戶的網(wǎng)絡(luò)痕跡,比如一些簡歷、二手買賣之類的信息,這些信息可以幫助我們的審核人員掌握更多的用戶當(dāng)前的生活狀態(tài),以便更為準(zhǔn)確的審核該用戶是否應(yīng)該放款。
      [0026]本項(xiàng)目經(jīng)過多次迭代維護(hù),已經(jīng)穩(wěn)定運(yùn)行5個(gè)月,為整個(gè)公司提供了高可用高精準(zhǔn)的檢索服務(wù),讓業(yè)務(wù)人員掌握了更多的用戶信息,再與客戶交流中處于主動(dòng)地位,同時(shí)也讓一些網(wǎng)絡(luò)慣犯無處容身。
      [0027]以上對本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
      【主權(quán)項(xiàng)】
      1.一種全網(wǎng)搜索系統(tǒng),其特征在于,其包括數(shù)據(jù)索引模塊、爬蟲框架模塊、Elasticsearch集群模塊、檢索服務(wù)模塊,數(shù)據(jù)索引模塊、爬蟲框架模塊、Elasticsearch集群模塊兩兩連接,檢索服務(wù)模塊與數(shù)據(jù)索弓I模塊連接。2.如權(quán)利要求1所述的全網(wǎng)搜索系統(tǒng),其特征在于,所述數(shù)據(jù)索引模塊中每臺機(jī)器上都有一個(gè)線程在提供存儲(chǔ)數(shù)據(jù)的服務(wù),多線程在不斷的抓取數(shù)據(jù)后,會(huì)打包給數(shù)據(jù)存儲(chǔ)服務(wù);數(shù)據(jù)存儲(chǔ)服務(wù)拿到數(shù)據(jù)后,緩存下來,達(dá)到一定的數(shù)量后,批量的將這些數(shù)據(jù)來源的url去elasticsearch中查重,對于沒有重復(fù)的數(shù)據(jù),在批量的索引到eIasticsearch中,同時(shí)更新這個(gè)小任務(wù)片的執(zhí)行狀態(tài),以便斷點(diǎn)恢復(fù)。3.如權(quán)利要求1所述的全網(wǎng)搜索系統(tǒng),其特征在于,所述爬蟲框架模塊禁掉了httpclient的cookie自動(dòng)維護(hù)功能,實(shí)現(xiàn)了一套更符合我們業(yè)務(wù)邏輯的維護(hù)cookie的服務(wù);框架內(nèi)部會(huì)幫我們統(tǒng)計(jì)本次的成功失敗率,反饋給我們,以用來優(yōu)化程序;如果請求失敗,狀態(tài)碼異常,框架內(nèi)部幫我們做重試操作;支持隨機(jī)模擬任意瀏覽器去請求;支持代理的切換功能。4.如權(quán)利要求1所述的全網(wǎng)搜索系統(tǒng),其特征在于,所述Elasticsearch集群模塊中的ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器,它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎,設(shè)計(jì)用于云計(jì)算中,達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。5.如權(quán)利要求1所述的全網(wǎng)搜索系統(tǒng),其特征在于,所述檢索服務(wù)模塊維護(hù)自己的敏感詞庫,例如騙子、欠錢等敏感詞匯;線上環(huán)境有人提交申請后,實(shí)時(shí)來我們的大數(shù)據(jù)集中搜索該用戶的數(shù)據(jù),檢查是否有敏感詞匯,如果命中,將其打入人工審核;審核人員具體看下命中的場景是什么,進(jìn)行人工核實(shí)判斷該用戶是否有信用問題,避免網(wǎng)絡(luò)詐騙行為。
      【文檔編號】H04L29/08GK106021619SQ201610551600
      【公開日】2016年10月12日
      【申請日】2016年7月14日
      【發(fā)明人】郭田森, 唐陽
      【申請人】微額速達(dá)(上海)金融信息服務(wù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1