準確。
【附圖說明】
[0030]圖1為本發(fā)明基于知識庫的職位推薦系統(tǒng)的結構示意圖;
圖2為人力資源專有知識庫構建模及人才信息爬取模塊塊過程處理示意圖;
圖3為信息抽取、融合、比較模塊處理過程示意圖;
圖4為職位推薦模塊結構示意圖。
【具體實施方式】
[0031]下面結合附圖和具體的實施例對本發(fā)明技術方案作進一步的詳細描述,以使本領域的技術人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。
[0032]如圖1所示,一種基于知識庫的職位推薦系統(tǒng),包括人力資源專有知識庫構建模塊,人才信息爬取模塊,信息抽取、融合、比較模塊和職位推薦模塊;
人力資源專有知識庫構建模塊通過對人力資源相關知識進行爬取和實體分析,構建與人力資源專有知識庫;
人才信息爬取模塊在人力資源相關網站(或者知識庫網站)上爬取人才簡歷,所參與的社交媒體以及用戶行為,求職意向的相關信息;
信息抽取、融合、比較模塊用于對抓取得到的數據進行分析、處理,對用戶進行建模分析,并將用戶簡歷與知識庫進行比對。
[0033]職位推薦模塊,將應聘放所需職位描述與知識庫進行比對,并計算用戶與當前職位的相關性,完成職位推薦;
人力資源專有知識庫構建模塊,人才信息爬取模塊,信息抽取、融合、比較模塊,職位推薦模塊相連接。
[0034]如圖2所示,人才信息爬取取模塊通過網絡爬蟲(包括N個爬蟲,爬蟲1、爬蟲2、爬蟲3……爬蟲N)獲取社交媒體上的數據,得到數據后,通過使用hadoop將多條URL抓取的任務分配調度處理給多臺計算機,使得每臺計算機的負載均衡的調度處理方法交給多部服務器所組成的分布式系統(tǒng),通過HTML parser對網頁進行分析、文本分析、鏈接分析和網頁質量控制、去重,得到相應的網頁內容,將所述網頁內容結果分成結構化信息(朋友、群等鏈接信息)和非結構化信息(文本、圖像等),分別存儲到結構化信息數據庫和非結構化信息數據庫中。
[0035]結構化和非結構化的分類可以通過判斷該內容是否可以存儲到結構化數據庫中(如SQL)來判斷。通常文本和圖像是非結構化數據,無法把其中的內容進行切分和分類。如一段新聞,雖然知道里面有人名、地名、公司名、時間等信息,但是如果不進行處理,無法自動的把這些信息導入到SQL中。同時,結構化信息和非結構化信息也可以重復進行網頁進行分析、文本分析、鏈接分析和網頁質量控制、去重,得到精簡的結構化信息和非結構化信息。
[0036]在將結構化與非結構化數據存入數據庫之后,下一步就是知識抽取。這里采取的是基于實體的只是抽取技術。例如,可以從“百度的本部在西二旗”抽取三元組〈百度,本部是在,西二旗〉,其中“百度”是公司名稱,“西二旗”是地點或地址,“本部是在”是關系。更多的關系例如“CEO是”,“主演是”,“主打產品是”等等。得到這些關系后,需要對他們進行聚類處理。例如“CEO是”,“首席執(zhí)行官是”以及“創(chuàng)建者是”等等關系會以一定概率聚在一起。得到這些三元組后,進一步將其組織成數據庫,進而可使用例如RDF語言等進行處理和查詢,重點將主要研宄文本自動獲取三元組關系的方法,盡可能的提高抽取精度并不損失抽取的覆蓋率。對非結構化文本數據進行機器閱讀,首先通過自然語言處理技術進行詞性標注等;然后通過自增強(Bootstrapping)技術找到盡量多的關系,如<實體,關系,實體 > 三元組:通過實體得到更多他們之間的關系,再通過關系找到更多的實體,從而實現自增強的信息抽取。通過這樣的信息抽取過程,就可以構建與人力資源相關的專有知識庫。
[0037]如圖3所示,所述信息抽取、融合、比較模塊將人才信息爬取模塊爬取到的個人信息(用戶所參與的社交媒體以及用戶行為,求職意向信息)進行整合分析,建立人才專有的個人檔案;個人檔案進一步解析成為若干關鍵詞以及其中的內在聯系,從而完成用戶建模,同時,解析招聘方招聘職位信息,進行職位建模分析,將職位信息和用戶需求建立映射對應,進行職位和用戶需求映射建模。
[0038]信息抽取、融合、比較模塊包括用戶建模模塊、職位需求建模模塊、職位和用戶映射建模模塊,用戶建模模塊、職位需求建模模塊與職位和用戶映射建模模塊相連接。
[0039]用戶建模模塊工作過程包括:
1-1)標簽傳播:通過用戶檔案中的關鍵詞實體在構建的人力資源專有知識庫中進行隨機游走得到標簽傳播的概率,從而擴展用戶的描述;
1-2)內容判別:對用戶檔案的內容進行分析,使用話題模型、實體抽取得到可能的標簽;同時,通過訓練機器學習分類器對已有標簽的用戶進行學習,從而對沒有標簽的用戶進行標簽判斷;
1-3)用戶其他信息判別:對于用戶發(fā)表的內容進行理解以及對其朋友圈進行分析,進而預估用戶的年齡、工作性質、工作地點、收入信息,從而可以更好的理解用戶的需求;對用戶的年齡、工作性質、工作地點和收入信息進行預估時,對用戶提取關鍵詞和好友屬性特征,使用機器學習方法,對已有標注信息進行學習得到分類器,對未知樣本進行分類。
[0040]職位需求建模模塊運行過程包括,
2-1)職位信息增強,僅僅靠解析招聘方張貼的廣告往往得到的信息不夠完備,需要基于互聯網搜索引擎進行搜索,從相關的摘要和廣告內容中得到其他與該職位相關的描述與刻畫,從而對職位的信息進行增強。
[0041]2-2)職位路徑分類,在抓取職位增強信息的同時得到職位路徑分類樹的信息。另外對沒有路徑分類樹信息的職位進行分類,并分類到職位路徑樹的某一個節(jié)點上;
2-3)職位其他信息采集,對職位相關的其他信息進行收集,并存儲到數據庫(數據庫存儲信息,指存儲信息的數據庫)中,通過對人力資源類型網站的結構進行分析,得到相應的評論和打分。
[0042]用戶建模模塊獲取得到用戶刻畫(用戶刻畫指用戶描述分析包括年齡,收入,興趣,地域,學歷以及用戶已有的工作歷史;),職位需求建模模塊獲取到職位刻畫(職位描述),職位和用戶需求映射建模模塊將職位和用戶需求建立映射對應(將人才刻畫與職位刻畫建立映射對應),對用戶在網站上提到求職意向時發(fā)表的內容以及人力資源網站上的職位描述、用戶對職位以及應聘單位的評論去噪,建立映射模型,職位和用戶需求映射模型是對數據的直接特征抽取或者是通過機器學習的手段得到的特征表達,得到了映射模型后,比較職位和用戶的相關性。
[0043]如圖4所示,職位推薦模塊連接有用戶端推薦模塊和職位端推薦模塊。
[0044]用戶端推薦模塊運行過程包括以下步驟:
3-1)通過用戶和職位的相關性得到可能推薦的職位列表;
3-2)對用戶的好友以及已有用戶的評論進行用戶和商品的相關性的分析;
3-3)通過分析用戶刻畫對職位推薦進行處理,細分推薦目標,所述用戶刻畫包括年齡,收入,興