国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      樓宇知識圖譜數(shù)據(jù)庫及其構建方法

      文檔序號:9432690閱讀:1255來源:國知局
      樓宇知識圖譜數(shù)據(jù)庫及其構建方法
      【技術領域】
      [0001] 本發(fā)明設及計算機數(shù)據(jù)庫技術領域,特別設及一種樓宇知識圖譜數(shù)據(jù)庫及其構建 方法。
      【背景技術】
      [0002] 互聯(lián)網的發(fā)展經歷了webl. 0和web2. 0兩個階段,正朝著web3. 0方向發(fā)展。 webl.O是W編輯為特征,用戶閱讀網站提供的內容,代表站點為新浪、捜狐和網易=大口 戶。web2.0更注重用戶的交互作用,用戶既是網站內容的消費者(瀏覽者),也是網站內容 的制造者(微博、天涯社區(qū)、自媒體)。
      [0003] 在運兩代互聯(lián)網中,用戶點擊訪問的(或互聯(lián)的)最小單位是文檔,文檔與文檔 之間的連接是通過超鏈接實現(xiàn)的;由于HTML語言缺乏語義,因此運兩代互聯(lián)網中的內容主 要是面向人類的,難W被計算機自動理解。而web3.0即WebofData(語義網)是數(shù)據(jù)的 網絡,在其上發(fā)布和互聯(lián)的將是一個個實體數(shù)據(jù)(即things,實體是語義網數(shù)據(jù)的構成單 元),它實現(xiàn)了實體級別(entity-level)的數(shù)據(jù)互聯(lián)和互操作。 陽004] 在WebofData中,所有的實體都使用一個全局唯一確定的ID來進行標識,運個 ID即對應目標的標識符(identifier),運種做法與一個網頁有一個對應的U化、數(shù)據(jù)庫中 的一條記錄有一個特定的主鍵相似;對象之間的鏈接代表對象之間的關聯(lián),大量實體W及 它們之間的關系形成了一張巨大的圖。使用共享的數(shù)據(jù)詞典,即本體(本體是指一種形式 化的,對于共享概念體系的明確而又詳細的說明)描述對象和鏈接,可W實現(xiàn)分布式數(shù)據(jù) 集的鏈接。在此架構下,數(shù)據(jù)共享、管理、交換更加容易。它是一種松禪合的(此處"松禪 合"即指數(shù)據(jù)模式去中屯、化,非自頂向下推行事先約定數(shù)據(jù)模式,而是由各數(shù)據(jù)源自底向上 自發(fā)構建數(shù)據(jù)模式,并進行數(shù)據(jù)的關聯(lián)與管理)、去中屯、化的互聯(lián)網。在Webof化ta技 術框架中,數(shù)據(jù)是W本體的形式存在的,使用資源描述框架(畑F,ResourceDescription 化amework)、網絡本體語言(OWL,化tologyWebLanguage)等本體描述語言進行數(shù)據(jù)表示, 并使用本體查詢語言SPARQL進行數(shù)據(jù)查詢。 陽0化]知識圖譜是基于webofdata技術框架的應用與實現(xiàn)。知識圖譜實現(xiàn)對客觀世界 從字符串描述到結構化語義描述,是對客觀世界的知識映射(mappingworldknowledge), 本體可W作為知識圖譜表示的概念模型和邏輯基礎。知識圖譜可W描述不同層次和粒度的 概念抽象。知識圖譜可W體現(xiàn)為一張巨大的圖,圖中的節(jié)點表示數(shù)據(jù)源,而圖中的邊代表不 同數(shù)據(jù)源中相同實體鏈接。知識圖譜可W顯示知識發(fā)展進程與結構關系的一系列各種不同 的圖形,用可視化技術描述知識資源及其載體。可W用于挖掘、分析、構建、繪制和顯示知識 及它們之間的相互聯(lián)系。它將應用數(shù)學、圖形學、信息可視化技術、信息科學等學科的理論 與方法加W有效利用可視化地、形象地展示信息。
      [0006] 隨著新媒體、新技術的發(fā)展,廣告所設及的媒體幾乎無所不包,只要是能傳遞信息 的介質,就可W成為廣告的載體。廣告業(yè)競爭日益激烈,對廣告受眾的精準定位要求越來越 高。僅僅憑廣告銷售人員經驗確定樓宇的廣告投放已經不能滿足要求,需要根據(jù)與樓宇相 關基本信息(如地段、租金等)、受眾基本信息(如樓宇入住公司等)等數(shù)據(jù)精準確定樓宇 的廣告投放價值,使廣告發(fā)布方能快速地決策廣告的投放,W便獲得最大收益。
      [0007] 上述的樓宇相關信息一般可W通過建立樓宇數(shù)據(jù)庫實現(xiàn),然而,現(xiàn)有技術中構建 的樓宇數(shù)據(jù)庫一般采用的是關系數(shù)據(jù)庫。本領域技術人員知曉,在關系數(shù)據(jù)庫中,數(shù)據(jù)定義 描述僅局限于數(shù)據(jù)庫中,其數(shù)據(jù)字典與數(shù)據(jù)注冊主要是提供給人的,而非直接用于機器,其 關系存儲在文件、S化代碼和集體記憶(collectivememories)中,不能直接提供給應用程 序。相比于關系數(shù)據(jù)庫,RDF圖數(shù)據(jù)中的關系是一種傳遞性質,是明確的模型,可直接提供 給應用程序。且語義網中的數(shù)據(jù)模型具有自然的可擴充能力,而關系數(shù)據(jù)庫中的數(shù)據(jù)表的 合并或字段增加的代價很高。因此較之傳統(tǒng)關系數(shù)據(jù)庫,語義網的圖數(shù)據(jù)更利于數(shù)據(jù)維護 與數(shù)據(jù)融合,且其中的數(shù)據(jù)更能有效用于應用程序,利用統(tǒng)一的推理引擎更可W有效的進 行數(shù)據(jù)推理。
      [0008] 此外,現(xiàn)有技術的樓宇數(shù)據(jù)庫中的樓宇數(shù)據(jù)大多需要人為采集并錄入,且存在某 些數(shù)據(jù)不全或不夠準確的問題,尤其是現(xiàn)有樓宇數(shù)據(jù)中無法準確體現(xiàn)出樓宇與樓宇內的受 眾人群之間的匹配,從而難W更準確地進行廣告投放。

      【發(fā)明內容】

      [0009] 本發(fā)明要解決的問題是現(xiàn)有技術中的樓宇數(shù)據(jù)庫不利于數(shù)據(jù)維護與數(shù)據(jù)融合、難 W有效用于應用程序W及有效地進行數(shù)據(jù)推理,且樓宇數(shù)據(jù)中無法準確體現(xiàn)樓宇與樓宇內 的受眾人群的匹配。
      [0010] 為解決上述問題,本發(fā)明技術方案提供一種樓宇知識圖譜數(shù)據(jù)庫的構建方法,包 括:
      [0011] 從一個W上數(shù)據(jù)源獲取樓宇數(shù)據(jù),并對獲取到的樓宇數(shù)據(jù)進行集成;所述樓宇數(shù) 據(jù)包含用于樓宇分類的類別信息、樓宇地理信息、樓宇基礎信息、樓宇所屬與使用者信息和 人群捜索與標簽分類信息;所述人群捜索與標簽分類信息為針對樓宇內人群的主要捜索內 容進行標簽分類統(tǒng)計與指數(shù)計算后得到的信息;
      [0012] 基于集成后的樓宇數(shù)據(jù)構建樓宇知識圖譜數(shù)據(jù)庫;所述集成后的樓宇數(shù)據(jù)經過層 級分類W及結構化處理;所述樓宇知識圖譜中的實體包含樓宇實體、單位實體、捜索標簽實 體、捜索點位實體W及單位行業(yè)實體;所述樓宇實體的屬性包含樓宇地理信息屬性、樓宇基 礎信息屬性、樓宇所屬與使用者信息屬性和人群捜索與標簽分類信息屬性,所述人群捜索 與標簽分類信息屬性與所述捜索標簽實體、捜索點位實體所包含屬性下的信息相關聯(lián),所 述樓宇所屬與使用者信息屬性與所述單位實體所包含屬性下的信息相關聯(lián);所述單位實體 的屬性包含單位基本信息屬性、單位行業(yè)信息屬性和單位經營信息屬性,所述單位行業(yè)信 息屬性與所述單位行業(yè)實體所包含屬性下的信息相關聯(lián)。
      [0013] 可選的,所述對獲取的樓宇數(shù)據(jù)進行集成包括:優(yōu)化所述用于樓宇分類的類別信 息的數(shù)據(jù)結構及其存儲方式,W便進行擴展與分級細化;補充與所述用于樓宇分類的類別 信息相關的樓宇地理信息與樓宇基礎信息;針對所述人群捜索與標簽分類信息W及與所述 樓宇所屬與使用者信息相關聯(lián)的單位行業(yè)信息建立相對獨立且完整的RDF圖數(shù)據(jù)庫。
      [0014] 可選的,所述對獲取到的樓宇數(shù)據(jù)進行集成包括對獲取到的樓宇數(shù)據(jù)進行預處 理,所述預處理包括:進行格式清洗,去除噪聲信息;進行自動重排和自動分類,并把樓宇 數(shù)據(jù)轉換成預定格式;進行通用文本處理,所述通用文本處理包括分詞、詞性標注、句法分 析、命名實體識別、聚類和分類。
      [0015] 可選的,所述基于集成后的樓宇數(shù)據(jù)構建樓宇知識圖譜數(shù)據(jù)庫包括:采用文本信 息抽取方法,抽取集成后的樓宇數(shù)據(jù)所包含的各類信息W構建樓宇知識圖譜數(shù)據(jù)庫;所述 文本信息抽取方法包括基于人工構建規(guī)則的方法、基于規(guī)則學習的方法、基于機器學習的 方法中的一種或一種W上組合。
      [0016] 可選的,采用隔離的方式確保對所述樓宇知識圖譜中的實體指派唯一標識符,W 及采用調和的方式確認相同實體并將其合并。
      [0017] 可選的,所述數(shù)據(jù)源包括第一數(shù)據(jù)源、第二數(shù)據(jù)源和第=數(shù)據(jù)源;所述第一數(shù)據(jù)源 為已存儲有部分樓宇數(shù)據(jù)的關系數(shù)據(jù)庫,所述人群捜索與標簽分類信息W及與所述樓宇所 屬與使用者信息相關聯(lián)的單位行業(yè)信息獲取于所述第二數(shù)據(jù)源,所述第=數(shù)據(jù)源為互聯(lián)網 數(shù)據(jù);所述人群捜索與標簽分類信息W及與所述樓宇所屬與使用者信息相關聯(lián)的單位行業(yè) 信息集成于相應建立的RDF圖數(shù)據(jù)庫,獲取于所述第=數(shù)據(jù)源的數(shù)據(jù)一部分集成于所述關 系數(shù)據(jù)庫,另一部分集
      當前第1頁1 2 3 4 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1