国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于處理非結構化數(shù)字的基于內容的檢索引擎的制作方法

      文檔序號:9422790閱讀:481來源:國知局
      用于處理非結構化數(shù)字的基于內容的檢索引擎的制作方法
      【專利說明】用于處理非結構化數(shù)字的基于內容的檢索引擎
      【背景技術】
      [0001] 數(shù)字宇宙值U)可被解釋和/或定義為涵蓋所收集、產(chǎn)生、處理、通信和存儲的世界 上所有數(shù)字數(shù)據(jù)的總和。DU的大小和生長速率W指數(shù)速率持續(xù)增長,到2020年DU的估計 大小將增長到超過40澤字節(jié)。此數(shù)據(jù)的大部分由"非結構化數(shù)據(jù)"組成。非結構化數(shù)據(jù)W 多種形式出現(xiàn),包括:圖像、視頻、音頻、通信、網(wǎng)絡流量、來自各種傳感器的數(shù)據(jù)(包括物聯(lián) 網(wǎng)和基于Web服務的物聯(lián)網(wǎng))、惡意軟件、文本等等。
      [0002] 與適合行/列格式的結構化數(shù)據(jù)相反,非結構化數(shù)據(jù)通常存儲在不透明容器 中一一例如,諸如原始二進制數(shù)據(jù)、壓縮數(shù)據(jù)、加密數(shù)據(jù),或者自由形式數(shù)據(jù)。不僅了解DU的 大小和生長速率是重要的,而且了解數(shù)據(jù)的分布也是重要的,所述數(shù)據(jù)被估計為大約88% 的視頻和圖像數(shù)據(jù);10%的通信、傳感器、音頻和音樂數(shù)據(jù);W及2%的文本。還估計到所 述2%的文本DU中僅3-5%是目前編入索引并且制作為可由主要檢索引擎(例如,Google、 Bing、Y址00、Ask、AOL等等)檢索的。
      [0003] 互聯(lián)網(wǎng)檢索引擎和企業(yè)檢索引擎是用于訪問DU數(shù)據(jù)的存儲W支持主要用途的主 要機制,所述主要用途包括商務、商業(yè)、教育、政府、社區(qū)和機構,W及個人用途。經(jīng)由基于文 本的關鍵詞和元數(shù)據(jù)標記進行文本檢索是到目前為止最流行的檢索DU數(shù)據(jù)的方法。上述 方法只能做到運種程度,因為所述2%的(文本)DU中僅約3-5%是編入索引并且制作為可 檢索的。用元數(shù)據(jù)標記檢索是有用的,但是因為并非所有非結構化數(shù)據(jù)具有與其相關聯(lián)的 元標記,所W可能希望具有可處理此類非結構化和無標記數(shù)據(jù)的技術。
      [0004] 通常,可W先使用手動作業(yè)(例如,眾包、喜歡/不喜歡等等)來產(chǎn)生標記,然后才 可由傳統(tǒng)的檢索引擎和數(shù)據(jù)庫使用所述標記,此過程費時、昂貴并且覆蓋范圍有限。與文本 元數(shù)據(jù)檢索技術已經(jīng)具有的價值一樣,發(fā)現(xiàn)數(shù)據(jù)內容中和數(shù)據(jù)內容之間的鏈接、連接和關 聯(lián)的能力可具有更高價值。社交媒體公司(例如,F(xiàn)acebook、LinkedlruTwitter等等)的 產(chǎn)生是此技術的例子。額外使用跨數(shù)據(jù)集和數(shù)據(jù)類型的鏈接還允許對數(shù)據(jù)應用深度分析W 提取非顯而易見的關系、模式和趨勢(例如,廣告、推薦引擎、商業(yè)智能、度量、網(wǎng)絡流量分 析等等)。因此,可能希望使非結構化DU的內容為可檢索的。

      【發(fā)明內容】

      [0005] 下文呈現(xiàn)了對所述創(chuàng)新的簡要總結,W便提供對本文所描述的一些方面的基本理 解。此
      【發(fā)明內容】
      并非是對所要求保護的主題的廣泛概述。本
      【發(fā)明內容】
      既非旨在識別所要求 保護的主題的關鍵或者決定性要素,也非旨在詳細描述所述創(chuàng)新主題的范圍。本
      【發(fā)明內容】
      的唯一目的是W簡化形式呈現(xiàn)所要求保護主題的一些概念,W作為稍后提供的更詳細描述 的序旨。
      [0006] 公開了用于接收和索引原生數(shù)字數(shù)據(jù)、產(chǎn)生用于后續(xù)存儲的簽名矢量,W及在數(shù) 字數(shù)據(jù)的數(shù)據(jù)庫中檢索此類原生數(shù)字數(shù)據(jù)的系統(tǒng)及方法??蓪⒃鷶?shù)字數(shù)據(jù)轉換成相關的 轉換數(shù)據(jù)集。此類轉換可包括類賭轉換和/或空間頻率轉換。隨后可將所述原生和相關的 轉換數(shù)據(jù)集劃分成譜分量,并且那些譜分量可具有應用于其W產(chǎn)生簽名矢量的統(tǒng)計矩。還 公開了用于處理非圖像數(shù)字數(shù)據(jù)的其他系統(tǒng)和方法??蓪⒎菆D像數(shù)字數(shù)據(jù)轉換成振幅對照 時間的數(shù)據(jù)集,并且隨后可將譜圖應用于此類數(shù)據(jù)集。隨后可如所描述地處理此類轉換數(shù) 據(jù)集。
      [0007] 在一個實施例中,公開了一種用于檢索數(shù)字數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括:索引模 塊,所述索引模塊能夠接收原生數(shù)字數(shù)據(jù)集,所述原生數(shù)字數(shù)據(jù)集包括譜分布;簽名生成模 塊,所述簽名生成模塊能夠根據(jù)所述原生數(shù)字數(shù)據(jù)集產(chǎn)生一個或多個轉換數(shù)據(jù)集W及根據(jù) 所述原生數(shù)字數(shù)據(jù)集和所述一個或多個轉換數(shù)據(jù)集產(chǎn)生簽名矢量,所述簽名矢量包括針對 所述原生數(shù)字數(shù)據(jù)集和所述一個或多個轉換數(shù)據(jù)集中的每一者的譜分解和統(tǒng)計分解;TOC 數(shù)據(jù)庫,所述TOC數(shù)據(jù)庫能夠存儲所述簽名矢量;W及檢索模塊,所述檢索模塊能夠接收輸 入簽名矢量并且返回大體上接近于所述輸入簽名矢量的一組簽名矢量,其中所述輸入簽名 矢量表示將利用所述TOC數(shù)據(jù)庫檢索的所關注對象。
      [0008] 在另一實施例中,公開了一種用于根據(jù)原生數(shù)字數(shù)據(jù)集產(chǎn)生簽名矢量的方法,所 述方法包括:接收原生數(shù)字數(shù)據(jù)集;應用賭轉換至所述原生數(shù)字數(shù)據(jù)集W產(chǎn)生賭數(shù)據(jù)集; 應用空間頻率轉換至所述原生數(shù)字數(shù)據(jù)集W產(chǎn)生空間頻率數(shù)據(jù)集;將所述原生數(shù)字數(shù)據(jù) 集、所述賭數(shù)據(jù)集和所述空間頻率數(shù)據(jù)集中的每一者劃分成一組譜分量數(shù)據(jù)集;W及應用 一組統(tǒng)計矩至所述譜分量數(shù)據(jù)集W產(chǎn)生用于所述原生數(shù)字數(shù)據(jù)集的簽名矢量。
      [0009] 當結合提供在此申請案中的附圖閱讀時,在W下實施方式中提供了本發(fā)明系統(tǒng)的 其他特征和方面。
      【附圖說明】
      [0010] 在所提及的附圖圖式中示出了示例性實施例。旨在將本文所公開的實施例和圖式 視為說明性而非限制性的。
      [0011] 圖1是如根據(jù)本申請案的原理制造的系統(tǒng)和用于所述系統(tǒng)的操作的示例性環(huán)境 的一個實施例。
      [0012] 圖2是索引模塊和所述索引模塊在示例性環(huán)境情況中的操作的一個實施例。
      [0013] 圖3是如根據(jù)本申請案的原理制造的簽名和目錄燈油IeOfContent,T0C)模塊 的一個實施例。
      [0014] 圖4是如根據(jù)本申請案的原理制造的實體和關鍵詞索引表(KeywordIndex T油le,KIT)模塊的一個實施例。
      [0015] 圖5是檢索模塊和所述檢索模塊依據(jù)使用者的檢索請求的操作的一個實施例。
      [0016] 圖6是檢索模塊及所述檢索模塊返回檢索結果至使用者的操作的一個實施例。
      [0017] 圖7是如根據(jù)本申請案的原理制造的實例查詢模塊的一個實施例。
      [0018] 圖8是分析模塊和所述分析模塊在示例性環(huán)境情況中的操作的一個實施例。
      [0019] 圖9是如根據(jù)本申請案的原理制造的系統(tǒng)的另一實施例。
      [0020] 圖10是如可能填入圖9所示的系統(tǒng)的若干示例性模塊的視圖。
      [0021] 圖IlA到圖IlC示出了處理一個圖像數(shù)據(jù)帖的一個實施例。
      [0022] 圖12A到圖12C和圖13A到圖13C示出如根據(jù)本申請案的原理實行的對其他圖像 數(shù)據(jù)帖的處理。
      [0023] 圖14是非結構化數(shù)據(jù)分層的一個實施例,所述分層可用來處理非結構化數(shù)據(jù)。
      [0024] 圖15和圖16是檢索視頻數(shù)據(jù)集中的圖像數(shù)據(jù)的示例性實施例。
      [0025] 圖17是檢索音頻數(shù)據(jù)集中的聲音數(shù)據(jù)的一個示例性實施例。
      [0026] 圖18是高等級群集的一個示例性實施例。
      [0027] 圖19到圖21是使用檢索錐和/或檢索框構造來幫助檢索過程的示例性實施例。
      [0028] 圖22示出了如何用本發(fā)明的系統(tǒng)和技術處理非圖像數(shù)據(jù)集W產(chǎn)生簽名的一個實 施例。
      [0029] 圖23示出了原生數(shù)據(jù)集的一個實施例,所述原生數(shù)據(jù)集被轉換成互補數(shù)據(jù)集并 且經(jīng)處理W產(chǎn)生高維的簽名。
      [0030] 圖24示出了如根據(jù)本申請案的原理制造的合成性地面實況產(chǎn)生器的一個實施 例。
      【具體實施方式】
      [0031] 如本文所用,術語"部件"、"系統(tǒng)"、"界面"、"模塊"等等旨在代表與計算機有關的 實體,為硬件、軟件(例如,執(zhí)行中的軟件)和/或固件。例如,部件可為在處理器上運行 的處理、計算機節(jié)點、計算機核屯、、計算節(jié)點群集、對象、可執(zhí)行檔、程序、處理器和/或計算 機。舉例而言,在服務器上運行的應用程序和所述服務器兩者皆可為部件。一個或多個部 件可W駐留在過程內,并且部件可W局限在一個計算機上和/或分布在兩個或更多個計算 機之間。
      [0032] 參考附圖描述了所要求保護的主題,其中貫穿全文W相同的附圖標記用于指代相 同的元件。在W下描述中,為了解說的目的,陳述了眾多具體細節(jié)來提供對創(chuàng)新主題的徹底 理解。然而可為明顯的是,在沒有運些具體細節(jié)的情況下也可實踐所要求保護的主題。在 其他情況中,W方框圖形式示出了熟知的結構和裝置,W幫助描述創(chuàng)新主題。
      [0033] 概論
      [0034] 為了在針對具體條目、想法和/或主題檢索DU時獲得任何有用的結果,可能需要 將一些結構和/或次序引入DU本身。例如,可能需要基于數(shù)據(jù)內容對非結構化數(shù)據(jù)和未加 標簽數(shù)據(jù)使用自動產(chǎn)生元數(shù)據(jù)標記的方法和算法。因此,本文公開的各個方面描述了用于 產(chǎn)生計算機可讀代碼和計算機界面,W便采集、索引化、檢索、鏈接和/或分析非結構化數(shù) 據(jù)存儲的過程、系統(tǒng)和/或方法的實施例。一個實施例可使用包括W下的模塊和算法:(1) 能夠產(chǎn)生非結構化數(shù)據(jù)的信息內容的唯一簽名(例如,數(shù)字指紋);W及(2)能夠比較簽名 來確定高維的信息空間中的度量距離一一從而確定兩個實體是如何相關或無關的?;谶\ 些算法,用于檢索、鏈接和分析非結構化數(shù)據(jù)的方法可用于建立用于W下用途的過程和系 統(tǒng):(1)將非結構化數(shù)據(jù)索引化為可檢索的索引表,(2)檢索非結構化數(shù)據(jù),(3)鏈接/關聯(lián) 非結構化數(shù)據(jù),(4)建立用于非結構化數(shù)據(jù)的深度分析引擎,W及(5)廣義編輯。
      [0035] 在本文公開的若干可能的實施例中,將運些方法與數(shù)據(jù)管理、并行/事務處理計 算和并行計算硬件一起實體化成計算機可讀代碼可提供用于建立非結構化數(shù)據(jù)庫進程"服 務器"的基準。此外,所述服務器可使用用于與用戶和其他機器通信的機制,因此可W定義 "客戶端"界面來處理用戶到機器的通信和機器到機器的通信。在若干實施例中,將運些組 合在一起可提供用于W下用途的平臺(或者框架)的基準:(1)建立廣義非結構化數(shù)據(jù)檢 索引擎,(2)建立用于發(fā)現(xiàn)非結構化數(shù)據(jù)(例如,具體來說,圖像、視頻和音頻)內和非結構 化數(shù)據(jù)(例如,具體來說,圖像、視頻和音頻)間已發(fā)現(xiàn)鏈接的社交網(wǎng)絡引擎,(3)建立用于 處理非結構化數(shù)據(jù)的深度分析應用程序,W及(4)建立用于添加、刪除、替換表示特征和/ 或對象的信號和/或模式的廣義編輯應用程序。
      [0036] 雖然本文所公開和論述的許多實施例是在計算、通信和數(shù)據(jù)流的客戶端/服務器 模型的情境中實行的,但是可W理解的是,本文所公開和描述的方法和技術將在許多其他 計算環(huán)境中起作用。例如,可在單一的獨立計算機和/或計算系統(tǒng)上一一或者在此類計算 機的網(wǎng)絡(例如,分布式網(wǎng)絡、并行網(wǎng)絡或者其他網(wǎng)絡)中進行采集、索引化和鏈接。其他 計算環(huán)境也可能用于存放和/或執(zhí)行本申請案的方法和技術一一并且所述客戶端/服務器 模型僅僅是包含在本申請案的范圍中的許多模型中的一個。
      [0037] -個實施例
      [0038] 圖1示出如根據(jù)本申請案的原理制造的合適體系結構的一個可能的實施例。如可 看出的,在本文描述的許多模塊和技術的控制下,服務器106可經(jīng)由APIs104與一個或多 個客戶端102通信,W執(zhí)行諸如W下任務一一例如,產(chǎn)生索引表108、檢索索引表110和/或 產(chǎn)生/分析圖型和/或網(wǎng)絡112。
      [0039] 下文是對可由此類合適的體系結構使用的一些模塊和/或處理的簡要描述:
      [0040] 數(shù)據(jù)采集:可從任何實時的數(shù)字流、存儲在存儲介質上的歸檔數(shù)據(jù)、IP連接的裝 置和移動/無線裝置采集數(shù)據(jù)。還可通過經(jīng)由模擬-數(shù)字轉換器運行模擬裝置來從模擬裝 置采集數(shù)據(jù)??刹杉瘮?shù)據(jù)的實例包括但不限于圖像、視頻、文本、音頻和網(wǎng)絡流量。
      [0041] 簽名生成:將所采集的數(shù)據(jù)經(jīng)由自然細分或者人工細分定義劃分為數(shù)據(jù)帖。使用 多元統(tǒng)計和信息論測度將數(shù)據(jù)帖轉換成簽名,并且將簽名存儲到可檢索的數(shù)據(jù)庫中。分層 的子帖實體的簽名是通過遞歸地細分數(shù)據(jù)帖而產(chǎn)生的,并且被存儲在數(shù)據(jù)庫中。針對數(shù)據(jù) 帖的數(shù)據(jù)庫條目由名稱、簽名、指回到原始數(shù)據(jù)的元數(shù)據(jù)指針組成,并且任何描述所述原始 數(shù)據(jù)的元數(shù)據(jù)都被存儲在數(shù)據(jù)庫中。描述所述原始數(shù)據(jù)的元數(shù)據(jù)可包括但不限于作者、采 集時間/日期、空間數(shù)據(jù)(締度/經(jīng)度),W及描述數(shù)據(jù)的大?。ㄌ佟⑻笮?、采樣率、壓
      當前第1頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1