国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法

      文檔序號:6635623閱讀:363來源:國知局
      一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法
      【專利摘要】本發(fā)明公開了一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,屬于數(shù)據(jù)挖掘技術(shù),將光譜巡天數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、隨機采樣、局部稀疏度計算、篩選稀少光譜五個階段,挖掘稀少天體;數(shù)據(jù)預(yù)處理:對光譜巡天數(shù)據(jù)進行預(yù)處理操作;數(shù)據(jù)降維:對光譜巡天數(shù)據(jù)進行數(shù)據(jù)降維;隨機采樣:將光譜巡天數(shù)據(jù)使用隨機采樣得到一個小樣本;局部稀疏度計算:對采樣的小樣本光譜集計算稀疏度,稀疏度數(shù)值越大是稀少天體的可能性越大;篩選稀少光譜:按樣本稀疏度排序所有光譜,篩選稀疏度最大的一定數(shù)量光譜作為稀少天梯候選體,再進行稀少天體分析。本發(fā)明可快速且有效的從大規(guī)模高維度巡天數(shù)據(jù)中自動挖掘稀少天體。
      【專利說明】一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù),具體地說是一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法。

      【背景技術(shù)】
      [0002]隨著天文觀測設(shè)備及終端技術(shù)的不斷發(fā)展,越來越多的望遠鏡投入到巡天當(dāng)中,進而產(chǎn)生了大量的巡天數(shù)據(jù)。這些數(shù)據(jù)除了進行大樣本的天文學(xué)統(tǒng)計研究之外,其中必然會包含了分布相對較少的類型的天體目標(biāo)。天文學(xué)的一個重要目的是發(fā)現(xiàn)異常、稀少甚至于未知類型的天體目標(biāo),大量的巡天數(shù)據(jù)中可能就存在一些對天文學(xué)研究甚至整個自然科學(xué)的研究意義都非常重大的天體目標(biāo)。如何從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體目標(biāo),是本領(lǐng)域技術(shù)人員迫切需要解決的問題。


      【發(fā)明內(nèi)容】

      [0003]本發(fā)明一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法的技術(shù)任務(wù)是提供一種基于主成分分析、隨機采樣、局部稀疏度計算技術(shù)的稀少天體光譜搜尋方法,從而快速且有效的從大規(guī)模高維度巡天數(shù)據(jù)中自動挖掘稀少天體。
      [0004]本發(fā)明的技術(shù)任務(wù)是按以下方式實現(xiàn)的:
      一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,將光譜巡天數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、隨機采樣、局部稀疏度計算、篩選稀少光譜五個階段,挖掘稀少天體;
      (1)、數(shù)據(jù)預(yù)處理:對光譜巡天數(shù)據(jù)進行預(yù)處理操作,消除光譜間的不一致性,同時歸一化各條光譜巡天數(shù)據(jù);
      (2)、數(shù)據(jù)降維:對于后續(xù)步驟來說,光譜巡天數(shù)據(jù)的某些波長采樣點對應(yīng)的強度并不是必須的;同時過多的屬性導(dǎo)致高維空間中低密度甚至空洞的屬性空間,這使得后續(xù)光譜巡天數(shù)據(jù)的歸納及結(jié)果的產(chǎn)生變的相對困難,因此需要對光譜巡天數(shù)據(jù)在保證保持盡量多特征信息的情況下,進行數(shù)據(jù)降維,數(shù)據(jù)降維的目的是通過變換得到新特征空間數(shù)量相對較少的特征;
      (3)、隨機采樣:將光譜巡天數(shù)據(jù)使用隨機采樣得到一個小樣本;
      (4)、局部稀疏度計算:對采樣的小樣本光譜集計算稀疏度;稀疏度為樣本周圍的密度與其k鄰域內(nèi)樣本密度的比值,其中樣本密度為該樣本k鄰域的最大距離;在計算稀疏度時,首先要計算樣本的距離矩陣,得到每個樣本的k鄰域樣本,然后計算每個樣本密度,進而得到每個樣本的稀疏度;稀疏度表征了是該條光譜是特殊天體的可能性大小,數(shù)值越大是稀少天體的可能性越大;
      (5)、篩選稀少光譜:按樣本稀疏度排序所有光譜,篩選稀疏度最大的一定數(shù)量光譜作為稀少天梯候選體,再進行稀少天體分析。
      [0005]對光譜巡天數(shù)據(jù)進行預(yù)處理操作包括數(shù)據(jù)清理預(yù)處理操作、數(shù)據(jù)集成預(yù)處理操作、數(shù)據(jù)變換預(yù)處理操作、數(shù)據(jù)歸約預(yù)處理操作。
      [0006]結(jié)構(gòu)包括光譜巡天數(shù)據(jù)主成分分析、隨機采樣、局部稀疏度計算,采用主成分分析來降低樣本的維度,采用隨機采樣來降低計算的規(guī)模,采用局部稀疏度計算表征樣本的局部稀疏度。
      [0007]步驟(3)中,隨機采樣時采取完全隨機采樣或者采用加權(quán)采樣,采樣率較低的樣本權(quán)值高。
      [0008]步驟(4)中,距離采用歐氏距離或曼哈頓距離或余弦距離。
      [0009]步驟(4)中,計算稀疏度時,由于不同迭代之間不存在耦合性,因此可以采用并行迭代計算結(jié)構(gòu),通過多線程和多進程方式來加速非耦合迭代過程計算。
      [0010]本發(fā)明的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法具有以下優(yōu)點:充分考慮到光譜巡天數(shù)據(jù)的規(guī)模大及維度高的特點,主成分分析可在保證原始特征的情況下降低數(shù)據(jù)維度;隨機采樣可大大降低計算的規(guī)模解決大規(guī)模樣本計算的問題;采用局部稀疏度計算表征一條光譜在整個巡天樣本中的局部稀疏度;從而快速且有效的從大規(guī)模高維度巡天數(shù)據(jù)中自動挖掘稀少天體。

      【專利附圖】

      【附圖說明】
      [0011]下面結(jié)合附圖對本發(fā)明進一步說明。
      [0012]附圖1為一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法的流程圖。

      【具體實施方式】
      [0013]參照說明書附圖和具體實施例對本發(fā)明的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法作以下詳細地說明。
      [0014]實施例1:
      本發(fā)明的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,將光譜巡天數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、隨機采樣、局部稀疏度計算、篩選稀少光譜五個階段,挖掘稀少天體;
      (1)、數(shù)據(jù)預(yù)處理:對光譜巡天數(shù)據(jù)進行預(yù)處理操作,消除光譜間的不一致性,同時歸一化各條光譜巡天數(shù)據(jù);
      (2)、數(shù)據(jù)降維:對于后續(xù)步驟來說,光譜巡天數(shù)據(jù)的某些波長采樣點對應(yīng)的強度并不是必須的;同時過多的屬性導(dǎo)致高維空間中低密度甚至空洞的屬性空間,這使得后續(xù)光譜巡天數(shù)據(jù)的歸納及結(jié)果的產(chǎn)生變的相對困難,因此需要對光譜巡天數(shù)據(jù)在保證保持盡量多特征信息的情況下,進行數(shù)據(jù)降維,數(shù)據(jù)降維的目的是通過變換得到新特征空間數(shù)量相對較少的特征;
      (3)、隨機采樣:將光譜巡天數(shù)據(jù)使用隨機采樣得到一個小樣本;
      (4)、局部稀疏度計算:對采樣的小樣本光譜集計算稀疏度;稀疏度為樣本周圍的密度與其k鄰域內(nèi)樣本密度的比值,其中樣本密度為該樣本k鄰域的最大距離;在計算稀疏度時,首先要計算樣本的距離矩陣,得到每個樣本的k鄰域樣本,然后計算每個樣本密度,進而得到每個樣本的稀疏度;稀疏度表征了是該條光譜是特殊天體的可能性大小,數(shù)值越大是稀少天體的可能性越大;
      (5)、篩選稀少光譜:按樣本稀疏度排序所有光譜,篩選稀疏度最大的一定數(shù)量光譜作為稀少天梯候選體,再進行稀少天體分析。
      [0015]實施例2:
      本發(fā)明的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,將光譜巡天數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、隨機采樣、局部稀疏度計算、篩選稀少光譜五個階段,挖掘稀少天體;
      (1)、數(shù)據(jù)預(yù)處理:對光譜巡天數(shù)據(jù)進行預(yù)處理操作,消除光譜間的不一致性,同時歸一化各條光譜巡天數(shù)據(jù);
      (2)、數(shù)據(jù)降維:對于后續(xù)步驟來說,光譜巡天數(shù)據(jù)的某些波長采樣點對應(yīng)的強度并不是必須的;同時過多的屬性導(dǎo)致高維空間中低密度甚至空洞的屬性空間,這使得后續(xù)光譜巡天數(shù)據(jù)的歸納及結(jié)果的產(chǎn)生變的相對困難,因此需要對光譜巡天數(shù)據(jù)在保證保持盡量多特征信息的情況下,進行數(shù)據(jù)降維,數(shù)據(jù)降維的目的是通過變換得到新特征空間數(shù)量相對較少的特征;
      (3)、隨機采樣:將光譜巡天數(shù)據(jù)使用隨機采樣得到一個小樣本;
      (4)、局部稀疏度計算:對采樣的小樣本光譜集計算稀疏度;稀疏度為樣本周圍的密度與其k鄰域內(nèi)樣本密度的比值,其中樣本密度為該樣本k鄰域的最大距離;在計算稀疏度時,首先要計算樣本的距離矩陣,得到每個樣本的k鄰域樣本,然后計算每個樣本密度,進而得到每個樣本的稀疏度;稀疏度表征了是該條光譜是特殊天體的可能性大小,數(shù)值越大是稀少天體的可能性越大;
      (5)、篩選稀少光譜:按樣本稀疏度排序所有光譜,篩選稀疏度最大的一定數(shù)量光譜作為稀少天梯候選體,再進行稀少天體分析。
      [0016]對光譜巡天數(shù)據(jù)進行預(yù)處理操作包括數(shù)據(jù)清理預(yù)處理操作、數(shù)據(jù)集成預(yù)處理操作、數(shù)據(jù)變換預(yù)處理操作、數(shù)據(jù)歸約預(yù)處理操作。
      [0017]結(jié)構(gòu)包括光譜巡天數(shù)據(jù)主成分分析、隨機采樣、局部稀疏度計算,采用主成分分析來降低樣本的維度,采用隨機采樣來降低計算的規(guī)模,采用局部稀疏度計算表征樣本的局部稀疏度。
      [0018]步驟(3)中,隨機采樣時采取完全隨機采樣或者采用加權(quán)采樣,采樣率較低的樣本權(quán)值高。
      [0019]步驟(4)中,距離采用歐氏距離或曼哈頓距離或余弦距離。
      [0020]步驟(4)中,計算稀疏度時,由于不同迭代之間不存在耦合性,因此可以采用并行迭代計算結(jié)構(gòu),通過多線程和多進程方式來加速非耦合迭代過程計算。
      [0021]為保證流程的一致性及中間結(jié)果的可復(fù)用性,采取采用統(tǒng)一的開發(fā)編程語言來完成。使用的基本算法可以重新編寫,也可以采用現(xiàn)有程序包。本發(fā)明中多次使用距離度量。距離的定義是靈活的,可以采用歐氏距離、曼哈頓距離、余弦距離等??紤]到余弦距離計算時更簡單且快速,建議使用余弦距離。局部稀疏度表征了光譜稀少的可能性,數(shù)值越大,樣本是稀少天體的可能性越大,數(shù)值越小,樣本越不可能成為稀少天體。本發(fā)明方法定義了一種離群指數(shù)的定義及計算方法,實際實施時,可以此為基礎(chǔ)改進其定義方式及計算方法。
      [0022]通過上面【具體實施方式】,所述【技術(shù)領(lǐng)域】的技術(shù)人員可容易的實現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的2種【具體實施方式】。在公開的實施方式的基礎(chǔ)上,所述【技術(shù)領(lǐng)域】的技術(shù)人員可任意組合不同的技術(shù)特征,從而實現(xiàn)不同的技術(shù)方案。
      【權(quán)利要求】
      1.一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于將光譜巡天數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、隨機采樣、局部稀疏度計算、篩選稀少光譜五個階段,挖掘稀少天體; (丄)、數(shù)據(jù)預(yù)處理:對光譜巡天數(shù)據(jù)進行預(yù)處理操作,消除光譜間的不一致性,同時歸一化各條光譜巡天數(shù)據(jù); 口)、數(shù)據(jù)降維:對光譜巡天數(shù)據(jù)在保證保持盡量多特征信息的情況下,進行數(shù)據(jù)降維,數(shù)據(jù)降維的目的是通過變換得到新特征空間數(shù)量相對較少的特征; (3^隨機采樣:將光譜巡天數(shù)據(jù)使用隨機采樣得到一個小樣本; “)、局部稀疏度計算:對采樣的小樣本光譜集計算稀疏度;稀疏度為樣本周圍的密度與其&鄰域內(nèi)樣本密度的比值,其中樣本密度為該樣本&鄰域的最大距離;稀疏度表征了是該條光譜是特殊天體的可能性大小,數(shù)值越大是稀少天體的可能性越大; (5^篩選稀少光譜:按樣本稀疏度排序所有光譜,篩選稀疏度最大的一定數(shù)量光譜作為稀少天梯候選體,再進行稀少天體分析。
      2.根據(jù)權(quán)利要求1所述的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于對光譜巡天數(shù)據(jù)進行預(yù)處理操作包括數(shù)據(jù)清理預(yù)處理操作、數(shù)據(jù)集成預(yù)處理操作、數(shù)據(jù)變換預(yù)處理操作、數(shù)據(jù)歸約預(yù)處理操作。
      3.根據(jù)權(quán)利要求1所述的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于結(jié)構(gòu)包括光譜巡天數(shù)據(jù)主成分分析、隨機采樣、局部稀疏度計算,采用主成分分析來降低樣本的維度,采用隨機采樣來降低計算的規(guī)模,采用局部稀疏度計算表征樣本的局部稀疏度。
      4.根據(jù)權(quán)利要求1所述的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于步驟(3)中,隨機采樣時采取完全隨機采樣或者采用加權(quán)采樣,采樣率較低的樣本權(quán)值高。
      5.根據(jù)權(quán)利要求1所述的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于步驟(4)中,距離采用歐氏距離或曼哈頓距離或余弦距離。
      6.根據(jù)權(quán)利要求1所述的一種從大規(guī)模高維度光譜巡天數(shù)據(jù)中挖掘稀少天體的方法,其特征在于步驟(4)中,計算稀疏度時,采用并行迭代計算結(jié)構(gòu),通過多線程和多進程方式來加速非耦合迭代過程計算。
      【文檔編號】G06F17/30GK104391940SQ201410684026
      【公開日】2015年3月4日 申請日期:2014年11月25日 優(yōu)先權(quán)日:2014年11月25日
      【發(fā)明者】韋鵬, 付興旺, 吳楠 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1