国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      快速無(wú)分支向量除法計(jì)算的制作方法

      文檔序號(hào):6596699閱讀:291來(lái)源:國(guó)知局
      專利名稱:快速無(wú)分支向量除法計(jì)算的制作方法
      技術(shù)領(lǐng)域
      本公開一般涉及計(jì)算的領(lǐng)域。更具體地說(shuō),本發(fā)明的一實(shí)施例一般涉及用于快速無(wú)分支向量除法計(jì)算的技木。
      背景技術(shù)
      與其它簡(jiǎn)單的算木運(yùn)算相比,用于除法運(yùn)算的硬件實(shí)現(xiàn)例如由于更大的等待時(shí)間而已經(jīng)很慢。由于現(xiàn)代架構(gòu)中各種并行性的存在(例如經(jīng)SMD (單指令多數(shù)據(jù))并行性、超標(biāo)量(superscalar)和失序運(yùn)行),在向量情況中能夠?qū)崿F(xiàn)一定加速。例如,通過進(jìn)ー步Newton-Raphson 改善(ref inement)迭代方 法(例如在 http: // en. wiKipedia. org/wiki/Newton%E2%80%93Raphson method所討論的),倒數(shù)近似一般對(duì)于單精度(SP)情況工作良好,在一些實(shí)現(xiàn)中在硬件除法運(yùn)算上提供高達(dá)兩倍的加速。然而,由于在當(dāng)前SSE架構(gòu)中缺少雙精度倒數(shù)運(yùn)算,此方案在雙精度(DP)方面失去了大部分其益處。因此,可能需要執(zhí)行附加的DP到SP和SP到DP轉(zhuǎn)換以及指數(shù)域操縱。此外,SP和DP的上述近似一般要求帶有無(wú)限(INF)或零值的分母的特殊處理,從而降低了并行性并降低了潛在的性能増益。


      參照附圖來(lái)提供詳細(xì)的描述。圖中,引用標(biāo)號(hào)最左的數(shù)字識(shí)別其中最先出現(xiàn)該引用標(biāo)號(hào)的圖。不同的圖中使用相同的引用標(biāo)號(hào)來(lái)指示類似或相同的項(xiàng)目。圖I示出根據(jù)本發(fā)明的一實(shí)施例的方法的流程圖。圖2A-2C示出可在一些實(shí)施例中使用的偽代碼段。圖3示出根據(jù)ー實(shí)施例的快速向量除法的框圖。圖4和5示出可用于實(shí)現(xiàn)本文中討論的一些實(shí)施例的計(jì)算系統(tǒng)的實(shí)施例的框圖。
      具體實(shí)施例方式在下面的描述中,為了提供各種實(shí)施例的詳盡理解而陳述了許多特定的細(xì)節(jié)。然而,實(shí)踐本發(fā)明的各種實(shí)施例可無(wú)需這些特定的細(xì)節(jié)。在其它情況中,公知的方法、過程、組件和電路未被詳細(xì)描述以免混淆本發(fā)明的具體實(shí)施例。此外,本發(fā)明的實(shí)施例的各種方面可使用各種部件來(lái)執(zhí)行,例如集成半導(dǎo)體電路(“硬件”)、組織到一個(gè)或多個(gè)程序(“軟件”)中的計(jì)算機(jī)可讀指令或硬件與軟件的某ー組合。為了本公開的目的,對(duì)“邏輯”的引用將表示硬件、軟件(包括例如控制處理器的操作的微代碼)或它們的某ー組合。說(shuō)明書中對(duì)“ー個(gè)實(shí)施例”或“ー實(shí)施例”的引用表示連同該實(shí)施例所述的具體特征、結(jié)構(gòu)或特性可被包括在至少ー個(gè)實(shí)現(xiàn)中。說(shuō)明書中各種位置中短語(yǔ)“在ー個(gè)實(shí)施例中”的出現(xiàn)可全部或可不全部指相同的實(shí)施例。此外,在說(shuō)明和權(quán)利要求中,可使用術(shù)語(yǔ)“耦合”和“連接”及其衍生詞。在本發(fā)明的一些實(shí)施例中,“連接”可用于指兩個(gè)或更多要素處于與彼此的直接物理或電接觸中?!榜詈稀笨芍竷蓚€(gè)或更多元素處于直接物理或電接觸中。然而,“耦合”也可指兩個(gè)或更多要素可不處于與彼此的直接接觸中,但仍可與彼此交互或合作。本文中討論的一些實(shí)施例可為雙精度除法/求倒數(shù)(inversion)向量計(jì)算提供改進(jìn)的性能,例如,不要求以前必需的分支或特殊動(dòng)作。向量除法計(jì)算可在SMD計(jì)算平臺(tái)上被執(zhí)行。通常,SMD是用于實(shí)現(xiàn)數(shù)據(jù)級(jí)并行性的技木。具體而言,根據(jù)單個(gè)指令,在SMD向量處理器(例如分別為圖4和5的處理器402和502/504)的多個(gè)對(duì)應(yīng)通道(lane)中可處理多個(gè)數(shù)據(jù)。在一些實(shí)現(xiàn)中,為幾個(gè)求倒數(shù)執(zhí)行僅一次除法運(yùn)算。用以下述內(nèi)容作為示例(由 I. I. Zavarzin、V. F. Kuryakin> V. V. Lunev> D. M. Obuvalin> V. G. Ryzhih在“Optimizatsiya Vychislenij Vektornyh Funktsyj” 中提議,見 VANT. ser.Matematicheskoe modelirovanie fizicheskin protsessov. 1997. Vol. 4(俄語(yǔ)雜志))
      權(quán)利要求
      1.一種方法,包括 縮放多個(gè)變?cè)陨啥鄠€(gè)對(duì)應(yīng)的縮放的變?cè)? 將所述多個(gè)縮放的變?cè)喑艘陨傻谝恢担? 求所述第一值的倒數(shù)以生成第二值;以及 基于所述第二值與所述多個(gè)縮放的變?cè)械囊粋€(gè)或多個(gè)變?cè)南喑藖?lái)重構(gòu)多個(gè)結(jié)果, 其中所述多個(gè)結(jié)果對(duì)應(yīng)于所述多個(gè)變?cè)那蟮箶?shù)的版本。
      2.如權(quán)利要求I所述的方法,其中通過更改所述第一值的指數(shù)部分的符號(hào)來(lái)執(zhí)行求所述第一值的倒數(shù)。
      3.如權(quán)利要求I所述的方法,還包括將所述多個(gè)變?cè)母↑c(diǎn)版本轉(zhuǎn)換成整數(shù)值。
      4.如權(quán)利要求I所述的方法,其中縮放所述多個(gè)變?cè)ò碔.O來(lái)縮放所述多個(gè)變
      5.如權(quán)利要求I所述的方法,還包括在存儲(chǔ)器中存儲(chǔ)生成的值。
      6.—種設(shè)備,包括 存儲(chǔ)器,存儲(chǔ)對(duì)應(yīng)于SIMD (單指令多數(shù)據(jù))指令的多個(gè)數(shù)據(jù)值;以及處理器,具有多個(gè)SMD通道,其中所述多個(gè)SMD通道的每個(gè)通道要根據(jù)所述SMD指令來(lái)處理所述存儲(chǔ)器中存儲(chǔ)的所述多個(gè)數(shù)據(jù)之一,其中所述處理器要 縮放所述多個(gè)數(shù)據(jù)值的第一值的指數(shù)部分和分?jǐn)?shù)部分以相應(yīng)地生成第二值和第三值; 求所述第二值和所述第三值的倒數(shù)以相應(yīng)地生成第四值和第五值;以及將所述第四值和所述第五值相乘以生成所述第一值的倒數(shù)版本,其中所述第二值要通過更改所述第一值的指數(shù)部分的符號(hào)來(lái)求倒數(shù)。
      7.如權(quán)利要求6所述的設(shè)備,其中所述處理器要確定所述第一值的所述指數(shù)部分和分?jǐn)?shù)部分。
      8.如權(quán)利要求6所述的設(shè)備,其中所述處理器要按I.O來(lái)縮放所述第一值的所述指數(shù)和分?jǐn)?shù)部分以生成所述第二和第三值。
      9.如權(quán)利要求6所述的設(shè)備,其中所述處理器要將所述多個(gè)數(shù)據(jù)值的浮點(diǎn)版本轉(zhuǎn)換成整數(shù)值。
      10.如權(quán)利要求6所述的設(shè)備,其中所述存儲(chǔ)器包括高速緩存。
      11.如權(quán)利要求6所述的設(shè)備,其中所述處理器包括一個(gè)或多個(gè)處理器核。
      12.如權(quán)利要求6所述的設(shè)備,其中所述處理器要促使生成的值在所述存儲(chǔ)器中的存儲(chǔ)。
      13.如權(quán)利要求6所述的設(shè)備,還包括顯示裝置以顯示所述第一值的倒數(shù)版本。
      14.一種包括一個(gè)或多個(gè)指令的計(jì)算機(jī)可讀媒體,所述指令在處理器上被運(yùn)行時(shí),將所述處理器配置成執(zhí)行一個(gè)或多個(gè)操作以 縮放多個(gè)變?cè)陨啥鄠€(gè)對(duì)應(yīng)的縮放的變?cè)? 將所述多個(gè)縮放的變?cè)喑艘陨傻谝恢担? 求所述第一值的倒數(shù)以生成第二值;以及 基于所述第二值與所述多個(gè)縮放的變?cè)械囊粋€(gè)或多個(gè)變?cè)南喑藖?lái)重構(gòu)多個(gè)結(jié)果。
      15.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,其中所述多個(gè)結(jié)果對(duì)應(yīng)于所述多個(gè)變?cè)那蟮箶?shù)的版本。
      16.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,還包括在處理器上被運(yùn)行時(shí)將所述處理器配置成通過更改所述第一值的指數(shù)部分的符號(hào)來(lái)求所述第一值的倒數(shù)的一個(gè)或多個(gè)指令。
      17.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,還包括在處理器上被運(yùn)行時(shí)將所述處理器配置成將所述多個(gè)變?cè)母↑c(diǎn)版本轉(zhuǎn)換成整數(shù)值的一個(gè)或多個(gè)指令。
      18.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,還包括在處理器上被運(yùn)行時(shí)將所述處理器配置成按I. O來(lái)縮放所述多個(gè)變?cè)囊粋€(gè)或多個(gè)指令。
      19.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,還包括在處理器上被運(yùn)行時(shí)將所述處理器配置成在存儲(chǔ)器中存儲(chǔ)生成的值的一個(gè)或多個(gè)指令。
      20.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒體,還包括在處理器上被運(yùn)行時(shí)將所述處理器配置成將所述多個(gè)變?cè)那蟮箶?shù)的指數(shù)部分和求倒數(shù)的分?jǐn)?shù)部分相乘的一個(gè)或多個(gè)指令。
      全文摘要
      本文描述了用于單指令多數(shù)據(jù)(SIMD)計(jì)算平臺(tái)上雙精度除法/求倒數(shù)向量計(jì)算的方法和設(shè)備。在一個(gè)實(shí)施例中,輸入變?cè)硎緸橹笖?shù)部分和分?jǐn)?shù)部分。對(duì)分?jǐn)?shù)部分進(jìn)行縮放、求倒數(shù)和相乘以生成輸入變?cè)牡箶?shù)版本。在一實(shí)施例中,指數(shù)部分的求倒數(shù)可通過更改指數(shù)的符號(hào)來(lái)完成。還描述了其它實(shí)施例。
      文檔編號(hào)G06F9/38GK102713835SQ200980163160
      公開日2012年10月3日 申請(qǐng)日期2009年12月25日 優(yōu)先權(quán)日2009年12月25日
      發(fā)明者A.I.科列索夫, M.V.古塞瓦, V.F.庫(kù)里亞金 申請(qǐng)人:英特爾公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1