国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種針對(duì)a+超分辨率技術(shù)的gpu加速方法

      文檔序號(hào):10513070閱讀:1816來源:國知局
      一種針對(duì)a+超分辨率技術(shù)的gpu加速方法
      【專利摘要】本發(fā)明公開一種針對(duì)A+超分辨率技術(shù)的GPU加速方法,所述A+超分辨率技術(shù)步驟包括bicubic插值、差分、收集差分特征、主成分分析、錨特征搜索匹配和回歸、低高頻特征疊加、高分辨率塊重疊映射回高分辨率圖像;所述方法將A+超分辨率技術(shù)上述的所有步驟并行化,并移植到GPU上運(yùn)行。進(jìn)一步的,通過調(diào)整圖像和特征數(shù)據(jù)存放格式以滿足GPU全局內(nèi)存的合并訪問、GPU內(nèi)核程序指令級(jí)優(yōu)化以達(dá)到盡可能快的GPU運(yùn)行速度、使用CPU/GPU聯(lián)合計(jì)算加快處理視頻的速度。本發(fā)明將一個(gè)高質(zhì)量的超分辨率技術(shù)加速到滿足視頻處理需要的速度,并且不會(huì)帶來任何圖像質(zhì)量損失。
      【專利說明】
      一種針對(duì)A+超分辨率技術(shù)的GPU加速方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及一種圖像超分辨率領(lǐng)域和GPU加速的方法,具體是一種針對(duì)深度學(xué)習(xí) A +超分辨率技術(shù)的GPU加速方法。
      【背景技術(shù)】
      [0002] 圖像超分辨率就是將一副低分辨率圖像轉(zhuǎn)換為高分辨率圖像,其在圖像后處理和 視頻非線性編輯中有著廣泛的應(yīng)用。早期的超分辨率技術(shù)(如bicubic)往往基于簡(jiǎn)單的插 值,可以快速可靠地工作,也易于芯片集成,但是這些技術(shù)得到的高分辨率圖像質(zhì)量不佳, 會(huì)產(chǎn)生顯著的人工痕跡,如環(huán)、混疊、模糊等效應(yīng)。如此質(zhì)量的超分辨率方法難以滿足當(dāng)前 高質(zhì)量視頻需求。當(dāng)前性能先進(jìn)的超分辨率方法能生成高質(zhì)量的圖像,但是伴隨著巨大的 計(jì)算開銷,難以滿足實(shí)際應(yīng)用需要。目前有一些GPU加速的超分辨率方法,這些方法達(dá)到了 足夠快的運(yùn)行速度,但是也犧牲了方法的運(yùn)行質(zhì)量。
      [0003] 發(fā)表于2014年亞洲計(jì)算機(jī)視覺會(huì)議的A+圖像超分辨率方法是一種性能領(lǐng)先的超 分辨率技術(shù)(R.Timofte,V.De Smet,and L.Van Gool.A+:Adjusted anchored neighborhood regression for fast super-resolution. In Proceedings of Asia Conference on Computer Vision,pp. 111-126,2014),它是業(yè)界圖像質(zhì)量最好的超分辨率 方法之一,同時(shí)相對(duì)其他方法有較低的計(jì)算復(fù)雜度。它的基本思路是:在訓(xùn)練階段,在數(shù)量 眾多的候選圖像塊樣本中挑選出最具有代表性的1024個(gè)錨點(diǎn)圖像特征以及其對(duì)應(yīng)的超分 辨率變換;在方法運(yùn)行階段,對(duì)每一個(gè)待超分辨率塊搜索匹配一個(gè)最臨近錨點(diǎn)圖像特征,然 后施加相應(yīng)的超分辨率變換。這種錨點(diǎn)搜索匹配再施加相應(yīng)變換的策略,使得整個(gè)超分辨 率方法針對(duì)性地作用于各種圖像塊,獲得了極佳的圖像質(zhì)量和較低的運(yùn)行復(fù)雜度。盡管如 此,A+超分辨率技術(shù)處理1920*1080到3840*2160的單通道超分辨率變換仍需要超過45秒/ 幀。為了使A+超分辨率技術(shù)能夠滿足實(shí)際應(yīng)用需要,需要采用全新的計(jì)算系統(tǒng)大幅加快A+ 超分辨率技術(shù)的處理過程。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明的目的在于針對(duì)現(xiàn)有的A+超分辨率技術(shù)運(yùn)行時(shí)間的不足,提供一種針對(duì)A+ 超分辨率技術(shù)的GPU加速方法,將A+超分辨率技術(shù)進(jìn)行并行化、利用GPU加速并充分優(yōu)化A+ 超分辨率技術(shù)的GHJ執(zhí)行過程,實(shí)現(xiàn)大幅加快A+超分辨率技術(shù)的處理速度。
      [0005] 本發(fā)明采用的技術(shù)方案是:
      [0006] -種針對(duì)A+超分辨率技術(shù)的GPU加速方法,其中:所述A+超分辨率技術(shù)步驟包括 bicubic插值、差分、收集差分特征、主成分分析、錨特征搜索匹配和回歸、低高頻特征疊加、 高分辨率塊重疊映射回高分辨率圖像;所述方法將A+超分辨率技術(shù)上述的所有步驟并行 化,并移植到GPU上運(yùn)行。
      [0007] 進(jìn)一步的,所述方法中:對(duì)于差分、高分辨率塊重疊映射回高分辨率圖像這兩個(gè)步 驟,按照輸出像素進(jìn)行任務(wù)劃分,計(jì)算任務(wù)被分割成數(shù)百萬個(gè)互不相關(guān)的微任務(wù)進(jìn)行并行 計(jì)算;對(duì)于收集差分特征、錨特征搜索匹配和回歸、低高頻特征疊加這三個(gè)步驟,按照輸出 特征進(jìn)行任務(wù)劃分,各個(gè)輸出特征可以被并行地計(jì)算,從而發(fā)揮GHJ超強(qiáng)的并行計(jì)算能力。
      [0008] 進(jìn)一步的,所述方法中:在并行化執(zhí)行中,如果對(duì)圖像數(shù)據(jù)格式不加約束,GPU每個(gè) 內(nèi)存訪問時(shí)鐘周期僅有一小部分位寬得到利用,GPU全局內(nèi)存帶寬將會(huì)大量浪費(fèi),嚴(yán)重降低 A+超分辨率技術(shù)執(zhí)行效率。為此,本發(fā)明調(diào)整了圖像和特征數(shù)據(jù)的存放方式。使得相鄰線程 總是同時(shí)訪問相鄰的數(shù)據(jù),即:相鄰圖像或特征同一參數(shù)的存放位置是相鄰的,使得訪問它 們的相鄰線程的每個(gè)指令總是訪問相鄰的數(shù)據(jù),達(dá)到完美的合并訪問。滿足合并訪問的請(qǐng) 求會(huì)被GHJ內(nèi)的硬件自動(dòng)合并,使得GPU帶寬得到最大利用。
      [0009] 進(jìn)一步的,所述方法:在并行化的錨特征搜索匹配和回歸步驟中,由于投影矩陣在 運(yùn)行前不確定,所以其無法合并訪問,每次全局內(nèi)存I/O只有一小部分得到使用。本發(fā)明提 出針對(duì)性的指令級(jí)并行技術(shù),在一個(gè)周期內(nèi)讀入多個(gè)待計(jì)算的數(shù)據(jù),然后進(jìn)行計(jì)算,從而增 大全局內(nèi)存I/O位寬利用率,可以更大化利用GPU全局內(nèi)存,加快執(zhí)行速度。
      [0010] 進(jìn)一步的,所述方法中:采用CPU/GPU聯(lián)合計(jì)算技術(shù),將GPU和CPU的計(jì)算資源結(jié)合 起來,在GPU計(jì)算Y通道的A+超分辨率的同時(shí),CPU的兩個(gè)線程也在分別計(jì)算U、V通道的 bicubic超分辨率,從而節(jié)省U、V通道產(chǎn)生的CPU/GPU數(shù)據(jù)傳輸開銷,降低視頻超分辨率執(zhí)行 時(shí)間。
      [0011] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下顯著優(yōu)勢(shì):
      [0012] 本發(fā)明將A+超分辨率技術(shù)并行化,可以利用GPU超強(qiáng)并行計(jì)算能力;并優(yōu)化圖像數(shù) 據(jù)格式使之實(shí)現(xiàn)完美的合并訪問,進(jìn)一步的,將錨特征回歸過程指令級(jí)并行化,從而充分利 用GHJ超強(qiáng)的并行計(jì)算能力,將A+超分辨率技術(shù)加速到實(shí)際生產(chǎn)應(yīng)用所需的速度;充分優(yōu)化 了 A+超分辨率過程的GPU執(zhí)行效率,并且進(jìn)一步利用了 CPU/GPU聯(lián)合計(jì)算,盡可能加速了整 個(gè)A+過程,最終將執(zhí)行速度從使用CPU的47秒/幀加速到GPU的0.16秒/幀。
      【附圖說明】
      [0013] 通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其他特征、 目的和優(yōu)點(diǎn)將會(huì)更加明顯:
      [0014] 圖1是A+超分辨率技術(shù)流程示意圖;
      [0015] 圖2是本發(fā)明一優(yōu)選實(shí)施例中按輸出特征進(jìn)行任務(wù)劃分并行化進(jìn)行收集特征示意 圖;
      [0016] 圖3是本發(fā)明一優(yōu)選實(shí)施例中錨特征搜索匹配與回歸的并行化示意圖;
      [0017] 圖4是本發(fā)明一優(yōu)選實(shí)施例中高分辨率塊重疊映射回高分辨率圖像的并行化示意 圖;
      [0018] 圖5是本發(fā)明一優(yōu)選實(shí)施例中合并訪問優(yōu)化示意圖;
      [0019] 圖6是本發(fā)明一優(yōu)選實(shí)施例中使用指令級(jí)并行示意圖;
      [0020] 圖7是本發(fā)明一優(yōu)選實(shí)施例中CPU/GPU聯(lián)合處理示意圖。
      【具體實(shí)施方式】
      [0021]下面結(jié)合具體實(shí)例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施將有助于本領(lǐng)域的技術(shù)人員 進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員 來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保 護(hù)范圍。
      [0022]針對(duì)現(xiàn)有的A+超分辨率技術(shù)運(yùn)行時(shí)間的不足,本發(fā)明將A+超分辨率技術(shù)進(jìn)行并行 化、利用GPU加速并充分優(yōu)化執(zhí)行過程。
      [0023]由于物理因素的制約,幾年來處理器的工作頻率無法大幅提升,計(jì)算機(jī)行業(yè)通過 增加處理器的核心數(shù)量提升計(jì)算能力,典型的產(chǎn)品有多核心中央處理器(CPU)和擁有眾多 核心的圖形處理器(GHJ)。其中GHJ擁有上千個(gè)計(jì)算單元和超高帶寬的顯存,例如Nvidia GTX 980TI擁有2816個(gè)CUDA核心和336GB/S的全局內(nèi)存帶寬。如果將一個(gè)大型計(jì)算任務(wù)分為 數(shù)萬乃至數(shù)百萬個(gè)微任務(wù),然后交給GPU處理的時(shí)候,GPU會(huì)將這些微任務(wù)調(diào)度分配給這些 CUDA核心,眾多的CUDA核心能夠并發(fā)地、高效地處理微任務(wù),從而使GPU執(zhí)行速度達(dá)到CPU的 數(shù)百倍。能夠利用GPU超強(qiáng)計(jì)算能力的前提是計(jì)算任務(wù)并行化,使GPU執(zhí)行數(shù)百萬個(gè)可并發(fā) 的微任務(wù)。
      [0024]如圖1所示,A+超分辨率技術(shù)的過程分解為7個(gè)步驟,包括bicubic預(yù)處理、差分、收 集差分特征、主成分分析、錨特征搜索與回歸、低高頻圖像塊相加、高分辨率圖像塊重疊映 射為最終高分辨率圖像。為了最大程度地加速A+超分辨率技術(shù),本發(fā)明將全部步驟都并行 化(bicubic插值的并行化、差分的并行化、收集差分特征的并行化、主成分分析的并行化、 錨特征搜索匹配和回歸的并行化、低高頻特征疊加的并行化、高分辨率塊重疊映射回高分 辨率圖像的并行化),并移植到GPU上運(yùn)行。本發(fā)明必須全部步驟并行化,否則未并行的部分 將成為整個(gè)系統(tǒng)的瓶頸,而且串行步驟和并行步驟的銜接會(huì)導(dǎo)致反復(fù)的CPU/GPU數(shù)據(jù)轉(zhuǎn)移 和時(shí)間開銷。
      [0025] 在一優(yōu)選的實(shí)施方式中,本發(fā)明對(duì)差分、收集差分特征、低高頻圖像塊相加的并行 化技術(shù)是相似的,計(jì)算任務(wù)被按照輸出特征(對(duì)收集差分特征、低高頻圖像塊而言)或輸出 像素(對(duì)差分而言)進(jìn)行任務(wù)劃分,分割成數(shù)萬個(gè)(對(duì)收集差分特征、低高頻圖像塊而言)或 數(shù)百萬個(gè)(對(duì)差分而言)微任務(wù)。每個(gè)微任務(wù)的計(jì)算被指配到一個(gè)線程上,GPU會(huì)自動(dòng)地調(diào)度 ⑶DA核心去處理這些微任務(wù)。由于這些微任務(wù)之間是沒有相互關(guān)聯(lián)和依賴的,因此它們可 以被并發(fā)地執(zhí)行,不需要相互通信,并且可以以任意次序運(yùn)行。
      [0026] 在一優(yōu)選的實(shí)施方式中,如圖2所示,是本發(fā)明實(shí)施例中收集特征的并行化的示意 圖,其按照輸出特征進(jìn)行任務(wù)劃分。一個(gè)單獨(dú)的線程負(fù)責(zé)計(jì)算一個(gè)輸出特征,它只需要讀對(duì) 應(yīng)區(qū)域的差分圖像數(shù)據(jù),然后形成輸出特征。并且應(yīng)該注意到,線程間對(duì)同一區(qū)域的讀操作 不會(huì)帶來競(jìng)態(tài),因此可以并發(fā)的執(zhí)行。
      [0027] 本發(fā)明中最重要的一個(gè)步驟:錨特征搜索匹配與回歸的并行化。具體的,在一優(yōu)選 的實(shí)施方式中,該步驟它包含三個(gè)部分:一次矩陣-矩陣乘法,對(duì)每個(gè)匹配特征中最大絕對(duì) 值搜索,每個(gè)特征右乘對(duì)應(yīng)的投影矩陣。矩陣-矩陣乘法的并行化是通過CUDAcuBLAS矩陣乘 法庫實(shí)現(xiàn)的。本發(fā)明將剩下的兩個(gè)部分按照特征進(jìn)行任務(wù)劃分,每個(gè)輸出特征的錨特征匹 配、回歸計(jì)算任務(wù)作為一個(gè)微任務(wù)分配給了一個(gè)線程,其并行化如圖3所示。每個(gè)線程從匹 配矩陣的對(duì)應(yīng)列中搜索絕對(duì)值最大的行下標(biāo)index,然后用該下標(biāo)index對(duì)應(yīng)的投影矩陣乘 以該低分辨率特征得到對(duì)應(yīng)的高頻圖像塊。
      [0028] 本發(fā)明設(shè)計(jì)了高分辨率塊重疊映射回高分辨率圖像的并行化。在傳統(tǒng)的塊疊加回 圖像的技術(shù)中,計(jì)算機(jī)創(chuàng)建兩個(gè)初始化為〇的圖像SR Image和權(quán)值weights。隨著輸入特征 的不斷處理,SR Image對(duì)應(yīng)區(qū)域產(chǎn)生累加,和weights也不斷更新。最后將SR Image除以 weights已得到最終結(jié)果。但是這種方法無法直接并行化,因?yàn)椴⑿刑幚淼奶卣骺赡芡瑫r(shí) 讀/寫SR Image和weights的同一區(qū)域,導(dǎo)致競(jìng)態(tài),產(chǎn)生錯(cuò)誤的運(yùn)行結(jié)果。在一優(yōu)選的實(shí)施方 式中,為了解決這個(gè)問題,本發(fā)明從輸出像素的角度去處理這個(gè)問題,如圖4所示。計(jì)算任務(wù) 按照輸出像素進(jìn)行任務(wù)劃分,從而使得該步驟能夠并行化。一個(gè)線程負(fù)責(zé)計(jì)算一個(gè)輸出像 素,首先它找出了該像素包含在哪些塊之中,然后在這些塊的對(duì)應(yīng)位置上獲取像素的值進(jìn) 行疊加和計(jì)數(shù),最后平均后得到計(jì)算結(jié)果。這種并行化方法在計(jì)算結(jié)果和串行方法一致的 前提下,避免了競(jìng)態(tài),從而可以在GPU上正確運(yùn)行。
      [0029] 對(duì)bicubic和主成分分析(PCA)的并行化方式是眾所周知的,本發(fā)明不再陳述。
      [0030] 如圖5所示,在一優(yōu)選的實(shí)施方式中,本發(fā)明通過調(diào)整GPU內(nèi)圖像和特征數(shù)據(jù)格式, 使得A+超分辨率過程中達(dá)到盡可能的全局內(nèi)存合并訪問,從而大幅加快其執(zhí)行速度。當(dāng)GPU 線程訪問全局內(nèi)存的時(shí)候,GPU硬件會(huì)自動(dòng)地將相鄰的訪問請(qǐng)求合并在一起,從而充分利用 顯存的位寬和帶寬。例如GTX980TI有384位的顯存位寬,可以同時(shí)存/取24個(gè)單精度浮點(diǎn)數(shù)。 只有在相鄰線程訪問相鄰全局內(nèi)存空間的時(shí)候合并訪問才能生效,否則每次存取只有很小 一部分位寬和帶寬起作用,大幅影響A+超分辨率技術(shù)的運(yùn)行速度。本發(fā)明精心調(diào)整了GPU內(nèi) 圖像和特征的數(shù)據(jù)格式,使之盡可能滿足GHJ合并訪問。在bicubic、差分、收集差分特征、主 成分分析、低高頻特征相加和高分辨率塊重疊映射回高分辨率圖像步驟中,全局內(nèi)存訪問 達(dá)到了完美的合并訪問;在錨特征搜索匹配與回歸的矩陣-矩陣乘法和最大絕對(duì)值搜索也 達(dá)到了完美的合并訪問,唯獨(dú)投影矩陣與低分辨率特征的乘法無法訪問,這是由于只有在 運(yùn)行時(shí)才能決定訪問哪一個(gè)投影矩陣,因此相鄰線程訪問的投影矩陣很可能不一樣,也就 無法合并訪問。
      [0031] 在一優(yōu)選的實(shí)施方式中,本發(fā)明通過對(duì)錨特征回歸中投影矩陣與低分辨率特征乘 法進(jìn)行指令級(jí)并行,達(dá)到了盡可能大的A+超分辨率技術(shù)加速。在未指令級(jí)并行的時(shí)候,線程 每次訪問投影矩陣數(shù)據(jù)會(huì)觸發(fā)一次全局內(nèi)存32字節(jié)的讀操作,其中只有4字節(jié)是有效的,其 余都被丟棄了,這意味著低全局內(nèi)存位寬和帶寬利用率。為了改善這個(gè)狀況,本發(fā)明調(diào)整了 指令和線程內(nèi)核中的數(shù)據(jù)訪問方式,使用fl〇at4數(shù)據(jù)結(jié)構(gòu)在一個(gè)周期內(nèi)一次讀入多個(gè)待計(jì) 算的數(shù)據(jù)(共16字節(jié)),之后再進(jìn)行計(jì)算,如圖6所示。通過指令級(jí)并行,投影矩陣與低分辨率 特征乘法以及A+整體速度大幅提升。
      [0032] 在一優(yōu)選的實(shí)施方式中,本發(fā)明采用CPU/GPU聯(lián)合計(jì)算技術(shù),將計(jì)算開銷小但CPU/ GPU I/0開銷大的步驟(U、V通道的bicubi c)保持在CPU內(nèi)執(zhí)行,使用CPU和GPU同時(shí)處理視頻 超分辨率任務(wù),如圖7所示。在對(duì)視頻進(jìn)行超分辨率時(shí),往往對(duì)Y通道采取高質(zhì)量的超分辨率 技術(shù),而對(duì)U、V通道采用較快的超分辨率技術(shù),因?yàn)閁、V通道的重要性和對(duì)質(zhì)量影響較小,而 且A+超分辨率技術(shù)本身是針對(duì)亮度信息而非色彩信息的。因此在超分辨率視頻時(shí),本發(fā)明 使用GPU處理Y通道的A+超分辨率,同時(shí)啟用兩個(gè)CPU線程處理U、V通道的bicubic超分辨率。 由于bicubic復(fù)雜度極低,因此CPU總是率先于GPU完成處理。
      [0033]綜上所述,本發(fā)明通過A+超分辨率技術(shù)全過程并行化,進(jìn)一步的調(diào)整GPU內(nèi)圖像和 特征數(shù)據(jù)格式滿足合并訪問、用于錨特征回歸的指令級(jí)并行化、CPU/GPU聯(lián)合計(jì)算技術(shù)將A+ 超分辨率技術(shù)的運(yùn)行速度加快了 295倍,同時(shí)保持了完全相同的運(yùn)行質(zhì)量。其各個(gè)步驟的運(yùn) 行速度和加速比如表1所示。
      [0034] 表1GPU對(duì)各個(gè)步驟的加速比
      [0036] 上表中:使用Nvidia GTX980TI和雙路Intel E5-2697V2@2.7GHz 12cores processers,測(cè)試1920*1080到3840*2160單通道超分辨率。
      [0037] 由以上實(shí)施例可以看出,本發(fā)明將A+超分辨率過程劃分為7個(gè)步驟,并行化每個(gè)步 驟以適配到GPU上,調(diào)整圖像和特征數(shù)據(jù)存放格式以滿足GPU全局內(nèi)存的合并訪問,GPU內(nèi)核 程序指令級(jí)優(yōu)化以達(dá)到盡可能快的GPU運(yùn)行速度,使用CPU/GPU聯(lián)合計(jì)算加快處理視頻的速 度。與現(xiàn)有技術(shù)相比,本發(fā)明將一個(gè)高質(zhì)量的超分辨率技術(shù)加速到滿足視頻處理需要的速 度,并且不會(huì)帶來任何圖像質(zhì)量損失。
      [0038] 以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述 特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影 響本發(fā)明的實(shí)質(zhì)內(nèi)容。
      【主權(quán)項(xiàng)】
      1. 一種針對(duì)A+超分辨率技術(shù)的GPU加速方法,所述A+超分辨率技術(shù)步驟包括bicubic插 值、差分、收集差分特征、主成分分析、錨特征搜索匹配和回歸、低高頻特征疊加、高分辨率 塊重疊映射回高分辨率圖像;其特征在于:所述方法將A+超分辨率技術(shù)上述的所有步驟并 行化,并移植到GHJ上運(yùn)行。2. 根據(jù)權(quán)利要求1所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于:所述方法 中: 對(duì)于差分、高分辨率塊重疊映射回高分辨率圖像這兩個(gè)步驟,按照輸出像素進(jìn)行任務(wù) 劃分,計(jì)算任務(wù)被分割成數(shù)百萬個(gè)互不相關(guān)的微任務(wù)進(jìn)行并行計(jì)算; 對(duì)于收集差分特征、錨特征搜索匹配和回歸、低高頻特征疊加這三個(gè)步驟,按照輸出特 征進(jìn)行任務(wù)劃分,各個(gè)輸出特征被并行地計(jì)算,從而發(fā)揮GPU超強(qiáng)的并行計(jì)算能力。3. 根據(jù)權(quán)利要求2所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于:所述按照 輸出像素進(jìn)行任務(wù)劃分,是指:一個(gè)線程負(fù)責(zé)計(jì)算一個(gè)輸出像素,首先它找出該像素包含在 哪些塊之中,然后在這些塊的對(duì)應(yīng)位置上獲取像素的值進(jìn)行疊加和計(jì)數(shù),最后平均后得到 計(jì)算結(jié)果。4. 根據(jù)權(quán)利要求1所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于:所述方法: 調(diào)整了圖像和特征數(shù)據(jù)的存放方式,使得相鄰線程總是同時(shí)訪問相鄰的數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于:相鄰圖像 或特征同一參數(shù)的存放位置是相鄰的,使得訪問它們的相鄰線程的每個(gè)指令總是訪問相鄰 的數(shù)據(jù),滿足合并訪問的請(qǐng)求會(huì)被GHJ內(nèi)的硬件自動(dòng)合并,使得GPU帶寬得到最大利用。6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于: 所述方法:在并行化的錨特征搜索匹配和回歸步驟中,采用指令級(jí)并行技術(shù),在一個(gè)周期內(nèi) 讀入多個(gè)待計(jì)算的數(shù)據(jù),然后進(jìn)行計(jì)算,從而增大全局內(nèi)存I/O位寬利用率。7. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的針對(duì)A+超分辨率技術(shù)的GPU加速方法,其特征在于: 所述方法:采用CPU/GPU聯(lián)合計(jì)算技術(shù),在GPU計(jì)算Y通道的A+超分辨率的同時(shí),CPU的兩個(gè)線 程也在分別計(jì)算U、V通道的bicubic超分辨率,從而節(jié)省U、V通道產(chǎn)生的CPU/GPU數(shù)據(jù)傳輸開 銷,降低視頻超分辨率執(zhí)行時(shí)間。
      【文檔編號(hào)】G06T1/20GK105869105SQ201610184146
      【公開日】2016年8月17日
      【申請(qǐng)日】2016年3月28日
      【發(fā)明人】宋利, 趙章宗
      【申請(qǐng)人】上海交通大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1