專利名稱:用于位平面數(shù)據(jù)的高密度存儲(chǔ)和處理的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及位平面數(shù)據(jù)在圖像處理系統(tǒng)中,特別地,在SIMD陣 列體系結(jié)構(gòu)中的存儲(chǔ)。
背景技術(shù):
使用了最高并行度的并行處理體系結(jié)構(gòu)遵循單指令多數(shù)據(jù) (SIMD )方法并使用最簡單可行的處理單元(PE, processing element) 結(jié)構(gòu)l位運(yùn)算處理器。雖然各PE具有很低的處理吞吐量,但PE邏 輯的簡單性支持用非常大數(shù)目的PE來構(gòu)建處理器陣列。通過將這樣 大數(shù)目的PE結(jié)合到SIMD處理器陣列中來實(shí)現(xiàn)很高的處理吞吐量。
位串行SIMD體系結(jié)構(gòu)的 一種變體是連接各PE作為二維(2-d ) 網(wǎng),各PE與其在陣列中北、南、東和西緊鄰的4個(gè)相鄰單元進(jìn)行通 信。該二維結(jié)構(gòu)非常適于但不限于處理諸如圖像像素?cái)?shù)據(jù)的具有二維 結(jié)構(gòu)的數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明一方面提供了一種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括 處理單元陣列,具有第一數(shù)據(jù)存儲(chǔ)部件,適合于處理位平面數(shù)據(jù); 第二數(shù)據(jù)存儲(chǔ)部件,耦合到第一數(shù)據(jù)存儲(chǔ)部件,適合于存儲(chǔ)不需 要立即處理的位平面數(shù)據(jù);
主數(shù)據(jù)存儲(chǔ)部件和輔助數(shù)據(jù)存儲(chǔ)部件之間的數(shù)據(jù)路徑,所述數(shù)據(jù)
路徑寬于一個(gè)位行并窄于一個(gè)位平面。
另一方面,本發(fā)明提供了一種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括 處理單元陣列,具有第一存儲(chǔ)部件,適合于處理位平面數(shù)據(jù); 打包矩陣,耦合到處理單元陣列,所述打包矩陣包括寄存器陣列,適合于接收和存儲(chǔ)包含單個(gè)周期中的多個(gè)像素的數(shù)據(jù)字,并按光柵順 序單獨(dú)存儲(chǔ)來自數(shù)據(jù)字的像素。
再一個(gè)方面,本發(fā)明提供了一種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括 處理單元陣列,具有第一數(shù)據(jù)存儲(chǔ)部件,適合于處理位平面形式 的數(shù)據(jù);
打包矩陣,耦合到所述處理單元陣列,包括寄存器陣列,并適合 于按光柵順序單獨(dú)存儲(chǔ)像素?cái)?shù)據(jù),并生成每個(gè)包含與多個(gè)像素有關(guān)的 數(shù)據(jù)的數(shù)據(jù)字,并以每個(gè)數(shù)據(jù)字單個(gè)時(shí)鐘周期來傳遞所述數(shù)據(jù)字。
本發(fā)明實(shí)施例更詳細(xì)的不同方面和優(yōu)點(diǎn)將在以下說明中與附圖 一起被公開。
在附圖中
圖1為說明根據(jù)本發(fā)明的圖像處理系統(tǒng)的組件和數(shù)據(jù)路徑的示意圖。
圖2為說明典型處理單元體系結(jié)構(gòu)的示意圖。
圖3為PE陣列的圖解表示。
圖4為包含PE組陣列的PE陣列的圖解表示。
圖5為說明PE組的組件和數(shù)據(jù)路徑的示意圖。
圖6為示出主要組件和數(shù)據(jù)路徑的圖像處理系統(tǒng)的圖解表示。
圖7為包含打包的像素值的示例數(shù)據(jù)字的數(shù)據(jù)格式的圖解表示。
圖8為子幀輸入/輸出(i/o)和分頁處理的圖解表示。
圖9為列出頁存儲(chǔ)器實(shí)現(xiàn)的性能標(biāo)準(zhǔn)的圖解表示。
圖10為通過位行訪問使用分頁的典型圖像處理系統(tǒng)的圖解表示。
圖11為通過位行訪問使用分頁的典型圖像處理系統(tǒng)的圖解表示。
圖12為關(guān)于PEG陣列的頁單元的狀況的圖解表示。
圖13為示出存儲(chǔ)器組件和數(shù)據(jù)路徑的頁單元的圖示說明。
圖14為列出頁存儲(chǔ)器標(biāo)準(zhǔn)并提供示例方法的性能評定的圖示說明。圖15為示出頁單元的主要組件和數(shù)據(jù)路徑的示意圖。 圖16為頁存儲(chǔ)器內(nèi)位行數(shù)據(jù)的分布的圖解表示。 圖17為說明打包和旋轉(zhuǎn)矩陣以及穿過它們的數(shù)據(jù)流。 圖18為說明穿過打包矩陣的數(shù)據(jù)流的圖解表示。 圖19為說明在子幀輸入和子幀輸出期間打包矩陣中的數(shù)據(jù)存儲(chǔ) 的圖解表示。
圖20為說明在子幀輸入期間數(shù)據(jù)流出旋轉(zhuǎn)矩陣的圖解表示。 圖21為說明在子幀輸出期間數(shù)據(jù)流入旋轉(zhuǎn)矩陣的圖解表示。 圖22為列出IO數(shù)據(jù)總線信號的圖解表示。
圖23為示出主要組件、數(shù)據(jù)路徑和分布網(wǎng)絡(luò)延遲的simd陣列處 理器的圖解表示。
圖24為列出要求頁出2位(面)圖像的命令序列的圖解表示。 圖25為列出要求頁入2位(面)圖像的命令序列的圖解表示。
具體實(shí)施例方式
首先參照圖1來說明根據(jù)本發(fā)明的示例圖像處理系統(tǒng)100。在本 發(fā)明的該示例中,圖像處理系統(tǒng)100包括處理單元(PE)陣列20、多 個(gè)頁單元40、程序序列發(fā)生器30、 1/0控制器56、 1/0任務(wù)隊(duì)列58、 打包矩陣52和旋轉(zhuǎn)矩陣54。
用于這種典型SIMD陣列的各處理單元(PE)如圖2中所示, 包括PE存儲(chǔ)器ll、運(yùn)算和邏輯單元(ALU) 12以及寄存器NS14、 EW 15和C 16用于處理1位數(shù)據(jù)。ALU 12可以與全加法電路一樣簡 單,或者,在更詳細(xì)示例中,可以包括更高級的運(yùn)算能力。 一組寄存 器從PE存儲(chǔ)器11裝載像素?cái)?shù)據(jù)以由ALU 12處理。在該示例中,CM 17是提供像素?cái)?shù)據(jù)輸入和輸出的寄存器。
PE存儲(chǔ)器11對于每個(gè)PE實(shí)際上為l位寬,并且存儲(chǔ)像素?cái)?shù)據(jù) 以由PE處理。多位像素值由存儲(chǔ)在PE存儲(chǔ)器ll中的多個(gè)位來表示。 通過依次處理操作數(shù)像素的相應(yīng)位來執(zhí)行對多位操作數(shù)的操作。在 SIMD陣列的某些示例中,PE存儲(chǔ)器11為3端口,每周期執(zhí)行2次讀和1次寫。其它示例包括那些使用了其它多路訪問方法和那些提供
了每周期單次讀或?qū)懺L問的示例。在3端口示例中,l位操作步驟的 處理可以在單個(gè)周期中執(zhí)行,然而對其它方法,可能需要額外的周期 供PE存儲(chǔ)器訪問。
如圖3所示,陣列20包括若干M行和若干N列PE。像素號從 陣列西北角的0,0至東南角的M-1,N-1。 SIMD陣列的PE以4冊格圖案 連接,每個(gè)PE 10只與其最近的4個(gè)相鄰單元通信。PE至PE通信路 徑為1位寬和雙向。
在處理期間,陣列100的所有PE同時(shí)執(zhí)行每個(gè)操作步驟。陣列 的每個(gè)PE同時(shí)執(zhí)行操作數(shù)位的每次讀或?qū)憽⒃赑E寄存器之間位的每 次移動(dòng)、每個(gè)ALU輸出。描述該操作模式時(shí),共同地考慮相應(yīng)圖像 位是有用的。相應(yīng)圖像位的陣列尺寸的集合被稱為"位平面"。從(串 行)指令流的角度來看,SIMD陣列操作被建模為位平面操作。
陣列20中的每個(gè)指令包含指導(dǎo)流程或位平面處理的命令。單個(gè) 指令包含多個(gè)命令字段,包括一個(gè)用于每個(gè)寄存器源、 一個(gè)用于PE 存儲(chǔ)器ll寫端口、以及一個(gè)附加字段控制ALU12的處理。該方法為 陣列指令的傳統(tǒng)微指令實(shí)現(xiàn),提供用于單處理周期的陣列控制。
本發(fā)明 一 般來說涉及數(shù)據(jù)處理系統(tǒng)。貫穿本公開所給出的說明示 例涉及圖像像素?cái)?shù)據(jù)。應(yīng)該注意到,本發(fā)明的范圍并不限于像素?cái)?shù)據(jù) 和圖像處理,并且它適用于其它使用SIMD體系結(jié)構(gòu)的數(shù)字?jǐn)?shù)據(jù)處理 系統(tǒng)。
雖然對陣列數(shù)據(jù)的操作實(shí)際上是對像素?cái)?shù)據(jù)的操作,該數(shù)據(jù)被物 理存儲(chǔ)并關(guān)于位平面被處理。以像素形式提供給圖像處理系統(tǒng)100的 數(shù)據(jù)必須被轉(zhuǎn)換為位平面形式以便處理。
陣列20以被稱為"子幀"的陣列尺寸的段來處理圖像數(shù)據(jù)。在典 型情況下,待處理的圖像幀比陣列20的尺寸大得多。通過依次處理子 幀圖像段直到該圖像幀被完全處理,來實(shí)現(xiàn)圖像幀的處理。
也許關(guān)于SIMD陣列的最基礎(chǔ)的設(shè)計(jì)決策為PE存儲(chǔ)器的深度和 結(jié)構(gòu)。由于PE存儲(chǔ)器11包含圖像處理系統(tǒng)100邏輯的50-70%, PE
10存儲(chǔ)器11的深度在很大程度上決定了 SIMD陣列對于給定芯片空間 的可行尺寸。在圖像處理系統(tǒng)100的設(shè)計(jì)中,PE存儲(chǔ)器11的深度被 做得盡可能小,同時(shí)支持對預(yù)期應(yīng)用集的存儲(chǔ)器需求。
對最佳處理吞吐量,PE存儲(chǔ)器11被配置用于完全位平面訪問。 對于給定讀或?qū)懺L問,每個(gè)PE發(fā)送或接收單個(gè)位,使得整個(gè)帶寬為 完全位平面。在圖3的示例陣列中,這意味著MxN位(通常為幾千 或幾萬位)用于每個(gè)存儲(chǔ)器訪問。此外,PE存儲(chǔ)器11典型地為多路 訪問用于更大吞吐量。在以上3端口的示例中,可以在任何時(shí)鐘周期 內(nèi)進(jìn)行2次讀和1次寫。對該示例整個(gè)存儲(chǔ)器帶寬因此為3個(gè)位平面。
由于PE存儲(chǔ)器11典型地為多路訪問、非常寬、但為最小深度, 有可能它將為很低的密度。由于此,遵循了對SIMD陣列存儲(chǔ)器的兩 層方法。除PE存儲(chǔ)器11外,被稱為頁存儲(chǔ)器的第二存儲(chǔ)器提供了子 幀數(shù)據(jù)的存儲(chǔ)。該頁存儲(chǔ)器40為單端口,并可以與PE存儲(chǔ)器11不 同地分區(qū),提供密度高得多的數(shù)據(jù)存儲(chǔ)。
該頁存儲(chǔ)器40為當(dāng)前未被處理的子幀數(shù)據(jù)提供存儲(chǔ)。當(dāng)需要處 理數(shù)據(jù)時(shí),數(shù)據(jù)被從頁存儲(chǔ)器40移至PE存儲(chǔ)器110。當(dāng)數(shù)據(jù)不需要 立即被處理時(shí),數(shù)據(jù)被從PE存儲(chǔ)器IIO移至頁存儲(chǔ)器40。
頁存儲(chǔ)器40的第二用途是提供當(dāng)前正在PE陣列20和外部圖像 幀之間移動(dòng)的數(shù)據(jù)的存儲(chǔ)。既然頁存儲(chǔ)器40不用于處理,它可以用于 子幀輸入和輸出而不中斷處理。如圖8所示,從圖像幀中選擇子幀并 移動(dòng)到頁存儲(chǔ)器40中。子幀被從頁存儲(chǔ)器40移動(dòng)至PE存儲(chǔ)器110 用于處理。
使用頁存儲(chǔ)器40來提供與SIMD陣列處理并發(fā)的子幀輸入/輸出 對圖像處理系統(tǒng)IOO是非常有利的。子幀輸入/輸出時(shí)間線可以與處理 時(shí)間線的持續(xù)時(shí)間相似。如果未提供子幀輸入/輸出和處理的并發(fā)性, 則圖像處理系統(tǒng)100的性能在某些情況下幾乎被減少一半。
PE陣列20和頁存儲(chǔ)器40之間的數(shù)據(jù)的分頁在某些方面與子幀 輸入/輸出相似。根據(jù)頁存儲(chǔ)器40的結(jié)構(gòu)以及它與PE陣列20耦合的 方式,分頁可以是前臺(tái)SIMD陣列任務(wù),或者與SIMD陣列處理并發(fā)。分頁的并發(fā)性是一種性能優(yōu)勢,雖然其重要性小于子幀輸入/輸出的并 發(fā)性。
圖像處理系統(tǒng)100的頁存儲(chǔ)器40和子幀輸入/輸出支持邏輯的性 能可以通過幾個(gè)測量值來特征化,如圖9中所列舉的。
頁存儲(chǔ)器40的密度取決于所使用的存儲(chǔ)器的結(jié)構(gòu)及其關(guān)于PE 陣列20的分布。為了提供最大的存儲(chǔ)量同時(shí)使用最小的芯片空間,高 密度是很重要的。頁存儲(chǔ)器40的結(jié)構(gòu)和分布也將決定分頁的帶寬。高 分頁帶寬允許分頁以低等待時(shí)間進(jìn)行而獲得分頁數(shù)據(jù)。當(dāng)達(dá)到并發(fā)分 頁的程度時(shí),其在前臺(tái)處理上的成本被最小化。
吐量。更高的子幀輸入/輸出帶寬將支持更大的吞吐量以減少整;輸入 /輸出時(shí)間線。更高的子幀輸入/輸出帶寬也意味著獲得子幀的更低等 待時(shí)間。偶爾,前臺(tái)處理任務(wù)必須不可避免地等待子幀輸入/輸出,并 且這使得子幀輸入/輸出在這些情況下成為直接前臺(tái)成本。較不重要的 是并發(fā)子幀輸入/輸出在前臺(tái)任務(wù)上的成本以及分頁和子幀輸入/輸出 在彼此上的任何交叉成本。
將關(guān)于現(xiàn)有技術(shù)中的圖像處理系統(tǒng)所使用的兩種方法并且關(guān)于 示例實(shí)施例來討論以上性能測量。
對于某些早期的SIMD陣列處理器,沒有片上頁存儲(chǔ)器。這種存 儲(chǔ)器的一個(gè)示例由圖8說明。像素?cái)?shù)據(jù)被接收并在存儲(chǔ)于緩沖存儲(chǔ)器 中之前被轉(zhuǎn)換為位平面形式。子幀數(shù)據(jù)以位平面形式提供給PE陣列。 PE陣列處理數(shù)據(jù)并將結(jié)果發(fā)送給緩沖存儲(chǔ)器。處理結(jié)果被轉(zhuǎn)換為像素 形式以便輸出。
在子幀輸入期間,每個(gè)位平面經(jīng)由南陣列邊界移動(dòng)到PE陣列20 中。位平面以每周期一個(gè)位行的速率(即,1個(gè)位平面行)移動(dòng)至陣 列的CM寄存器平面中。 一旦整個(gè)位平面被接收,CM平面在單個(gè)周 期中被存儲(chǔ)到PE存儲(chǔ)器110。子幀輸出為逆過程。位平面從PE存儲(chǔ) 器110加栽至CM平面,然后經(jīng)由北邊界移出陣列并存儲(chǔ)在緩沖存儲(chǔ) 器中。因?yàn)榫彌_存儲(chǔ)器在該方法中是芯片外的,其深度基于系統(tǒng)需要是 可配置的。然而,分頁帶寬低至每周期l位行。在該系統(tǒng)中分頁需要
每位平面M個(gè)時(shí)鐘。分頁的前臺(tái)成本低至每平面l個(gè)時(shí)鐘(用于加載 或存儲(chǔ)CM平面)。根據(jù)緩沖存儲(chǔ)器的寬度,該系統(tǒng)的子幀輸入/輸出 帶寬與分頁帶寬相同。然而,除非緩沖存儲(chǔ)器為多路訪問,分頁和子 幀輸入/輸出彼此不能并發(fā),當(dāng)它們在時(shí)間行中沖突時(shí),在分頁和子幀 輸入/輸出之間產(chǎn)生交叉成本。
第二種方法提供了與PE陣列20同在芯片上的頁存儲(chǔ)器40。在 該方法中,頁存儲(chǔ)器40為與PE陣列20緊密集成的單端口存儲(chǔ)器。 PE陣列20對頁存儲(chǔ)器40的訪問為位平面寬度,這意味著,整個(gè)位平 面可以在單個(gè)周期內(nèi)在頁存儲(chǔ)器40和PE陣列20中的寄存器平面之 間加栽或存儲(chǔ)。
像素轉(zhuǎn)換邏輯也被包含在芯片上,允許與外部圖像幀的子幀輸入 /輸出為像素形式。在像素形式和位行形式之間轉(zhuǎn)換的任務(wù)由像素轉(zhuǎn)換 邏輯執(zhí)行。通過由像素轉(zhuǎn)換邏輯提供對頁存儲(chǔ)器40的位行訪問,來實(shí) 現(xiàn)從位行形成位平面。
該第二種方法具有高的分頁帶寬,即每周期l個(gè)位平面。分頁的 前臺(tái)成本也低至每位平面1個(gè)時(shí)鐘。然而,在該方法中,頁存儲(chǔ)器40 的密度較低是因?yàn)闃O限寬度(MAN位),以及因?yàn)轫摯鎯?chǔ)器40被構(gòu) 建成提供位行訪問,從而要求用于PE陣列20的每個(gè)位行的單獨(dú)讀/ 寫控制。
用于每個(gè)芯片的子幀輸入/輸出帶寬相當(dāng)?shù)?,受?2位像素寬度 的限制。(這可以通過在多芯片系統(tǒng)中提供對每個(gè)芯片的單獨(dú)輸入/ 輸出路徑來減輕。)由于子幀輸入/輸出邏輯對頁存儲(chǔ)器40的訪問與 PE陣列20無關(guān),子幀輸入/輸出沒有前臺(tái)成本。因?yàn)閷τ谧訋拿總€(gè) 位行都要求子幀輸入/輸出邏輯的單次訪問,子幀輸入/輸出和分頁之 間的交叉成本很高。這可以通過分頁的高帶寬以及通過調(diào)度分頁和輸 入/輸出操作使它們不沖突來減輕。
圖6顯示了一個(gè)示例圖像處理系統(tǒng)100。該圖像處理系統(tǒng)100包
13含程序序列發(fā)生器30單元,以向PE陣列20提供指令流。像素輸入/ 輸出單元50也被提供用于控制像素?cái)?shù)據(jù)移出和移入PE陣列20。共同 地,這些單元構(gòu)成圖像處理系統(tǒng)100。
該圖像處理系統(tǒng)100可以被用來在陣列尺寸的圖像段上執(zhí)行算 法。該處理器可以在集成電路器件上實(shí)現(xiàn),或者作為單個(gè)器件上的更 大系統(tǒng)的一部分。在每種實(shí)現(xiàn)中,該圖像處理系統(tǒng)100隸屬于這里被 稱為"Cpu"的系統(tǒng)控制處理器。圖像處理系統(tǒng)100和該Cpu之間的接 口提供用于由Cpu初始化和控制該示例圖像處理系統(tǒng)100。
像素輸入/輸出單元50提供控制用于經(jīng)由Img總線在PE陣列20 和外部存儲(chǔ)之間移動(dòng)像素?cái)?shù)據(jù)。與PE陣列20的計(jì)算并發(fā)地執(zhí)行像素 數(shù)據(jù)的移動(dòng),從而提供了更大吞吐量用于處理像素?cái)?shù)據(jù)。像素輸入/ 輸出單元50執(zhí)行圖像數(shù)據(jù)在像素形式和位平面形式之間的轉(zhuǎn)換。Img 總線數(shù)據(jù)為像素形式,并且PE陣列20數(shù)據(jù)為位平面形式,這些形式 之間的數(shù)據(jù)轉(zhuǎn)換作為輸入/輸出處理的一部分由像素輸入/輸出單元50 執(zhí)行。
示例PE陣列為分級實(shí)現(xiàn)的,PE被劃分為PE組(PEG)。每個(gè) PEG包括64個(gè)PE,表示8x8陣列段。48x64 PE陣列20因而由6行 PEG實(shí)現(xiàn),每行具有8個(gè)PEG。每個(gè)PEG與其相鄰的PEG耦合, 使得跨過PEG邊界來提供PE到PE的通信。該耦合是無縫的,使得 從位平面操作的觀點(diǎn)來看,PEG劃分不明顯。
示例PEG單元包括64位寬的多路訪問PE存儲(chǔ)器110。 PEG級 指令處理邏輯以及寄存器和計(jì)算邏輯組成了 64個(gè)PE。 PE存儲(chǔ)器llO 的每個(gè)位片(bitslice)與64個(gè)PE中的一個(gè)耦合,對每個(gè)PE提供了 有效的1位寬PE存儲(chǔ)器110。
除了與北、南、東和西相鄰單元通信,每個(gè)示例PEG包含8位 的輸入和輸出路徑,用于移動(dòng)像素?cái)?shù)據(jù)出入PE陣列20。 CM寄存器 平面提供了輸入和輸出期間的位平面數(shù)據(jù)的處理。數(shù)據(jù)以位平面的形 式^皮移動(dòng)出入PE陣列20。
在使用該圖像處理系統(tǒng)100的示例系統(tǒng)中,幀緩沖器600為圖像處理系統(tǒng)100外部的圖像數(shù)據(jù)提供存儲(chǔ)。幀緩沖器600經(jīng)由Img總線 接口與圖像處理系統(tǒng)100通信。為滿足帶寬要求,Img總線接口的寬 度為64位。
以64位多像素字來存儲(chǔ)像素?cái)?shù)據(jù),如圖7中所示。支持三種打 包格式每個(gè)字2個(gè)像素(30或32位像素?cái)?shù)據(jù)),每個(gè)字3個(gè)像素 (20位),以及每個(gè)字4個(gè)像素(16位)。以連續(xù)水平掃描順序打包 像素。在數(shù)據(jù)字內(nèi),更早的像素位于朝向該字的最高有效位端。像素 通過該字中的最低有效位端-位0定位,因而任何未使用的位在最高有 效位端。
在子幀數(shù)據(jù)輸入和輸出期間,數(shù)據(jù)字以水平掃描順序移動(dòng)。因此, 位于數(shù)據(jù)字最低有效位端的像素跟隨有圖像幀中的下 一 個(gè)像素,它朝 向序列中下一個(gè)數(shù)據(jù)字的最高有效位端被存儲(chǔ)。
每個(gè)子幀行的第 一數(shù)據(jù)字排列使得該子幀行的第 一像素為數(shù)據(jù) 字的第一像素。換句話說,子幀行不會(huì)在數(shù)據(jù)字的中間開始。這種排 列可以通過限制子幀邊界的間隔尺寸為2、 3或4個(gè)像素的倍數(shù)(取決 于像素打包)來實(shí)現(xiàn)?;蛘?,幀緩沖器接口邏輯可以執(zhí)行像素重打包 功能以保證每個(gè)子幀行的排列。
這里描述的像素打包方法是示例系統(tǒng)所遵循的方法。其它的像素 順序和存儲(chǔ)限制可以在所說明的整個(gè)數(shù)據(jù)處理方案的范圍內(nèi)被預(yù)期。
以前的頁存儲(chǔ)器方法存在一些缺點(diǎn)。以上說明的第一種方法(位 行分頁)提供了很高的數(shù)據(jù)存儲(chǔ)密度,但是很低的分頁帶寬,導(dǎo)致最 少利用頁存儲(chǔ)器用于臨時(shí)圖像數(shù)據(jù)存儲(chǔ)。第二種方法(位平面分頁) 提供了很高的分頁帶寬,導(dǎo)致為了臨時(shí)圖像數(shù)據(jù)存儲(chǔ)的異常功用。然 而,該方法具有低密度的缺點(diǎn),意味著必須犧牲PE密度到一定程度 以適應(yīng)頁存儲(chǔ)器。更少的PE意味著對給定芯片空間更低的性能。
本發(fā)明的實(shí)施例實(shí)現(xiàn)了頁存儲(chǔ)器40,它展現(xiàn)了可接受的高的分頁 帶寬,同時(shí)保持了數(shù)據(jù)存儲(chǔ)的高密度。在帶寬和密度的典型折衷中使 用了居中的方法,其中頁存儲(chǔ)器40的寬度實(shí)際上為1/8位平面。這是 位行方法的寬度的6倍,并且是位平面方法的寬度的1/8。在結(jié)果尺度,單端口存儲(chǔ)器單元的密度足夠高,使得從更窄數(shù)據(jù)寬度方法幾乎得不 到什么。
本發(fā)明的頁存儲(chǔ)器40在頁單元之間分布并被其支持,每個(gè)頁單 元200包含單個(gè)頁存儲(chǔ)器40。頁單元這樣分布使得PEG的每行由頁 單元200支持(見圖12)。每個(gè)頁存儲(chǔ)器40的寬度為l位行(64位), 并且以位行形式存儲(chǔ)和通信數(shù)據(jù)。
示例實(shí)施例的每個(gè)頁存儲(chǔ)器40為1024x64的單端口存儲(chǔ)器,容 納1024/8 = 128個(gè)位平面。位行數(shù)據(jù)這樣分布使得每個(gè)PEG包含(位 行)的8位片,對應(yīng)于陣列中的PEG的位置。在PEG和頁單元之間 移動(dòng)位平面需要對每個(gè)頁單元200 (以及PEG行)移動(dòng)8個(gè)位行。
段的8個(gè)位行,來執(zhí)行位平面的分頁。每個(gè)PEG使用CM平面,CM 平面移動(dòng)位平面數(shù)據(jù)出入PEG而不影響前臺(tái)計(jì)算。只有加載或存儲(chǔ) CM需要從前臺(tái)PE陣列20任務(wù)偷取一個(gè)周期。因此在該實(shí)施例中, 圖像的分頁僅需要每個(gè)位平面來自前臺(tái)任務(wù)的1個(gè)時(shí)鐘。然而等待時(shí) 間為每個(gè)位平面8個(gè)時(shí)鐘。
像素輸入/輸出單元50經(jīng)由公共的64位總線與6個(gè)頁單元進(jìn)行 通信。像素輸入/輸出單元50具有每時(shí)鐘1位行的吞吐量,并且在給 定周期內(nèi),僅從單個(gè)頁單元200移動(dòng)數(shù)據(jù)或移動(dòng)數(shù)據(jù)到單個(gè)頁單元 200。由于像素輸入/輸出單元50以子幀行為單位處理像素?cái)?shù)據(jù),數(shù)據(jù) 移動(dòng)的模式是從對應(yīng)于一子幀行位置的頁單元200移出或向其移入該 子幀行的所有位行,然后繼續(xù)移動(dòng)至下一個(gè)子幀行。
當(dāng)位行數(shù)據(jù)在頁單元200和像素輸入/輸出單元50之間移動(dòng)時(shí), 各頁單元200使用行緩沖器602來保存位行數(shù)據(jù)。像素輸入/輸出單元 50的數(shù)據(jù)移動(dòng)模式是到/從頁單元移動(dòng)一子幀行,然后到/從下一個(gè)頁 單元移動(dòng)一子幀行等等。這樣,頁單元行緩沖器在深度上只需要為1 個(gè)子幀行。這也允許數(shù)據(jù)在頁單元行緩沖器中被分級,使得所有頁單 元同時(shí)在其行緩沖器和頁存儲(chǔ)器40之間轉(zhuǎn)移數(shù)據(jù)。這保證了頁存儲(chǔ)器 40僅在可能的最高帶寬(即1/8平面)被訪問。由于像素輸入/輸出單元50依次尋址頁單元,子幀行移動(dòng)的模式 是在圖像的像素行之間以8為間隔跳過。這樣,例如,像素行0到第 一頁單元的移動(dòng)將跟隨有像素行8到第二頁單元的移動(dòng),等等。這種 數(shù)據(jù)移動(dòng)的模式是必需的,以便限制行緩沖器的深度為單個(gè)子幀行, 并且在行緩沖器和頁存儲(chǔ)器40之間對所有頁單元提供同時(shí)的數(shù)據(jù)轉(zhuǎn) 移。
行緩沖器的使用也允許頁存儲(chǔ)器40可以在未發(fā)生任何行緩沖器 和頁存儲(chǔ)器40之間的轉(zhuǎn)移的任何時(shí)候,分頁數(shù)據(jù)進(jìn)入/出自PE陣列 20。不論像素尺寸是多少(16、 20或32位),與像素輸入/輸出單元 50移動(dòng)單個(gè)子幀行所需的時(shí)間同時(shí)執(zhí)行1/8子幀圖像的轉(zhuǎn)移(即每 PEG行1個(gè)子幀行)。因此可以看出,在示例實(shí)施例中,活動(dòng)子幀輸 入/輸出任務(wù)只要求全部時(shí)間的1/6來訪問頁存儲(chǔ)器40。
總之,這里通過本發(fā)明實(shí)施例的示例給出的頁存儲(chǔ)器的實(shí)現(xiàn)允許 頁存儲(chǔ)器40具有雖然不是最高但較高的密度。分頁帶寬為可接受的 高,提供了相當(dāng)?shù)偷牡却龝r(shí)間的分頁。當(dāng)達(dá)到并發(fā)分頁可行的程度時(shí), 分頁的前臺(tái)成本很低。并且,通過使用行緩沖器,分頁和子幀輸入/ 輸出之間的交叉成本保持較低。
頁存儲(chǔ)器方法的比較顯示出,本發(fā)明的實(shí)施例提供了高的頁存儲(chǔ) 器密度。雖然不如所說明的第一個(gè)方法(位行方法)的高,它比所說 明的第二個(gè)方法(位平面方法)的高得多。子幀輸入/輸出帶寬和前臺(tái)
成本對3個(gè)方法而言相似。本發(fā)明的分頁帶寬比位行方法的更好,但 是不如位平面方法。這可以通過分頁的并發(fā)使得當(dāng)使用并發(fā)時(shí)分頁的 前臺(tái)成本與位平面方法的 一樣來減輕。(這在表中顯示了從"很低"到 "低,,的降級,由于并發(fā)并不總是可行的。)最后,由于行緩沖器,分
種更低。' '、 、,,, 、 、 、''、
包含PE陣列20的PEG的每行由頁單元200來支持。頁單元200 包含頁存儲(chǔ)器400、輸入FIFO 43、輸出FIFO 42 (以上^皮稱為"行緩 沖器,,)以及控制器41。示例頁單元200內(nèi)的所有數(shù)據(jù)路徑寬度為64
17位,與PE陣列20的寬度匹配。頁單元200的結(jié)構(gòu)圖示于圖15中。
由頁單元200處理的所有數(shù)據(jù)為位行形式。即,每個(gè)64位字表 示包含圖像子幀內(nèi)的像素行的64個(gè)像素的每一個(gè)的相應(yīng)位。(例如, 像素行的所有位O共同形成位行。)數(shù)據(jù)以位行形式存儲(chǔ)在頁存儲(chǔ)器 400中。頁單元200和PE陣列20之間的CM數(shù)據(jù)流是位行形式,并 且頁單元200和像素輸入/輸出單元50之間的IO數(shù)據(jù)流是位行形式。 示例頁存儲(chǔ)器400為圖像數(shù)據(jù)的128個(gè)位平面提供存儲(chǔ)。由于 PEG單元為8x8的,每個(gè)PEG行的8個(gè)位行構(gòu)成一個(gè)位平面。因此 示例頁存儲(chǔ)器400為lkx64。
位平面數(shù)據(jù)的存儲(chǔ)示于圖16中。每個(gè)位平面的8個(gè)位行以行順 序被連續(xù)存儲(chǔ)(從北至南編號)。以8位行的塊存儲(chǔ)每個(gè)示例頁存儲(chǔ) 器位平面0至127,從位平面數(shù)目的8倍的頁存儲(chǔ)器400地址開始。
頁存儲(chǔ)器子幀圖像包含一些存儲(chǔ)在頁存儲(chǔ)器40中的位平面。在 該示例實(shí)現(xiàn)中,包含圖像的位平面被強(qiáng)制形成鄰近的位平面塊。通過 該實(shí)現(xiàn),子幀圖像可以由地址屬性和尺寸屬性來表示。地址屬性指出 以位平面為單位的子幀圖像的起始地址。尺寸屬性指出包含圖像的位 平面的數(shù)目。另外,非鄰近的實(shí)現(xiàn)可以被預(yù)期用來存儲(chǔ)頁存儲(chǔ)器圖像。 示例PE陣列20使用已知為CM 17的寄存器平面。來自PE陣 列20的輸入數(shù)據(jù)的數(shù)據(jù)路徑因此一皮標(biāo)記為Cm—datajn,如圖15中所 示。相似地,到PE陣列20的輸出數(shù)據(jù)的數(shù)據(jù)路徑被標(biāo)記為 Cm—data—out。在示例PE陣列20中,這些數(shù)據(jù)路徑與分布網(wǎng)絡(luò)(Pipe Odat等)耦合,允許數(shù)據(jù)分階段分布到陣列和來自陣列。
示例PE陣列20在輸入期間以南至北的方向并且在輸出期間以 北至南的方向執(zhí)行CM移動(dòng)。因此,頁入需要按位行順序?qū)⒚總€(gè)位 平面移動(dòng)到PE陣列20中,對每個(gè)位行頁存儲(chǔ)器地址加1。這種排序 導(dǎo)致編號更低的位行朝向北PEG邊界。頁出需要以相反行順序從PE 陣列20移出每個(gè)位平面。該相反排序由頁單元200內(nèi)的控制塊的地 址生成來適應(yīng),使得位行以合適的順序存儲(chǔ)在頁存儲(chǔ)器400中。
一 600之間子幀數(shù)據(jù)的輸入和輸出。在打包的像素形式和位行形式之間的數(shù)
據(jù)轉(zhuǎn)換由像素輸入/輸出單元50在子幀輸入/輸出期間執(zhí)行。像素輸入 /輸出單元50以64像素子幀行為單位移動(dòng)和轉(zhuǎn)換數(shù)據(jù)。
每個(gè)示例頁單元200提供輸入FIFO 43和輸出FIFO 42來發(fā)送和 接收數(shù)據(jù)到和來自像素輸入/輸出單元50。該實(shí)施例僅是示例。其它方 法可能通過合適的控制邏輯,包括使用單個(gè)雙向FIFO (雙FIFO)或 者單個(gè)雙端口存儲(chǔ)器。輸入和輸出FIFO每個(gè)都能夠存儲(chǔ)單個(gè)子幀像 素行。數(shù)據(jù)可以經(jīng)由64位的IO—data—in和IO—data—out信號路徑, 如圖15中所示在像素輸入/輸出單元50和頁單元200之間移動(dòng)。
像素行包含共同地表征像素子幀行數(shù)據(jù)的位行。例如如果像素為 20位,則像素行由20個(gè)位行表征。示例實(shí)施例支持16、 20和32位 4象素?cái)?shù)據(jù)的輸入和輸出。輸入和輸出FIFO因此深32寬64,以容納 最大像素尺寸(32位)。像素行按位順序從最低有效位行(0)移動(dòng) 至最高有效位行(尺寸1)。輸入和輸出任務(wù)都遵循該位行移動(dòng)的順 序。
在子幀輸入/輸出期間,頁存儲(chǔ)器400訪問的順序?yàn)橄袼匦袃?nèi)的 連續(xù)位行。給定像素行將為相應(yīng)PEG行表征0至7行中的一個(gè)。給定 行內(nèi)的連續(xù)位行如圖15中所示,相互偏移8個(gè)頁存儲(chǔ)器地址存儲(chǔ)。用 于訪問像素行的頁存儲(chǔ)器地址模式因此從起始地址加上8,由地址*8 +行給出(其中,地址為用于子幀圖像的頁存儲(chǔ)器地址屬性,并且行 為表征PEG行內(nèi)的像素行位置的行0至7)。
示例圖像處理系統(tǒng)100包含帶有6個(gè)相應(yīng)頁單元的6個(gè)PEG行。 在子幀輸入期間,像素行經(jīng)由像素輸入/輸出單元50被依次移動(dòng)至頁 單元,直到每個(gè)頁單元200已接收到像素行。數(shù)據(jù)移動(dòng)的模式是將像 素行的所有位行移動(dòng)至頁單元,然后依次開始用于下一個(gè)頁單元的數(shù) 據(jù)移動(dòng)。以每時(shí)鐘l位行的速度移動(dòng)數(shù)據(jù)。
一旦所有頁單元已接收了位行,用于每個(gè)頁單元200的輸入FIFO 43包含數(shù)據(jù)的子幀行,并且開始從輸入FIFO 43到頁存儲(chǔ)器400的數(shù) 據(jù)轉(zhuǎn)移。該轉(zhuǎn)移由所有頁單元同時(shí)執(zhí)行并每位行需要1個(gè)時(shí)鐘。因?yàn)樗袉卧瑫r(shí)執(zhí)行移動(dòng),轉(zhuǎn)移花費(fèi)填充所有6個(gè)頁單元輸入FIFO所 需時(shí)間的1/6。在轉(zhuǎn)移期間,子幀輸入繼續(xù),填充第一頁單元200的輸 入FIFO 43,同時(shí)該轉(zhuǎn)移處理清空它。
在示例實(shí)施例中,確定轉(zhuǎn)移何時(shí)開始的機(jī)制包含在每個(gè)頁單元 200中。所有頁單元追蹤像素行輸入的過程,并且當(dāng)每6個(gè)像素行輸 入完成時(shí),所有頁單元開始轉(zhuǎn)移。其它實(shí)施例可以提供外部控制以觸 發(fā)所有頁單元的轉(zhuǎn)移。
在從輸入FIFO 43到頁存儲(chǔ)器400的轉(zhuǎn)移期間,禁止分頁任務(wù)訪 問頁存儲(chǔ)器400。當(dāng)沒有轉(zhuǎn)移發(fā)生的任何時(shí)候,允許分頁任務(wù)訪問頁 存儲(chǔ)器400。可以看出在示例實(shí)施例中,分頁任務(wù)可以在子幀輸入期 間以大約全速的5/6運(yùn)行。
對子幀輸出執(zhí)行相似的數(shù)據(jù)移動(dòng)模式。對于輸出,首先開始從頁 存儲(chǔ)器400到輸出FIF0 42的轉(zhuǎn)移,然后執(zhí)行從每個(gè)頁單元200依次 移動(dòng)像素行至像素輸入/輸出單元50。在頁存儲(chǔ)器400到輸出FIFO 42 的轉(zhuǎn)移期間再次禁止分頁任務(wù)??梢栽跊]有轉(zhuǎn)移發(fā)生的任何時(shí)候進(jìn)行 分頁任務(wù),使得分頁任務(wù)在子幀輸出期間以大約全速的5/6運(yùn)行。在 第一次轉(zhuǎn)移之后,接下來的轉(zhuǎn)移可以在子幀輸出期間對第6頁單元200 執(zhí)行。
頁單元200內(nèi)的子幀輸入/輸出和分頁任務(wù)的控制由頁單元控制 器210來提供??刂七壿嫲顟B(tài)邏輯以表征正在進(jìn)行的子幀輸入/ 輸出和分頁任務(wù)。子幀輸入/輸出和分頁任務(wù)可以同時(shí)進(jìn)行,雖然它們 訪問頁存儲(chǔ)器400可能不 一致。
子幀輸入/輸出任務(wù)由從像素輸入/輸出單元50接收到io_cmd字 來初始化。頁單元200狀態(tài)邏輯追蹤子幀輸入/輸出任務(wù)的狀態(tài),并提 供對頁存儲(chǔ)器400的地址生成。數(shù)據(jù)移動(dòng)的時(shí)鐘到時(shí)鐘控制由像素輸 入/輸出單元50給出的IO rd en和IO wr en讀和寫控制來提供。
分頁任務(wù)由從程序序列發(fā)生器30接收到Inst—in和Wadr—in來 初始化。頁單元200狀態(tài)邏輯追蹤分頁輸入/輸出任務(wù)的狀態(tài),并為頁 存儲(chǔ)器400提供地址生成。數(shù)據(jù)移動(dòng)的時(shí)鐘到時(shí)鐘控制由控制離散(discrete)經(jīng)由Pipe Inst分布網(wǎng)絡(luò)來提供。
雖然分頁和子幀輸入/輸出任務(wù)可以同時(shí)進(jìn)行,頁存儲(chǔ)器400可 以在給定時(shí)鐘周期期間只由 一個(gè)任務(wù)訪問。保證頁存儲(chǔ)器訪問不沖突 的機(jī)制在示例實(shí)施例中已在頁單元200的外部實(shí)現(xiàn)。該外部機(jī)制為在 本說明書其它位置討論的Pg_Inh (頁禁止)控制離散。特別地,在頁 單元200在頁存儲(chǔ)器400和輸入或輸出FIFO之間轉(zhuǎn)移數(shù)據(jù)期間,正 在進(jìn)行的分頁任務(wù)對頁存儲(chǔ)器400的訪問被暫停。通過禁止來自Pipe Inst分布網(wǎng)絡(luò)的時(shí)鐘到時(shí)鐘分頁控制離散,來實(shí)現(xiàn)該分頁任務(wù)的暫停。
像素輸入/輸出單元50提供了子幀數(shù)據(jù)在Simd Core和幀緩沖器 600之間的輸入和輸出。像素輸入/輸出單元50響應(yīng)由程序序列發(fā)生器 30啟動(dòng)的輸入/輸出任務(wù),并控制在Img總線和頁單元之間的數(shù)據(jù)移 動(dòng)。Img總線上的子幀數(shù)據(jù)為打包的像素形式,但在PE陣列接口, 數(shù)據(jù)為位行形式。子幀數(shù)據(jù)在這兩種格式之間的轉(zhuǎn)換為像素輸入/輸出 單元50的主要功能。子幀輸入/輸出獨(dú)立于陣列操作并因此可以并發(fā) 地執(zhí)行。
在圖像處理系統(tǒng)100的示例中,子幀輸入和輸出任務(wù)由程序序列 發(fā)生器30分派給像素輸入/輸出單元50中深度為8的輸入/輸出任務(wù) 隊(duì)列58,如圖1中所示。像素輸入/輸出單元50從輸入/輸出任務(wù)隊(duì)列 58中移除輸入和/或輸出任務(wù)并依次處理每一個(gè)。
子幀數(shù)據(jù)在打包的像素形式和位行形式之間分兩步轉(zhuǎn)換。第一步 是在打包矩陣52中執(zhí)行的打包和拆包。第二步是在旋轉(zhuǎn)矩陣54中執(zhí) 行的拐角旋轉(zhuǎn)。
像素輸入/輸出單元50處理以子幀行為單位的數(shù)據(jù)。當(dāng)打包矩陣 52填充子幀行時(shí),旋轉(zhuǎn)矩陣54被清空(反之亦然)。當(dāng)兩個(gè)矩陣都 準(zhǔn)備好時(shí),發(fā)生子幀行從一個(gè)到另一個(gè)的移交。由于該轉(zhuǎn)換的流水線 特性,在像素輸入/輸出單元50中有1個(gè)子幀行的等待時(shí)間。(對具 有同樣入/出方向的連續(xù)輸入/輸出任務(wù),該流水線在從一個(gè)任務(wù)到下 一個(gè)的轉(zhuǎn)換期間保持滿,以避免對填充該管道的懲罰)。
數(shù)據(jù)在像素輸入/輸出單元50和PE陣列20之間經(jīng)由IO—data—in和IO_data_out信號路徑以位行形式移動(dòng)。(子幀數(shù)據(jù)同樣以位行形 式被頁入和頁出頁存儲(chǔ)器40。子幀數(shù)據(jù)只在PE陣列中按照整個(gè)位平 面被存儲(chǔ)和操作。)
頁單元具有發(fā)送和接收位行數(shù)據(jù)的FIFO。周期地在這些FIFO 和頁存儲(chǔ)器400自身之間轉(zhuǎn)移位行數(shù)據(jù)。在這些轉(zhuǎn)移期間,任何分頁 操作被禁止是必需的。像素輸入/輸出單元50計(jì)算合適的間隔,并產(chǎn) 生Pg—Inh信號以禁止程序序列發(fā)生器30在該間隔期間產(chǎn)生分頁指 令。
在頁單元和外部幀緩沖器600之間經(jīng)由Img總線的輸入和輸出的 數(shù)據(jù)流由圖17說明。
打包矩陣52提供了 64位幀緩沖器字(打包的像素)和像素形式 之間的數(shù)據(jù)打包和拆包。在子幀輸入期間數(shù)據(jù)從Img總線流入打包矩 陣52,并在子幀輸出期間流出打包矩陣52至Img總線。
旋轉(zhuǎn)矩陣54提供數(shù)據(jù)在像素形式和位行形式之間的拐角旋轉(zhuǎn)。 在子幀輸出期間數(shù)據(jù)經(jīng)由IO_Data—in流入旋轉(zhuǎn)矩陣54,并在子幀輸 入期間流出旋轉(zhuǎn)矩陣54到IO—Data—out。
數(shù)據(jù)在打包矩陣52和旋轉(zhuǎn)矩陣54之間一起被轉(zhuǎn)移。對于子幀輸 入,2048個(gè)打包矩陣52位在單個(gè)周期內(nèi)被轉(zhuǎn)移至旋轉(zhuǎn)矩陣54。對于 子幀輸出,2048個(gè)旋轉(zhuǎn)矩陣54位在單個(gè)周期內(nèi)被轉(zhuǎn)移至打包矩陣52。
幀緩沖器字?jǐn)?shù)據(jù)的打包和拆包由打包矩陣52執(zhí)行。打包矩陣52 為如圖18中所示的64x32的寄存器陣列。打包矩陣52的64列每個(gè)包 含一個(gè)像素,根據(jù)像素尺寸(即打包)使用16、 20或全部的32位。 像素?cái)?shù)據(jù)與每列的底部(lsb邊)對準(zhǔn)用于子幀輸入,但與各列的頂部 (msb邊)對準(zhǔn)用于子幀輸出(見圖19)。(該差別的原因?qū)⑦B同旋 轉(zhuǎn)矩陣操作被解釋。)
像素?cái)?shù)據(jù)以一次一個(gè)幀緩沖器字被移動(dòng)到打包矩陣52和從打包 矩陣52移出。根據(jù)打包, 一次2、 3或4個(gè)像素被移進(jìn)或移出矩陣。 矩陣因此對每個(gè)輸入或輸出周期以2、 3或4移動(dòng)其所有數(shù)據(jù)。
對子幀輸入,由于從Img總線讀出每個(gè)幀緩沖器字,像素取自幀緩沖器字并被寫入到相應(yīng)的矩陣列。幀緩沖器字中的最低像素被寫入
列0,下一個(gè)更高的像素被寫入列1,等等。這使幀緩沖器字中的像素 順序(msb至lsb的順序)與矩陣中的順序(高列至低列)匹配。
對子幀輸出,像素從矩陣被讀出并被用來形成幀緩沖器字以寫到 Img總線。再次,最高列(63)提供幀緩沖器字中的最高放置像素, 下一列提供了下一個(gè)像素等等。
像素?cái)?shù)據(jù)的每個(gè)子幀行被對準(zhǔn),使得該行的第一個(gè)字被完全占滿 并包含該行的頭2、 3或4個(gè)像素。對16和32位的像素,所有字將被 完全占滿并對準(zhǔn)。對20位的像素,像素行的第22個(gè)(最后的)字只 包含單個(gè)20位數(shù)據(jù)的有效像素,位于位[59:401。對子幀輸入,需要改 變該最后字的打包矩陣52的控制,以使得它被移動(dòng)1而不是3,并且 在[59:40的數(shù)據(jù)被寫入矩陣的列0。對子幀輸出,不需要特別的處理; 由于第22次讀取的額外2個(gè)像素被忽略。
旋轉(zhuǎn)矩陣54在像素形式和位行形式之間轉(zhuǎn)換子幀行。位行數(shù)據(jù) 經(jīng)由IO—Data—in和IO—Data—out信號路徑被移動(dòng)到PE陣列20和從 PE陣列20移出。
對子幀輸入,像素?cái)?shù)據(jù)的子幀行當(dāng)它已被打包矩陣52接收到后 從打包矩陣52轉(zhuǎn)移到旋轉(zhuǎn)矩陣54。像素?cái)?shù)據(jù)與每列的lsb行對準(zhǔn)。轉(zhuǎn) 移后,旋轉(zhuǎn)矩陣54的行0包含該子幀行的笫一位行。通過將旋轉(zhuǎn)矩陣 54的行0寫入IO_Data—out并向下移動(dòng)矩陣一行來執(zhí)行位行輸出。該 移動(dòng)將所有像素的位1置于下一個(gè)位行輸出的行0中。該過程被重復(fù) 直到16、 20或32個(gè)位行一皮轉(zhuǎn)移。
對子幀輸出,子幀行的第一位行(位行0)經(jīng)由IO—Data—in被 接收并且被寫入旋轉(zhuǎn)矩陣54的行31。下一個(gè)接收到的位行(位行l(wèi)) 被寫入行31并且所有的行被向下移動(dòng)1。該過程被重復(fù)直到子幀行所 有的16、 20或32個(gè)位行被接收到。然后,開始發(fā)生子幀行到打包矩 陣52的轉(zhuǎn)移。由于最后接收的位行(msb)在旋轉(zhuǎn)矩陣54的行31中, 被轉(zhuǎn)移的數(shù)據(jù)將如前所述與打包矩陣52的msb邊對準(zhǔn)。
雖然示例實(shí)施例中只有3個(gè)打包尺寸(16、 20、 32),當(dāng)頁存儲(chǔ)器40圖像小于打包尺寸時(shí),可以執(zhí)行子幀輸入/輸出。例如,10位圖 像可以使用16位的包被輸入或輸出。在輸入期間,這可以通過只將頭 10個(gè)位行寫入IO_Data_out并放棄旋轉(zhuǎn)矩陣54中剩下的位行來實(shí)現(xiàn)。 為了通過16位打包來輸出10位數(shù)據(jù),經(jīng)由IO_Data—in從頁存儲(chǔ)器 40接收10位行,之后,(基于打包尺寸)注入0值位行以填充剩下 的位行。
只能用于子幀輸入的位偏移(bos)特征允許跳過每個(gè)像素中的 最低有效部分中的一些位。實(shí)際上,除了位O外的位被選為每個(gè)像素 的lsb。通過連同圖像尺寸值(Img—size) —起使用位偏移,可以選擇 輸入像素?cái)?shù)據(jù)的任何鄰近片。在旋轉(zhuǎn)矩陣位行移動(dòng)每個(gè)子幀行的頭位 偏移數(shù),到IO_Data_out的位行輸出被禁止。存儲(chǔ)在頁存儲(chǔ)器40中 的位平面的數(shù)目為Img—Size-Bit—Offset。圖像分片沒有提供輸入/輸 出帶寬的優(yōu)勢,但確實(shí)提供了管理頁存儲(chǔ)器40的好的控制度。
子幀數(shù)據(jù)經(jīng)由IO—Data總線在像素輸入/輸出單元50和PE陣列 20的頁單元之間被移動(dòng)。該總線提供用于經(jīng)由IO—Data—in和 IO—Data—out信號路徑,移動(dòng)64位的位行(見圖22)。對位行輸入 和輸出的控制由IO—rd—en—out和IO—wr—en—out j言號來提供。
在每個(gè)子幀輸入/輸出任務(wù)的開始,像素輸入/輸出單元50發(fā)送信 息到頁單元以提供任務(wù)的排序。IO—cmd—out信號被斷言為 IO—cmd一out字包含任務(wù)信息的信號。在該命令字中包含的信息包含 頁存儲(chǔ)器40基址、位平面中的圖像尺寸以及任務(wù)的輸入/輸出方向。
子幀輸入/輸出和分頁任務(wù)可以并發(fā)執(zhí)行。在輸入/輸出FIFO和 頁存儲(chǔ)器400之間的轉(zhuǎn)移期間,子幀輸入/輸出任務(wù)需要周期性訪問頁 單元中的頁存儲(chǔ)器400。子幀輸入/輸出任務(wù)在轉(zhuǎn)移期間對頁存儲(chǔ)器400 訪問比分頁任務(wù)具有更高優(yōu)先級。在轉(zhuǎn)移期間,分頁任務(wù)被禁止以防 止?fàn)幱庙摯鎯?chǔ)器400。禁止分頁任務(wù)的機(jī)制為被稱為Pg—Inh(頁禁止) 的離散,該P(yáng)g—Inh由像素輸入/輸出單元50生成并提供給程序序列發(fā) 生器30。
在位行開始移動(dòng)到第6頁單元200/從第6頁單元200移出時(shí)立即
24開始轉(zhuǎn)移。因此需要由一些時(shí)鐘來預(yù)計(jì)轉(zhuǎn)移的開始,以使得分頁指令 流中的窗口在正確的時(shí)間到達(dá)頁單元。這是由于指令經(jīng)過執(zhí)行管道(在
程序序列發(fā)生器30內(nèi))傳播的等待時(shí)間,以及PE陣列20中的分布 網(wǎng)絡(luò)的延遲。
像素輸入/輸出單元50解決了產(chǎn)生Pg_Iiih信號時(shí)程序序列發(fā)生 器30的等待時(shí)間。輸入/輸出方向(進(jìn)/出)也被考慮。Pg—Inh信號有 效的間隔為轉(zhuǎn)移過程提供了窗口 。該窗口必須具有持續(xù)時(shí)間和位置(時(shí) 間上的),在并發(fā)輸入/輸出和分頁期間適應(yīng)所有條件。
如這里通過示例所給出的,分頁操作在PE存儲(chǔ)器110和頁存儲(chǔ) 器40之間移動(dòng)子幀數(shù)據(jù)。分頁可以與前臺(tái)操作在PE陣列內(nèi)并發(fā)地執(zhí) 行,雖然該頁操作搶先偷取臨時(shí)指令周期以執(zhí)行CM平面的加栽和存 儲(chǔ)。(類似地,盡管輸入/輸出操作臨時(shí)搶先頁操作一段時(shí)間以執(zhí)行轉(zhuǎn) 移,子幀輸入/輸出操作可以與分頁操作并發(fā)執(zhí)行。)
頁操作排序的控制由程序序列發(fā)生器30來提供。除了前臺(tái)指令 流,序列發(fā)生器產(chǎn)生CM移動(dòng)指令序列,與PE陣列20中的前臺(tái)計(jì)算 指令并發(fā)執(zhí)行。CM移動(dòng)指令也被提供給頁單元200,以被用作頁存 儲(chǔ)器400讀/寫控制。
CM移動(dòng)指令和頁存儲(chǔ)器400讀/寫控制必須被同步,以保證PE 陣列20數(shù)據(jù)的正確移動(dòng)。在示例實(shí)施例中,該同步任務(wù)通過使用分布 網(wǎng)絡(luò)來分配PE指令和CM數(shù)據(jù)到和從PE陣列20而變復(fù)雜了。這些 網(wǎng)絡(luò)的位置和延遲示于圖23中。
在示例實(shí)施例中,每個(gè)分布網(wǎng)絡(luò)的延遲為3個(gè)時(shí)鐘??梢钥吹?, 分配到PE陣列20和頁單元的CM移動(dòng)指令同時(shí)到達(dá)。然而,由于 CM數(shù)據(jù)分布網(wǎng)絡(luò),頁單元200讀和寫控制將需要相對于PE陣列20 所執(zhí)行的CM移動(dòng)命令被偏移3個(gè)時(shí)鐘。在頁入任務(wù)的情況下,讀控 制將需要在PE陣列20中領(lǐng)先CM移動(dòng)3個(gè)時(shí)鐘。這通過在PE陣列 20中將CM移動(dòng)延遲3個(gè)時(shí)鐘來解決。對于頁出,PE陣列20中的 CM移動(dòng)將需要領(lǐng)先寫控制3個(gè)時(shí)鐘。這通過在頁單元中延遲寫控制 3個(gè)時(shí)鐘來解決。為了開始分頁任務(wù),程序序列發(fā)生器30用頁存儲(chǔ)器起始地址來 初始化頁單元200。頁單元200響應(yīng)被編碼以指示頁地址加載的PE指 令來執(zhí)行初始化。該起始地址經(jīng)由Wadr_in輸入來提供(圖15 )。 從這一點(diǎn)來看,頁單元200響應(yīng)CM移動(dòng)命令來執(zhí)行分頁任務(wù)。
頁出任務(wù)的CM移動(dòng)命令序列示于圖15中。該序列以2位尺寸 頁出圖像。每個(gè)位平面輸出以從PE存儲(chǔ)器11加載CM平面開始(CM -Aram(O),等)。(該指令被插入指令流中,從前臺(tái)任務(wù)偷取一個(gè) 周期。)該加載之后接著是CM平面的7次移動(dòng),經(jīng)由分布網(wǎng)絡(luò)提供 所有8個(gè)位行(每PEG)給頁單元200。(移動(dòng)指令為并發(fā)的并且不 搶先前臺(tái)指令。)將CM數(shù)據(jù)寫入頁存儲(chǔ)器40在各位行被提供給分 布網(wǎng)絡(luò)之后3個(gè)時(shí)鐘發(fā)生。
頁入任務(wù)的CM移動(dòng)命令序列示于圖24中。該序列以2位尺寸 頁入圖像。在開始讀取頁存儲(chǔ)器40之后4個(gè)時(shí)鐘開始將數(shù)據(jù)移入陣列。 這允許有1個(gè)時(shí)鐘來讀取同步頁存儲(chǔ)器40,接著是用于分布網(wǎng)絡(luò)的3 個(gè)時(shí)鐘。跟隨該延遲,對每個(gè)位平面執(zhí)行8個(gè)CM移動(dòng)的序列。在陣 列內(nèi),第8個(gè)CM移動(dòng)之后緊接著將CM平面寫入PE存儲(chǔ)器110。 CM移動(dòng)序列不會(huì)被寫入PE存儲(chǔ)器110所打斷。
關(guān)于由PE陣列20的執(zhí)行Wram cmd序列被示于圖24中。如前 所述,CM移入命令(CM =北移)被PE陣列20延遲,以使它們與 頁存儲(chǔ)器40讀取同步。由于Wram命令不凈皮相似地延遲,由程序序 列發(fā)生器30生成的Wram和CM命令的實(shí)際序列不同于顯示在表中 的在于,Wram命令被延遲3個(gè)時(shí)鐘,以匹配由PE陣列20執(zhí)行的 CM命令延遲。這是該示例實(shí)施例的實(shí)現(xiàn)細(xì)節(jié)。
如前所述,分頁任務(wù)可以與子幀輸入/輸出任務(wù)并發(fā)。當(dāng)這種并 發(fā)發(fā)生時(shí),輸入/輸出任務(wù)將周期地?fù)屜确猪撊蝿?wù),以便在頁存儲(chǔ)器400 和輸入FIF0 43和輸出FIF0 42之間執(zhí)4亍轉(zhuǎn)移。保持分頁任務(wù)執(zhí)行的 機(jī)制是由像素輸入/輸出單元50產(chǎn)生的Pg一Inh (頁禁止)離散,并被 提供給程序序列發(fā)生器30單元。
當(dāng)序列發(fā)生器接收到活動(dòng)的Pg—Inh,所有分頁命令的生成停止。Pg_Inh被保持活動(dòng)以提供由轉(zhuǎn)移過程進(jìn)行頁存儲(chǔ)器40訪問的時(shí)間窗。 像素輸入/輸出單元50確定該窗口的間隔并相應(yīng)地生成Pg一Inh。
雖然活動(dòng)的Pg一Inh禁止生成分頁指令,那些已經(jīng)生成的指令將 繼續(xù)穿過執(zhí)行管道和分布網(wǎng)絡(luò)以被PE陣列20和頁單元執(zhí)行。像素輸 入/輸出單元50在生成Pg一Inh離散過程中考慮該等待時(shí)間。該等待時(shí) 間部分地取決于分頁任務(wù)是頁入還是頁出。由于像素輸入/輸出單元50 沒有該信息,它建立了足夠大的窗口以容納各分頁任務(wù)。
對于頁入任務(wù),應(yīng)用Pg_Inh引起了復(fù)雜化。由于由序列發(fā)生器 生成的Wram存儲(chǔ)命令相對于CM移動(dòng)命令偏移,存在Pg—Inh CM 移動(dòng)被異常執(zhí)行的可能。如果Pg—Inh阻止了生成Wram存儲(chǔ)命令, 但允許與該存儲(chǔ)相關(guān)聯(lián)的一些CM移動(dòng),則這可能會(huì)發(fā)生。由于此原 因,當(dāng)頁入任務(wù)被Pg—Inh保持時(shí),3個(gè)最新的CM移動(dòng)命令被保持在 執(zhí)行管道中,以阻止異常執(zhí)行。
權(quán)利要求
1. 一種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括處理單元陣列,具有第一數(shù)據(jù)存儲(chǔ)部件,適合于處理位平面數(shù)據(jù);第二數(shù)據(jù)存儲(chǔ)部件,耦合至所述第一數(shù)據(jù)存儲(chǔ)部件,適合于存儲(chǔ)不需要立即處理的位平面數(shù)據(jù);以及所述第一數(shù)據(jù)存儲(chǔ)部件和所述第二數(shù)據(jù)存儲(chǔ)部件之間的數(shù)據(jù)路徑,所述數(shù)據(jù)路徑比一個(gè)位行寬并且比一個(gè)位平面窄。
2. 權(quán)利要求l所述的系統(tǒng),進(jìn)一步包括第三數(shù)據(jù)存儲(chǔ)部件,耦 合至所述第二存儲(chǔ)部件,并具有比所述第一存儲(chǔ)部件和所述第二數(shù)據(jù) 存儲(chǔ)部件更高的密度。
3. 權(quán)利要求2所述的系統(tǒng),其中,所述第三數(shù)據(jù)存儲(chǔ)部件適合 于存儲(chǔ)圖像像素?cái)?shù)據(jù)和打包的圖像像素?cái)?shù)據(jù)之一 。
4. 權(quán)利要求l所述的系統(tǒng),其中,所述處理單元陣列包括M行 和N列處理單元,所述第二數(shù)據(jù)存儲(chǔ)部件分布在m個(gè)單元之中,每個(gè) 單元為M/m行陣列段提供位平面數(shù)據(jù)存儲(chǔ),并且其中,每個(gè)單元以N 位寬位行,將位平面數(shù)據(jù)輸入到所述陣列和從所述陣列輸出位平面數(shù) 據(jù)。
5. 權(quán)利要求4所述的系統(tǒng),其中,所述m個(gè)單元的每一個(gè)進(jìn)一 步包括行緩沖器,它被配置成以位行形式存儲(chǔ)數(shù)據(jù)的單個(gè)光柵順序像 素組,所述光柵順序像素組代表包括N個(gè)像素的像素行。
6. 權(quán)利要求5所述的系統(tǒng),其中,所述行緩沖器包括輸入位行 數(shù)據(jù)的第一 FIFO存儲(chǔ)器和輸出位行數(shù)據(jù)的第二 FIFO存儲(chǔ)器。
7. 權(quán)利要求5所述的系統(tǒng),其中,所述行緩沖器包括被配置用 來輸入和輸出位行數(shù)據(jù)的雙向FIFO存儲(chǔ)器。
8. 權(quán)利要求5所述的系統(tǒng),其中,所述行緩沖器包括被配置用 來輸入和輸出位行數(shù)據(jù)的雙端口存儲(chǔ)器件。
9. 權(quán)利要求5所述的系統(tǒng),適合于使像素?cái)?shù)據(jù)輸入遵循一種模 式,由此所述m個(gè)單元的行緩沖器的每一個(gè)^皮依次寫入,直到每個(gè)單元的行緩沖器包含一像素行,并且同時(shí)將像素行從所述行緩沖器轉(zhuǎn)移 到每個(gè)單元內(nèi)的所述第二存儲(chǔ)部件,其中,所述轉(zhuǎn)移被定時(shí)以允許像 素?cái)?shù)據(jù)不間斷地輸入到所述單元,并由此所述像素?cái)?shù)據(jù)輸入模式暗示以m個(gè)像素行的步驟選擇像素。
10. 權(quán)利要求5所述的系統(tǒng),適合于使像素?cái)?shù)據(jù)輸出遵循一種模 式,由此像素行從每個(gè)單元內(nèi)的所述笫二存儲(chǔ)部件同時(shí)轉(zhuǎn)移到所述行 緩沖器,以及其中,所述m個(gè)單元的行緩沖器的每一個(gè)被依次讀取, 直到所有單元行緩沖器為空,并且其中,所述轉(zhuǎn)移被定時(shí),以允許像 素?cái)?shù)據(jù)不間斷地從所述單元輸出,由此以m個(gè)像素行的步驟將像素寫 到所述輸出幀。
11. 權(quán)利要求4所述的系統(tǒng),其中,所述處理單元陣列包括寄存 器平面,該寄存器平面適合于在所述處理器陣列和所述單元之間移動(dòng) 位平面數(shù)據(jù),所述寄存器平面以M/m-行間隔被分區(qū),使得每個(gè)MZm-行的陣列段提供獨(dú)立訪問點(diǎn),用于經(jīng)由所述寄存器平面輸入和輸出位 平面數(shù)據(jù),所述訪問點(diǎn)提供用于在所述M/m-行的陣列段和相應(yīng)單元 之間轉(zhuǎn)移位行數(shù)據(jù)。
12. 權(quán)利要求ll所述的系統(tǒng),其中,所述位平面數(shù)據(jù)的輸入和 輸出作為后臺(tái)任務(wù)來進(jìn)行,而不干擾所述處理單元陣列的計(jì)算處理。
13,權(quán)利要求ll所述的系統(tǒng),進(jìn)一步包括單個(gè)程序序列發(fā)生器, 適合于控制所述處理單元陣列,以及與位平面輸入和輸出的控制同時(shí) 提供計(jì)算處理的控制。
14. 權(quán)利要求13所述的系統(tǒng),其中,所述程序序列發(fā)生器進(jìn)一 步適合于發(fā)送命令到所述單元,以對所述第二數(shù)據(jù)存儲(chǔ)部件提供讀和 寫控制,以便控制位平面輸入和輸出。
15. 權(quán)利要求13所述的系統(tǒng),其中,所述程序序列發(fā)生器適合 于接收頁禁止邏輯離散,并響應(yīng)活動(dòng)的頁禁止離散而禁止生成位平面 輸入和輸出命令。
16. —種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括處理單元陣列,具有第一數(shù)據(jù)存儲(chǔ)部件,適合于處理位平面數(shù)據(jù);以及打包矩陣,耦合至所述處理單元陣列,所述打包矩陣包括寄存器 陣列,適合于接收和存儲(chǔ)包含單個(gè)周期中的多個(gè)像素的數(shù)據(jù)字,并且 按光柵順序單獨(dú)存儲(chǔ)來自所述數(shù)據(jù)字的像素。
17. 權(quán)利要求16所述的系統(tǒng),其中,所述打包矩陣適合于在單 個(gè)周期內(nèi)接收光柵順序像素組。
18. 權(quán)利要求16所述的系統(tǒng),進(jìn)一步包括旋轉(zhuǎn)矩陣,耦合至所 述打包矩陣,所述旋轉(zhuǎn)矩陣包括寄存器陣列,適合于在單個(gè)時(shí)鐘周期 內(nèi)接收包含光柵順序像素組的數(shù)據(jù),以及將每個(gè)像素存儲(chǔ)在列中并傳 送位行數(shù)據(jù)。
19. 權(quán)利要求18所述的系統(tǒng),其中,所述旋轉(zhuǎn)矩陣適合于同時(shí) 移動(dòng)列,使得所述位行從單個(gè)行被依次傳送。
20. 權(quán)利要求18所述的系統(tǒng),其中,經(jīng)由尺寸配置參數(shù)來選擇 小于數(shù)據(jù)字內(nèi)的打包像素尺寸的像素尺寸,并且其中,所述旋轉(zhuǎn)矩陣行來改變所述像素尺寸。 、 ' '、'、
21. 權(quán)利要求20所述的系統(tǒng),其中,所述旋轉(zhuǎn)矩陣適合于為光 柵順序像素組傳送鄰近的位行組,并且其中,通過位偏移參數(shù)和另一 個(gè)尺寸參數(shù)來選擇所述位行,以有效地為所述光柵順序像素組內(nèi)的每 個(gè)像素提供選擇的位范圍。
22. 權(quán)利要求16所述的系統(tǒng),進(jìn)一步包括笫二數(shù)據(jù)存儲(chǔ)部件, 耦合至所述第一數(shù)據(jù)存儲(chǔ)部件,適合于以位行形式存儲(chǔ)數(shù)據(jù)并且以位 平面組傳送數(shù)據(jù)。
23. 權(quán)利要求22所述的系統(tǒng),其中,所述第二數(shù)據(jù)存儲(chǔ)部件適 合于以光柵順序像素組接收數(shù)據(jù),并且傳送位平面數(shù)據(jù)至所述第一數(shù) 據(jù)存儲(chǔ)部件。
24. 權(quán)利要求16所述的系統(tǒng),適合于在第二數(shù)據(jù)存儲(chǔ)部件訪問 之前的精確數(shù)目周期,生成邏輯離散禁止信號,以向其它單元指示對 第二數(shù)據(jù)存儲(chǔ)部件的訪問將被禁止。
25. 權(quán)利要求16所述的系統(tǒng),其中,經(jīng)由打包配置參數(shù)來選擇 打包在數(shù)據(jù)字內(nèi)的可選數(shù)目的像素。
26. 權(quán)利要求16所述的系統(tǒng),進(jìn)一步包括方向參數(shù),其中所述 系統(tǒng)基于方向參數(shù)的值,執(zhí)行像素?cái)?shù)據(jù)到位平面數(shù)據(jù)的轉(zhuǎn)換,并執(zhí)行 位平面數(shù)據(jù)到像素?cái)?shù)據(jù)的轉(zhuǎn)換,這樣提供任一方向上的數(shù)據(jù)轉(zhuǎn)換。
27. 權(quán)利要求26所述的系統(tǒng),其中,經(jīng)由打包配置參數(shù)來選擇 打包在數(shù)據(jù)字內(nèi)的可選數(shù)目的像素。
28. —種數(shù)字?jǐn)?shù)據(jù)處理系統(tǒng),包括處理單元陣列,具有第一數(shù)據(jù)存儲(chǔ)部件,適合于處理位平面形式 的數(shù)據(jù);以及打包矩陣,耦合至所述處理單元陣列,包括寄存器陣列并適合于 以光柵順序單獨(dú)存儲(chǔ)像素?cái)?shù)據(jù),以及生成每個(gè)包含與多個(gè)像素相關(guān)的 數(shù)據(jù)的數(shù)據(jù)字,并以每數(shù)據(jù)字單個(gè)時(shí)鐘周期來傳送所述數(shù)據(jù)字。
29. 權(quán)利要求28所述的系統(tǒng),其中,所述打包矩陣適合于在單 個(gè)周期內(nèi)接收光柵順序像素組。
30. 權(quán)利要求28所述的系統(tǒng),適合于在第二數(shù)據(jù)存儲(chǔ)部件訪問 之前的精確數(shù)目周期,生成邏輯離散禁止信號,以向其它單元指示對 第二數(shù)據(jù)存儲(chǔ)部件的訪問將被禁止。
31. 權(quán)利要求28所述的系統(tǒng),進(jìn)一步包括旋轉(zhuǎn)矩陣,耦合至所 述打包矩陣,包括寄存器陣列,適令于接收位行數(shù)據(jù),并在單個(gè)周期 內(nèi)傳送光柵順序組的若干像素,所述像素存儲(chǔ)在所述旋轉(zhuǎn)矩陣的列內(nèi)。
32. 權(quán)利要求31所述的系統(tǒng),其中,所述旋轉(zhuǎn)矩陣適合于同時(shí) 移動(dòng)所有列,使得在所述矩陣的單個(gè)行內(nèi)依次接收位行。
33. 權(quán)利要求31所述的系統(tǒng),其中,通過尺寸配置參數(shù)來選擇 小于將要打包在所述數(shù)據(jù)字中的像素尺寸的另一個(gè)像素尺寸,所述另目,并且其中,所述旋轉(zhuǎn)矩陣通過填充0值的位行,將所述另一個(gè)尺 寸的像素轉(zhuǎn)換為所述打包的像素尺寸的像素。
34. 權(quán)利要求28所述的系統(tǒng),進(jìn)一步包括第二數(shù)據(jù)存儲(chǔ)部件,耦合至所述第 一數(shù)據(jù)存儲(chǔ)部件,適合于存儲(chǔ)位行形式的數(shù)據(jù)并且傳送 光柵順序的數(shù)據(jù)。
35. 權(quán)利要求34所述的系統(tǒng),其中,所述第二數(shù)據(jù)存儲(chǔ)部件適 合于從第一數(shù)據(jù)存儲(chǔ)部件接收位平面數(shù)據(jù)組,并且以光柵順序像素組 傳送數(shù)據(jù)。
36. 權(quán)利要求28所述的系統(tǒng),進(jìn)一步包括方向參數(shù),其中所述 系統(tǒng)基于方向參數(shù)的值,執(zhí)行像素?cái)?shù)據(jù)到位平面數(shù)據(jù)的轉(zhuǎn)換,并執(zhí)行 位平面數(shù)據(jù)到像素?cái)?shù)據(jù)的轉(zhuǎn)換,這樣提供任一方向上的數(shù)據(jù)轉(zhuǎn)換。
37. 權(quán)利要求28所述的系統(tǒng),其中,通過打包配置參數(shù)來選擇 打包在數(shù)據(jù)字內(nèi)的可選數(shù)目的像素。
全文摘要
在圖像處理系統(tǒng)中,在輔助或頁存儲(chǔ)器中提供了位平面數(shù)據(jù)的高密度存儲(chǔ)以及圖像處理器對數(shù)據(jù)的高帶寬訪問。該頁存儲(chǔ)器提供了當(dāng)前未被處理的數(shù)據(jù)的存儲(chǔ)。該頁存儲(chǔ)器也可以是系統(tǒng)的一部分,提供到和來自圖像處理器的圖像數(shù)據(jù)的輸入和輸出。該圖像數(shù)據(jù)可以在圖像處理器外以打包的像素形式被處理,并且在輸入和輸出期間在該形式和頁存儲(chǔ)器存儲(chǔ)的位行形式之間轉(zhuǎn)換。該位行數(shù)據(jù)可以聚集為位平面,以在數(shù)據(jù)從頁存儲(chǔ)器到處理邏輯移動(dòng)期間被圖像處理器使用。
文檔編號G06T1/20GK101427264SQ200580016464
公開日2009年5月6日 申請日期2005年4月8日 優(yōu)先權(quán)日2004年4月8日
發(fā)明者伍德羅·L.·米克爾 申請人:硅奧普迪思公司