專利名稱:執(zhí)行部分寬度壓縮數(shù)據(jù)指令的制作方法
技術(shù)領域:
本發(fā)明一般涉及計算機系統(tǒng)領域。更具體地,本發(fā)明涉及用于由利用諸如SIMD技術(shù)的處理器高效地執(zhí)行諸如標量壓縮數(shù)據(jù)指令等的部分寬度壓縮數(shù)據(jù)指令的方法與設備。
背景技術(shù):
諸如2D/3D圖形、圖像處理、視頻壓縮/解壓縮、話音識別算法與音頻處理等多媒體應用通常要求在大量數(shù)據(jù)項上執(zhí)行相同的操作(稱作“數(shù)據(jù)并行性”)。每種多媒體應用通常實現(xiàn)需要若干諸如加(ADD)或乘(MULTIPLY)(以后稱為MUL)等浮點或整數(shù)運算的一種或多種算法。通過提供其執(zhí)行導致處理器并行地在多個數(shù)據(jù)項上執(zhí)行相同運算的宏指令,諸如Pentium處理器體系結(jié)構(gòu)與MMxTM指令集等采用的單指令多數(shù)據(jù)(SIMD)技術(shù)已使多媒體應用性能有了明顯的改進(Pentium及MMxTM為Santa Clara,CA的Intel公司的注冊商標或商標)。
SIMD技術(shù)特別適用于提供壓縮數(shù)據(jù)格式的系統(tǒng)。壓縮數(shù)據(jù)格式便是將寄存器中的位邏輯上分成若干固定大小的數(shù)據(jù)元素的一種數(shù)據(jù)格式,其中各元素表示獨立的值。例如,64位寄存器可分解成四個16位元素,每個表示獨立的16位值。然后,壓縮數(shù)據(jù)指令便可并行地分開處理這些壓縮數(shù)據(jù)類型中的每個元素。
參見圖1,其中示出了示例性壓縮數(shù)據(jù)指令。在這一示例中,壓縮加法指令(如SIMD ADD)將第一壓縮數(shù)據(jù)運算數(shù)X與第二壓縮數(shù)據(jù)運算數(shù)Y的對應數(shù)據(jù)元素相加生成壓縮數(shù)據(jù)結(jié)果Z,即X0+Y0=Z0,X1+Y1=Z1,X2+Y2=Z2及X3+Y3=Z3。將許多數(shù)據(jù)元素壓縮到一個寄存器或存儲器單元中并采用并行硬件執(zhí)行使SIMD體系結(jié)構(gòu)一次能執(zhí)行多個操作,而得到明顯的性能改進。例如,在這一示例中,在以前獲得單一結(jié)果所需的時間中可獲得四個獨立的結(jié)果。
雖然利用SIMD體系結(jié)構(gòu)實現(xiàn)的優(yōu)點是顯而易見的,仍存在著希望只對于壓縮數(shù)據(jù)元素的子集返回單個結(jié)果的情況。
發(fā)明內(nèi)容
描述了用于執(zhí)行部分寬度壓縮數(shù)據(jù)指令的方法與設備。按照本發(fā)明的一個方面,處理器包括多個寄存器、耦合到這多個寄存器上的寄存器重新命名單元、耦合到寄存器重新命名單元上的解碼器及耦合到該解碼器上的部分寬度執(zhí)行單元。該寄存器重新命名單元提供了體系結(jié)構(gòu)寄存器堆(register file)來存儲各包含多個數(shù)據(jù)元素的壓縮數(shù)據(jù)操作數(shù)。將解碼器配置成解碼其每個指定體系結(jié)構(gòu)寄存器堆中的一個或多個寄存器的第一與第二指令集。第一指令集中的各指令指定要在存儲在一個或多個指定的寄存器中的所有數(shù)據(jù)元素上執(zhí)行的操作。反之,第二指令集中的各指令指定只在存儲在一個或多個指定的寄存器中的數(shù)據(jù)元素子集上執(zhí)行的操作。將部分寬度執(zhí)行單元配置成執(zhí)行由第一或第二指令集之一指定的操作。
根據(jù)本發(fā)明的一個實施例,為了執(zhí)行第二指令集中的指令,處理器或其他設備可以包括劃分邏輯。劃分邏輯可以包括邏輯來接收利用部分寬度壓縮數(shù)據(jù)指令指定的第一壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第一部分和第二部分。劃分邏輯也可以包括邏輯來接收利用部分寬度壓縮數(shù)據(jù)指令指定的第二壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第三部分和第四部分。該設備也可以包括與劃分邏輯相耦合的延遲元件,以接收和延遲第一部分和第三部分。該設備可以進一步包括與劃分邏輯和延遲元件相耦合的執(zhí)行單元。執(zhí)行單元可以提供利用部分寬度壓縮數(shù)據(jù)指令指定的壓縮數(shù)據(jù)結(jié)果給利用部分寬度壓縮數(shù)據(jù)指令指定的目的地。壓縮數(shù)據(jù)結(jié)果可以包括只對第一和第二壓縮數(shù)據(jù)操作數(shù)的數(shù)據(jù)元素的子集執(zhí)行的操作的一個或多個結(jié)果。
根據(jù)本發(fā)明的一個實施例,一種方法可以包括接收指定第一壓縮數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)在存儲器中的位置的指令??梢詮拇鎯ζ髦写嫒〉谝粔嚎s數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)的全寬度。隨后,可以將第一壓縮數(shù)據(jù)操作數(shù)劃分為第一部分和第二部分,并且可以將第二壓縮數(shù)據(jù)操作數(shù)劃分為第三部分和第四部分。通過對第一和第三部分執(zhí)行利用該指令指定的操作,可以確定第一部分結(jié)果。通過處理第二和第四部分,可以確定第二部分結(jié)果。在一個方面中,確定第二部分結(jié)果可以包括將至少一個數(shù)據(jù)元素設置為預定值??梢允褂孟嗤挠布泶_定第一和第二部分結(jié)果。
從附圖及詳細描述中,本發(fā)明的其它特征與優(yōu)點將是顯而易見的。
本發(fā)明是參照附圖中的圖以示例方式而非限制性方式描述的,附圖中相同的標號指示相同的元素,在附圖中圖1示出將來自第一壓縮數(shù)據(jù)操作數(shù)與第二壓縮數(shù)據(jù)操作數(shù)的對應數(shù)據(jù)元素一起相加的壓縮加法(ADD)指令。
圖2A為展示按照本發(fā)明的一個實施例的示例性計算機系統(tǒng)的簡化方框圖。
圖2B為展示按照本發(fā)明的一個實施例的示例性邏輯寄存器組的簡化方框圖。
圖2C為展示按照本發(fā)明的另一實施例的示例性邏輯寄存器組的簡化方框圖。
圖3為展示按照本發(fā)明的一個實施例的指令執(zhí)行的流程圖。
圖4概念性地展示執(zhí)行按照本發(fā)明的各種實施例的部分寬度壓縮數(shù)據(jù)指令的結(jié)果。
圖5A概念性地展示用于執(zhí)行按照本發(fā)明的一個實施例的全寬度壓縮數(shù)據(jù)指令及部分寬度壓縮數(shù)據(jù)指令的電路。
圖5B概念性地展示用于執(zhí)行按照本發(fā)明的另一實施例的全寬度壓縮數(shù)據(jù)與部分寬度壓縮數(shù)據(jù)指令的電路。
圖5C概念性地展示用于執(zhí)行按照本發(fā)明的又一實施例的全寬度壓縮數(shù)據(jù)及部分寬度壓縮數(shù)據(jù)指令的電路。
圖6展示按照SIMD的示例性處理器實現(xiàn)的能分別作為四個獨立的加法(ADD)執(zhí)行單元與四個獨立的乘法(MUL)執(zhí)行單元操作的ADD執(zhí)行單元與MUL執(zhí)行單元。
圖7A-7B概念性地展示分別以“交錯”方式執(zhí)行的全寬度壓縮數(shù)據(jù)操作與部分寬度壓縮數(shù)據(jù)操作。
圖8A概念性地展示在操作數(shù)的一半寬度上執(zhí)行操作的同時一次從邏輯寄存器中存取全寬度操作數(shù)的處理器內(nèi)的電路。
圖8B為進一步展示圖8A的電路的定時圖。
圖9概念性地展示通過將宏指令轉(zhuǎn)換成各處理操作數(shù)的一部分全寬度的多條宏指令以“交錯”方式在操作數(shù)上執(zhí)行操作的無次序的流水線(pipeline)的一個實施例。
圖10為進一步展示圖9中描述的實施例的定時圖。
圖11為展示可采用來完成按照本發(fā)明的一個實施例的解碼處理的解碼邏輯的方框圖。
具體實施例方式
本文描述了用于執(zhí)行部分寬度壓縮數(shù)據(jù)指令的方法與設備。這里名詞“全寬度壓縮數(shù)據(jù)指令”意在指稱在一個或多個壓縮數(shù)據(jù)操作數(shù)的所有數(shù)據(jù)元素上操作的壓縮數(shù)據(jù)指令(如SIMD指令)。反之,名詞“部分寬度壓縮數(shù)據(jù)指令”意在廣泛地指稱被設計成只在一個或多個壓縮數(shù)據(jù)操作數(shù)的數(shù)據(jù)元素的子集上運算并返回壓縮數(shù)據(jù)結(jié)果(到諸如壓縮數(shù)據(jù)寄存器堆)的壓縮數(shù)據(jù)指令。例如,標量SIMD指令可能只需要壓縮數(shù)據(jù)操作數(shù)的最低有效對之間的操作結(jié)果。在這一示例中,壓縮數(shù)據(jù)結(jié)果的其余數(shù)據(jù)元素是忽略不計的,因為它們對標量SIMD指令無意義(例如,其余數(shù)據(jù)元素是不關(guān)心的)。按照本發(fā)明的各種實施例,可以以這樣的方式來配置執(zhí)行單元,以便高效地容納全寬度壓縮數(shù)據(jù)指令(如SIMD指令)及部分寬度壓縮數(shù)據(jù)指令集(如標量SIMD指令)兩者。
在下面的詳細描述中,為了說明的目的,提出了許多特定細節(jié)以便提供對本發(fā)明的徹底理解。然而,對于本技術(shù)中的普通技術(shù)人員很明顯,不一定用這些特定細節(jié)來實踐本發(fā)明。在其它實例中,并未示出或以方框圖形式示出眾所周知的器件、結(jié)構(gòu)、接口及進程。
部分寬度壓縮數(shù)據(jù)指令的合理性考慮到已為在單精度浮點數(shù)據(jù)、雙精度浮點數(shù)據(jù)及整數(shù)數(shù)據(jù)上采用標量運算的標量體系結(jié)構(gòu)(如單指令單數(shù)據(jù)(SISD)體系結(jié)構(gòu))編寫的軟件的數(shù)量,希望向開發(fā)人員提供將他們的軟件移植到諸如SIMD體系結(jié)構(gòu)等支持壓縮數(shù)據(jù)指令的體系結(jié)構(gòu)上的選擇,而沒有必要改寫他們的軟件與/或?qū)W習新的指令。通過提供部分寬度壓縮數(shù)據(jù)指令,簡單的翻譯便能將老的標量代碼變換成標量壓縮數(shù)據(jù)代碼。例如,對于編譯程序非常容易從標量代碼生成標量SIMD指令。然后,隨著開發(fā)人員理解能用SIMD指令優(yōu)化的他們的軟件部分,他們便可逐漸地利用壓縮數(shù)據(jù)指令。當然采用SIMD技術(shù)的計算機系統(tǒng)可能也通過同樣支持SISD指令來保持向后兼容。然而,許多最近的體系結(jié)構(gòu)改進及這里討論的其它因素有利于開發(fā)人員過渡到并利用SIMD技術(shù),即使首先只采用標量SIMD指令也如此。
提供部分寬度壓縮數(shù)據(jù)指令的另一合理性在于可通過只在全寬度運算數(shù)的子集上操作可達到的許多好處,其中包含降低功耗、提高速率、簡潔的異常模型及提高的存儲量。如下所示,根據(jù)用部分寬度壓縮數(shù)據(jù)指令提供的指示,通過有選擇地關(guān)閉對執(zhí)行當前操作不必要的那些硬件單元可達到功率節(jié)省。
另一種不希望強制壓縮數(shù)據(jù)指令返回各對數(shù)據(jù)元素的單個結(jié)果的情況包含在提供部分寬度硬件的環(huán)境中的算術(shù)運算。由于成本與/或印模(die)限制,通常不提供對諸如除法等某些算術(shù)運算的全面支持。從其性質(zhì)上,即使在實現(xiàn)全寬度硬件(如執(zhí)行單元與數(shù)據(jù)元素之間的一一對應)時,除法運算也非常長。因此,在提供部分寬度硬件的同時只支持全寬度壓縮數(shù)據(jù)運算的環(huán)境中,等待時間變得甚至更長。如下面進一步所示,諸如部分寬度壓縮數(shù)據(jù)除法運算等部分寬度壓縮數(shù)據(jù)運算可有選擇地允許其運算數(shù)的某些部分繞過除法硬件。以這一方法,只在壓縮數(shù)據(jù)運算數(shù)中的數(shù)據(jù)元素的子集上運算并不招致性能惡化。
此外,與外來數(shù)據(jù)元素一起產(chǎn)生的異??赡軐е聦﹂_發(fā)人員的混淆與/或SISD與SIMD機器之間的不兼容性。因此,只為指令意欲在其上面操作的那些數(shù)據(jù)元素報告異常是有利的。部分寬度壓縮數(shù)據(jù)指令支持通過將異常條件的觸發(fā)限制到結(jié)合正在對其操作的數(shù)據(jù)元素引起的那些異常條件或有可能引起混淆或SISD與SIMD機器之間不兼容的外來數(shù)據(jù)元素所產(chǎn)生的異常條件來允許實現(xiàn)可預測異常模型。
最后,在作為執(zhí)行部分寬度壓縮數(shù)據(jù)操作的結(jié)果而不破壞目的地壓縮數(shù)據(jù)操作數(shù)部分的實施例中,部分寬度壓縮數(shù)據(jù)指令有效地提供用于存儲數(shù)據(jù)的附加寄存器空間。例如,如果正在壓縮數(shù)據(jù)操作數(shù)的低位部分上操作,可將數(shù)據(jù)存儲在高位部分中,反之亦然。
示例性計算機系統(tǒng)圖2A為按照本發(fā)明的一個實施例的示例性計算機系統(tǒng)的簡化方框圖。在所描繪的實施例中,計算機系統(tǒng)200包含處理器205、存儲設備210及總線215。處理器205用總線215耦合在存儲設備上。此外,諸如鍵盤220及顯示器225等若干用戶輸入/輸出設備也耦合在總線215上。還可通過總線215將計算機系統(tǒng)200耦合在網(wǎng)絡230上。處理器205表示諸如CISC、RISC、VLIW或混合體系結(jié)構(gòu)等任何類型體系結(jié)構(gòu)的中央處理單元。此外,處理器205可實現(xiàn)在一片或多片芯片上。存儲設備210表示一個或多個用于存儲數(shù)據(jù)的機構(gòu)。例如,存儲設備210可包含只讀存儲器(ROM)、隨機存取存儲器(RAM)、磁盤存儲媒體、光學存儲媒體、快速存儲設備與/或其它機器可讀的媒體??偩€215表示一條或多條總線(如AGP、PCI、ISA、X-Bus、EISA、VESA等)及橋接器(也稱作總線控制器)。雖然這一實施例是相對于單處理器計算機系統(tǒng)描述的,應理解本發(fā)明也可在多處理器計算機系統(tǒng)中實現(xiàn)。此外雖然本實施例是相對于32位與64位計算機系統(tǒng)描述的,本發(fā)明不限于這些計算機系統(tǒng)。
圖2A附加示出處理器205包含指令集單元260。當然,處理器205包含其它電路;然而,這種其它電路對理解本發(fā)明不是必要的。在任何情況中,指令集單元260包含硬件與/或固件來解碼與執(zhí)行一或多個指令集。在所描繪的實施例中,指令集單元260包含解碼/執(zhí)行單元275。解碼單元將處理器205接收的指令解碼成一或多條微指令。執(zhí)行單元響應從解碼單元接收的微指令執(zhí)行適當?shù)牟僮?。解碼單元可采用若干不同機構(gòu)實現(xiàn)(如查找表、硬件實現(xiàn)、PLA等)。
在本例中,解碼/執(zhí)行單元275示出為包含既擁有全寬度壓縮數(shù)據(jù)指令又擁有部分寬度壓縮數(shù)據(jù)指令的指令集280。這些壓縮數(shù)據(jù)指令在執(zhí)行時可導致處理器205去執(zhí)行全/部分寬度壓縮浮點運算與/或全/部分寬度壓縮整數(shù)運算。除了壓縮數(shù)據(jù)指令,指令集280可包含在現(xiàn)有微處理器中找得到的其它指令。作為示例,在一個實施例中處理器205支持與Intel 32位體系結(jié)構(gòu)(IA-32)與/或Intel 64位體系結(jié)構(gòu)(IA-64)兼容的指令集。
指令集單元260中還包含存儲器單元285。存儲器單元285可包含處理器205用來存儲包含浮點數(shù)據(jù)及壓縮浮點數(shù)據(jù)的信息的一或多組體系結(jié)構(gòu)寄存器(也稱作邏輯寄存器)。此外,可包含其它邏輯寄存器用于存儲整數(shù)數(shù)據(jù)、壓縮整數(shù)數(shù)據(jù)、及諸如棧頂指示之類各種控制數(shù)據(jù)。這里使用了名詞體系結(jié)構(gòu)寄存器與邏輯寄存器來指稱指令指定包含單個操作數(shù)的存儲區(qū)的方式的概念。從而,邏輯寄存器可用任何數(shù)目的公知技術(shù)在硬件中實現(xiàn),包含專用的物理寄存器、利用寄存器重新命名機制(下面更詳細地描述)的一或多個動態(tài)分配的物理寄存器等。在任何情況中,邏輯寄存器代表可用壓縮數(shù)據(jù)指令尋址的最小存儲單元。
在所描繪的實施例中,已在存儲設備210中存儲了操作系統(tǒng)235及壓縮數(shù)據(jù)例程240供計算機系統(tǒng)200執(zhí)行。壓縮數(shù)據(jù)例程240為可包含諸如標量SIMD指令或SIMD指令等一或多條壓縮數(shù)據(jù)指令的指令序列,如下面進一步討論的,存在著包含速度、功耗及異常處理在內(nèi)的這樣的情況,希望只在壓縮數(shù)據(jù)操作數(shù)或一對壓縮數(shù)據(jù)操作數(shù)中的數(shù)據(jù)元素的子集上執(zhí)行操作(或返回單個的結(jié)果),因此,處理器205能區(qū)分全寬度壓縮數(shù)據(jù)指令與部分寬度壓縮數(shù)據(jù)指令并相應地執(zhí)行它們是有利的。
圖2B為展示按照本發(fā)明的一個實施例的示范性邏輯寄存器組的簡化方框圖。在這一示例中,存儲器單元285包含多個標量浮點寄存器291(標量寄存器堆)及多個壓縮浮點寄存器292(壓縮數(shù)據(jù)寄存器堆)。在執(zhí)行浮點指令時可將標量浮點寄存器291(如寄存器R0-R7)實現(xiàn)為棧訪問的寄存器堆以便與為Intel體系結(jié)構(gòu)編寫的現(xiàn)有軟件兼容。然而,在替代實施例中,可將寄存器291作為平面寄存器堆對待。在所描繪的實施例中,將各壓縮浮點寄存器(XMM0-XMM7)實現(xiàn)為單一128位邏輯寄存器。然而,應理解可采用更寬或更窄的寄存器來符合使用更多或更少數(shù)據(jù)元素或更大或更小數(shù)據(jù)元素的實現(xiàn)。此外,可提供更多或更少的壓縮浮點寄存器282。類似于標量浮點寄存器291,在執(zhí)行壓縮浮點指令時可將壓縮浮點寄存器292實現(xiàn)為棧訪問的寄存器堆或平面寄存器堆。
圖2C為展示按照本發(fā)明的另一實施例的示范性邏輯寄存器組的簡化方框圖。在這一示例中,存儲器單元285再一次包含多個標量浮點寄存器291(標量寄存器堆)及多個壓縮浮點寄存器292(壓縮數(shù)據(jù)寄存器堆)。然而,在所描繪的實施例中,將各壓縮浮點寄存器(如XMM0-XMM7)實現(xiàn)為高位293與低位寄存器294的對應的對。如下面進一步討論的,為了指令解碼的目的的而將壓縮浮點寄存器292的邏輯寄存器地址空間組織成使高位與低位寄存器對用單一的位區(qū)別是有利的。例如,XMM0-XMM7的高位與低位部分可用MSR來區(qū)分。最好,各壓縮浮點寄存器291寬到足以容納四個32位單精度浮點數(shù)據(jù)元素。然而,如上所述,可采用更寬或更窄的寄存器來符合使用更多或更少數(shù)據(jù)元素或更大或更小數(shù)據(jù)元素的實現(xiàn)。此外,雖然本例中的邏輯壓縮浮點寄存器292各包括對應的64位寄存器對,在替代實施例中各壓縮浮點寄存器可包括任何數(shù)目的寄存器。
指令執(zhí)行概述已描述了可在其中實現(xiàn)本發(fā)明的一個實施例的示范性計算機系統(tǒng),下面描述指令執(zhí)行。
圖3為展示按照本發(fā)明的一個實施例的指令執(zhí)行的流程圖。在步驟310,處理器205接收指令。在步驟320,根據(jù)指令的類型,部分寬度壓縮數(shù)據(jù)指令(如標量SIMD指令)或全寬度壓縮數(shù)據(jù)指令(如SIMD指令),處理以步驟330或340繼續(xù)。通常在解碼單元中指令的類型是根據(jù)包含在指令內(nèi)的信息確定的。例如,信息可包含在附著在操作碼上的前綴或后綴中,或通過立即值提供指示對應的操作要在壓縮數(shù)據(jù)操作數(shù)的所有數(shù)據(jù)元素還是其子集上執(zhí)行。以這一方式,相同的操作碼既可用于全寬度壓縮數(shù)據(jù)操作也可用于部分寬度壓縮數(shù)據(jù)操作。作為代替,一組操作碼可用于部分寬度壓縮數(shù)據(jù)操作而不同的操作碼組可用于全寬度壓縮數(shù)據(jù)操作。
在任何情況中,如果指令為傳統(tǒng)的全寬度壓縮數(shù)據(jù)指令,則在步驟330通過在操作數(shù)中的各數(shù)據(jù)元素上執(zhí)行指令規(guī)定的操作來確定壓縮數(shù)據(jù)結(jié)果。然而,如果指令為部分寬度壓縮數(shù)據(jù)指令,則在步驟340通過在數(shù)據(jù)元素的子集上執(zhí)行指令規(guī)定的操作來確定結(jié)果的第一部分,而其余結(jié)果則設定為一個或多個預定的值。在一個實施例中,預定的值便是操作數(shù)之一中對應數(shù)據(jù)元素的值。這便是,可將數(shù)據(jù)元素從操作數(shù)之一的數(shù)據(jù)元素“傳遞通過”到壓縮數(shù)據(jù)結(jié)果中的對應數(shù)據(jù)元素。在另一實施例中,全部清除(清零)結(jié)果的其余部分中的數(shù)據(jù)元素。下面描述用于執(zhí)行將數(shù)據(jù)元素從操作數(shù)之一傳遞通過到結(jié)果的示范性邏輯及用于清除結(jié)果中的數(shù)據(jù)元素的示范性邏輯。
圖4概念性地展示執(zhí)行按照本發(fā)明的各種實施例的部分寬度壓縮數(shù)據(jù)指令的結(jié)果。在這一示例中,操作是由執(zhí)行單元440在兩個邏輯源寄存器410與420的數(shù)據(jù)元素上執(zhí)行的。執(zhí)行單元440包含用于執(zhí)行指令規(guī)定的操作的電路與邏輯。此外,執(zhí)行單元440可包含允許執(zhí)行單元440在部分寬度壓縮數(shù)據(jù)模式或全寬度壓縮數(shù)據(jù)模式中操作的選擇電路。例如,執(zhí)行單元440可包含傳遞通過電路將數(shù)據(jù)元素從邏輯源寄存器410、420之一傳遞到邏輯目的地寄存器430,或清除電路來清除邏輯目的地寄存器430的一或多個數(shù)據(jù)元素,等。也可采用各種其它技術(shù)來影響操作結(jié)果,包括將對操作的輸入之一強制成預定的值,諸如導致操作執(zhí)行其恒等函數(shù)的值或可傳遞通過算術(shù)運算而不發(fā)出異常信號的值(如靜止的非數(shù)字(quiet nat-a-number)(QNaN))。
在所示的示例中,只將第一對數(shù)據(jù)元素(X0與Y0)上的操作結(jié)果(Z0)存儲在邏輯目的地寄存器430中。假定執(zhí)行單元440包含傳遞通過邏輯,便將邏輯目的地寄存器430的其余數(shù)據(jù)元素設置成來自邏輯源寄存器410的對應數(shù)據(jù)元素的值(即X3、X2與X1)。雖然將邏輯目的地寄存器430示出為獨立的邏輯寄存器,指出它可以同時用作邏輯源寄存器410、420之一是重要的。因此,在這一上下文中應理解將邏輯目的地寄存器430的數(shù)據(jù)元素設置成來自邏輯源寄存器410、420之一的值可包含什么也不做。例如,在邏輯源寄存器410既是邏輯源又是目的地寄存器的情況中,各種實施例可利用這一點并簡單地不觸動要傳遞通過的一或多個數(shù)據(jù)元素。
作為替代,執(zhí)行單元440可包含清除邏輯。從而,不是將值從邏輯源寄存器之一傳遞通過到邏輯目的地寄存器430,而是將結(jié)果中不必要的數(shù)據(jù)元素清除。在本例中再一次只將第一對數(shù)據(jù)元素(X0與Y0)上的操作結(jié)果(Z0)存儲在邏輯目的地寄存器430中。“清除”(如設置成零或該問題的任何其它預定值)邏輯目的地寄存器430的其余數(shù)據(jù)元素。
全寬度硬件圖5A-5C分別概念性地展示既可執(zhí)行全寬度壓縮數(shù)據(jù)又可執(zhí)行部分寬度壓縮數(shù)據(jù)指令的執(zhí)行單元540、560及580。包含在圖5A與5C的執(zhí)行單元中的選擇邏輯表示示范性傳遞通過邏輯,而圖5B的選擇邏輯代表可采用的清除邏輯。在所描繪的實施例中,執(zhí)行單元540、560與580各包含適當?shù)倪壿?、電路與/或固件用于在操作數(shù)(X與Y)的全寬度上并發(fā)執(zhí)行操作570、571與572。
現(xiàn)在參見圖5A,執(zhí)行單元540包含選擇邏輯(如多路復用器(MUX)555-557)用于在操作570產(chǎn)生的值與來自操作數(shù)之一的對應數(shù)據(jù)元素的值之間進行選擇。可用諸如指示當前執(zhí)行的操作是全寬度壓縮數(shù)據(jù)操作還是部分寬度壓縮數(shù)據(jù)操作的信號來控制MUX555-557。在替代實施例中,通過包含數(shù)據(jù)元素0的附加MUX與/或獨立地控制各MUX可以達到附加的靈活性。提供MUX控制的各種裝置都是可能的。按照一個實施例,這種控制可從指令本身始發(fā)或?qū)С?,或可通過立即值提供。例如,與指令關(guān)聯(lián)的4位立即值可用來使MUX555-557直接受軟件控制。可指導對應于立即值中的1的MUX去選擇操作的結(jié)果,而可導致對應于0的MUX去選擇傳遞通過數(shù)據(jù)。當然,通過采用更多或更少位來表示立即值可以在各種實現(xiàn)中達到更多或更少的分辨率。
現(xiàn)在參見圖5B,執(zhí)行單元540包含選擇邏輯(如MUX565-567)用于在操作571產(chǎn)生的值與預定的值(如零)之間進行選擇。如上所述MUX565-567可在公共控制下或獨立地受控制。
圖5C的傳遞通過邏輯(如MUX 575-576)在操作數(shù)之一的數(shù)據(jù)元素與恒等函數(shù)值590之間進行選擇。通常將恒等函數(shù)值590選擇為使得在恒等函數(shù)值590與數(shù)據(jù)元素之間執(zhí)行運算572的結(jié)果為數(shù)據(jù)元素的值。例如,如果運算572為乘法運算,則恒等函數(shù)值590為1。類似地,如果運算572為加法運算,恒等函數(shù)值590為0。以這一方式,可通過令對應的MUX575-577輸出恒等函數(shù)值590將數(shù)據(jù)元素的值有選擇地傳遞通過到邏輯目的地寄存器430。
在上述實施例中,電路是硬布線成使得部分寬度操作是在最低位數(shù)據(jù)元素部分上執(zhí)行的??梢岳斫猓僮骺稍谂c所示出的不同的數(shù)據(jù)元素部分上執(zhí)行。同時,如上所述,通過將所有的操作耦合到MUX之類而不只是圖5A-5C中所描繪的操作的子集,可使要在其上操作的數(shù)據(jù)元素成為軟件可配置的。此外,雖然將傳遞通過與清除邏輯描述為用于對待對應于要忽略的操作的得出的數(shù)據(jù)元素的兩種選擇,替代實施例可采用其它技術(shù)。例如,可以輸入QNaN作為對要忽略其結(jié)果的操作的操作數(shù)之一。以這一方式,與1985年3月21日公布的IEEE 754標準,IEEE std.754-1985一致的算術(shù)運算將傳播NaN通過到結(jié)果而不觸發(fā)算術(shù)異常。
雖然由于操作數(shù)的全寬度能并行處理而在上述實施例中達不到明顯的加速,應理解通過關(guān)閉要忽略其結(jié)果的那些操作便能降低功耗。從而,可達到明顯的功率節(jié)省。此外,采用QNaN與/或恒等函數(shù)值,可通過防止由不是部分寬度壓縮數(shù)據(jù)操作的一部分的數(shù)據(jù)元素觸發(fā)異常而維持可預測的異常模型。因此,所報告的異常局限于與部分寬度壓縮數(shù)據(jù)操作意欲在其上操作的數(shù)據(jù)元素相關(guān)產(chǎn)生的那些。
圖6展示可用來執(zhí)行全寬度壓縮數(shù)據(jù)指令的算術(shù)邏輯單元(ALU)的當前處理器實現(xiàn)。圖6的ALU包含在操作數(shù)的全寬度(即所有數(shù)據(jù)元素)上執(zhí)行操作所必需的電路。圖6還示出該ALU包含兩個不同類型的執(zhí)行單元,分別用于執(zhí)行不同類型的運算(如某些ALU使用獨立的單元來執(zhí)行加法與乘法運算)。加法執(zhí)行單元與乘法執(zhí)行單元分別能作為四個獨立的加法執(zhí)行單元及四個獨立的乘法執(zhí)行單元操作。作為替代,ALU可包含一或多個乘累加(MAC)單元,各能執(zhí)行多于單一類型的運算。雖然以下示例假定采用加法與乘法執(zhí)行單元及浮點運算,應理解諸如MAC與/或整數(shù)運算等其它執(zhí)行也可使用。此外,可能最好采用部分寬度實現(xiàn)(如在執(zhí)行單元與數(shù)據(jù)元素之間具有少于一一對應的實現(xiàn))以及附加邏輯來協(xié)調(diào)執(zhí)行單元的重復使用,如下所述。
部分寬度硬件和“交錯執(zhí)行”圖7A-7B概念性地展示正以“交錯”方式分別執(zhí)行的全寬度壓縮數(shù)據(jù)操作及部分寬度壓縮數(shù)據(jù)操作。本實施例的上下文中“交錯執(zhí)行”指將指令的操作數(shù)各分成獨立的段并使用同一硬件順序處理各段的進程而言。通過在連接的段的處理中引入延時而順序地處理各段。如圖7A-7B中所示,將壓縮數(shù)據(jù)操作數(shù)分成“高位段”(數(shù)據(jù)元素3與2)及“低位段”(數(shù)據(jù)元素1與0)。在圖7A的示例中,低位段正在處理而高位段被延時。隨后,處理高位段而獲得全寬度結(jié)果。在圖7B的示例中,低位段正在處理,而高位數(shù)據(jù)段是否處理則取決于實現(xiàn)。例如,如果對應的結(jié)果是要清零的則高位數(shù)據(jù)段可能不需要處理。此外應理解如果不處理高位數(shù)據(jù)段,則高位與低位數(shù)據(jù)段可同時處理。類似地,在全寬度實現(xiàn)(如在執(zhí)行單元與數(shù)據(jù)元素之間具有一一對應的實現(xiàn))則高與低位數(shù)據(jù)段可同時處理或如圖7A中所示。
此外,雖然下面的實施例是描述為只具有加法與乘法執(zhí)行單元的,也可使用諸如MAC單元等其它類型的執(zhí)行單元。
雖然存在著能達到交錯的指令執(zhí)行的若干不同方式,以下各節(jié)描述兩個示范性實施例來說明本發(fā)明的這一方面。具體地,所描述的兩個示范性實施例都接收指定包含128位操作數(shù)的邏輯寄存器的相同宏指令。
在第一示范性實施例中,指定包含128位操作數(shù)的邏輯寄存器的各宏指令導致從物理寄存器訪問全寬度的操作數(shù)。從寄存器訪問全寬度操作數(shù)之后,將操作數(shù)分成低與高位段(如利用鎖存器與多路復用器)及使用相同的硬件順序地執(zhí)行。采集得出的半寬度結(jié)果并同時將它們寫入單個邏輯寄存器中。
反之,在第二示范性實施例中將指定包含128位操作數(shù)的邏輯寄存器的各宏指令分成至少兩條各只在一半操作數(shù)上操作的微指令。從而操作數(shù)是分成高與低位段的而各微指令獨立地導致從寄存器中只訪問一半操作數(shù)。在SIMD體系結(jié)構(gòu)中這種分法是可能的,因為各操作數(shù)是互相獨立的。雖然第二實施例的實現(xiàn)能以任何次序執(zhí)行微指令(以按次序的或無次序的執(zhí)行模型),微指令分別導致在操作數(shù)的低位與高位段上獨立地或分開地執(zhí)行宏指令所指定的操作。此外,各微指令導致將一半得出的操作數(shù)寫入宏指令所指定的單一目的地邏輯寄存器中。
雖然將實施例描述為在其中將128位操作數(shù)分成兩段的,替代實施例能使用更大或更小的操作數(shù)與/或?qū)⑦@些操作數(shù)分成兩段以上。此外,雖然將兩個示范性實施例描述為用于執(zhí)行交錯執(zhí)行的,替代實施例可采用其它技術(shù)。
采用“交錯執(zhí)行”的第一示例性實施例圖8A概念性地展示從邏輯寄存器存取全寬度操作數(shù)但一次在操作數(shù)的一半寬度上執(zhí)行操作的按照第一實施例的處理器內(nèi)的電路。這一實施例假定處理器執(zhí)行機能在每一時鐘周期中處理一條指令。作為示例,假定執(zhí)行下述指令序列ADD X,Y;MUL A,B。在時間T上,通過端口1與2從它們各自的物理寄存器中各檢索出128位的X及128位的Y。將X與Y兩者的低位數(shù)據(jù)段,即低64位,傳遞給多路復用器802及804,然后向前傳遞給執(zhí)行單元供處理。將X與Y的高位數(shù)據(jù)段,高64位保存在延時元件M1與M2中。在時間T+1上,從延時元件M1與M2中讀取X與Y的高位數(shù)據(jù)段,然后向前傳遞到執(zhí)行單元供處理。通常,將高位數(shù)據(jù)段存儲在延時元件M1與M2中的延時機構(gòu)允許N位(在本例中N=64)硬件處理2N位數(shù)據(jù)。然后將來自執(zhí)行單元的低位結(jié)果保存在延時元件M3中直到高位結(jié)果就緒為止。然后通過端口3將兩個處理步驟的結(jié)果寫回到寄存器堆800?;貞浽诓糠謱挾葔嚎s數(shù)據(jù)操作的情況中,可將低或高位結(jié)果的一或多個數(shù)據(jù)元素強制到預定值上(如零、X或Y之一中的對應數(shù)據(jù)元素的值、等)而不是加法或乘法運算的輸出。
繼續(xù)本示例,在時間T+1上,也已起動乘法指令。從而在時間T+1上,可能已通過端口1與2從它們各自的寄存器中檢索出各128位的A與B。可將A與B兩者的低位數(shù)據(jù)段,即低64位傳遞到多路復用器806與808中。從延時元件M1與M2中清除X與Y的高位段并傳遞到多路復用器806與808中之后,可將A與B的高位段保持存儲在延時元件M1與M2中,通過端口3將兩個處理步驟的結(jié)果寫回到寄存器堆800。
從而,按照本發(fā)明的實施例,設置了只包含一半硬件的執(zhí)行單元(諸如兩個單精度加法執(zhí)行單元及兩個單精度乘法執(zhí)行單元),而不是要求執(zhí)行單元如在當前的處理器中發(fā)現(xiàn)的那樣去并行處理全寬度的操作數(shù)。本實施例利用了揭示多媒體應用利用大約50%加法指令與50%乘法指令這一統(tǒng)計分析。根據(jù)這些統(tǒng)計,本實施例假定多媒體指令通常遵照下述模式ADD,MUL,ADD,MUL,等等。通過以上述方式利用加法與乘法執(zhí)行單元,本實施例提供執(zhí)行單元的優(yōu)化使用,從而能以較低的成本達到與當前的處理器相當?shù)男阅堋?br>
圖8B為進一步說明圖8A的電路的定時圖。更具體地,如圖8B中所示,當在時間T上發(fā)布指令“ADD X,Y”時,兩個加法執(zhí)行單元首先在低位數(shù)據(jù)段或圖1的兩個低位壓縮數(shù)據(jù)段,即X0Y0及X1Y1上執(zhí)行加法。在時間T+1上,用相同的執(zhí)行單元在來自操作數(shù)的其余兩個數(shù)據(jù)元素上執(zhí)行加法運算,并將高位數(shù)據(jù)段的后面兩個數(shù)據(jù)元素相加,即X2Y2與X3Y3。雖然上述實施例是參照利用兩個執(zhí)行單元的加法與乘法運算描述的,替代實施例可利用任何數(shù)目的執(zhí)行單元與/或以交錯方式執(zhí)行任何數(shù)目的不同運算。
按照本實施例,可利用64位硬件來處理128位數(shù)據(jù)。一個128位寄存器可分成四個32位元素,各表示獨立的32位值,在時間T上,兩個加法執(zhí)行單元首先在兩個低位32位值上執(zhí)行加法,后面跟隨著在時間T+1上在高位32位值上的加法。在乘法運算的情況中,乘法執(zhí)行單元以相同的方式工作。利用當前可獲得的64位硬件去處理128位數(shù)據(jù)的這一能力代表了對硬件制造商的巨大成本效益。
如上所述,在后一個時鐘周期上重復使用按照本實施例的加法與乘法執(zhí)行單元重復執(zhí)行第二個加法或乘法運算。當然,在部分寬度壓縮數(shù)據(jù)指令的情況中,重復使用執(zhí)行單元但沒有必要重復執(zhí)行運算,因為可以有選擇地關(guān)閉對執(zhí)行單元的供電。總之,如上所述,為了高效地執(zhí)行這一重復使用或“交錯執(zhí)行”,利用了多媒體應用的統(tǒng)計表現(xiàn)。
如果第二加法指令跟隨第一加法指令,第二加法可被調(diào)度單元延時,以便加法執(zhí)行單元能完成第一加法指令,或更具體地在高位數(shù)據(jù)段上的第一加法指令。然后開始執(zhí)行第二加法指令。作為替代,在無序處理器中,調(diào)度單元可確定是否可無序地執(zhí)行指令流中更后面的乘法指令。如果是,調(diào)度單元可通知乘法執(zhí)行單元開始處理該乘法指令。如果在時間T+1上沒有可供處理的乘法指令,在第一加法指令后面調(diào)度程序?qū)⒉话l(fā)布指令,從而允許加法執(zhí)行單元在開始第二加法指令之前定時完成第一加法指令。
本發(fā)明的又另一實施例,通過在一半時鐘周期而不是整個時鐘周期上在同一執(zhí)行單元上執(zhí)行指令而允許發(fā)布加倍的加法或乘法指令。在半時鐘周期上執(zhí)行一條指令有效地“雙激發(fā)”硬件,即使硬件兩倍快。以這一方式,可在每一個時鐘周期中利用加法或乘法執(zhí)行單元來處理新指令。雙激發(fā)的硬件允許硬件單元以只在整個時鐘周期上執(zhí)行的單激發(fā)硬件兩倍的效率執(zhí)行。雙激發(fā)硬件需要明顯地更多的硬件以便在半時鐘周期上高效地處理指令。
應理解,本發(fā)明的修改與變化是被上述教導涵蓋的并在所附權(quán)利要求的視界內(nèi),并不脫離本發(fā)明的精神與意向范圍。例如,上面雖然只描述了兩個執(zhí)行單元,但可提供任何數(shù)目的邏輯單元。
采用“交錯執(zhí)行”的第二示例性實施例按照本發(fā)明的替代實施例,全寬度操作數(shù)的交錯執(zhí)行是通過將一條全寬度宏指令轉(zhuǎn)換成至少兩條各只在一半操作數(shù)上操作的微指令來達到的。如下面進一步描述的,通過消除沒有必要確定部分寬度結(jié)果的微指令,在宏指令指定部分寬度壓縮數(shù)據(jù)操作時能達到更佳性能。以這一方式,減少了處理器資源制約并且處理器不再被無意義的微指令無必要地占用。雖然下面的描述是按照具體的寄存器重新命名法編寫的,應理解也可與本發(fā)明協(xié)調(diào)利用其它寄存器重新命名機制。下面描述的寄存器重新命名方法假設采用寄存器別名表(RAT)、排序緩沖器(ROB)及退役緩沖器,如在美國專利號5,446,912中詳細描述的。也可實現(xiàn)諸如在美國專利號5,197,132中描述的替代寄存器重新命名方法。
圖9概念性地展示通過將宏指令轉(zhuǎn)換成各處理全寬度操作數(shù)的一部分的多條微指令以“交錯”方式在操作數(shù)上執(zhí)行操作的流水線的一個實施例。應指出為了避免不必要地使本發(fā)明難以理解,并未詳細示出諸如取指令階段等流水線的各種其它階段。如所示,在流水線的解碼階段,接收全寬度宏指令,指定各存儲全寬度操作數(shù)(如128位)的邏輯源寄存器。作為示例,所描述的操作數(shù)為128位壓縮浮點數(shù)據(jù)操作數(shù)。在本例中,處理器支持用于存儲壓縮浮點數(shù)據(jù)的Y個邏輯寄存器。將宏指令轉(zhuǎn)換成各導致宏指令在半寬度操作數(shù)(如64位)上執(zhí)行操作的微指令,即“高位操作”與“低位操作”。
兩條半寬度微指令然后進入流水線的寄存器重新命名階段。寄存器重新命名階段包含各種寄存器圖及排序緩沖器。各微指令的邏輯源寄存器為對寄存器映象表(如RAT)中的特定寄存器項的指針。寄存器映象表中的項又指向ROB中或退役寄存器中的物理源單元的位置。按照一個實施例,為了提供上述半寬度高與低位操作,壓縮浮點數(shù)據(jù)的RAT設置有Y*2個項。從而,例如,不是帶有8個邏輯寄存器項的RAT,而是建立帶16個項的RAT,各項編址為“高”或“低”。各項標識對應于128位邏輯寄存器的高或低部分之一的64位源。
從而各高與低位微指令在對應于各自的操作數(shù)的寄存器映象表中具有相關(guān)的項。然后微指令進入調(diào)度階段(對無序處理)或執(zhí)行階段(對按序處理器)。各微指令檢索與分開處理128位操作數(shù)的64位段。64硬件單元首先執(zhí)行操作之一(如低位操作)。然后,同一64位硬件單元執(zhí)行高位操作。應理解,在低與高位操作之間可執(zhí)行零或數(shù)條指令。
雖然上述實施例描述將宏指令分成兩條微指令,替代實施例可將宏指令分成更多的微指令。雖然圖9示出將壓縮浮點數(shù)據(jù)返回給帶有各指定為高或低的Y*2個64位寄存器的退役寄存器堆,替代實施例可采用帶有Y個128位寄存器的退役寄存器堆。此外,雖然將一個實施例描述為具有帶排序緩沖器與退役寄存器堆的寄存器重新命名機構(gòu)的,替代實施例可使用任何寄存器重新命名機構(gòu)。例如,美國專利號5,197,132的寄存器重新命名機構(gòu)采用歷史隊列與后備圖。
圖10為進一步說明圖9中所描述的實施例的定時圖。在時間T上,宏指令“ADD X,Y”進入圖9的流水線的解碼階段。作為示例,該宏指令為128位指令。將該128位宏指令轉(zhuǎn)換成兩條64位微指令,即高位運算“ADD XH,YH”及低位運算“ADD XL,YL”。然后各微指令處理包含兩個數(shù)據(jù)元素的一段數(shù)據(jù)。例如,在時間T上,可由64位執(zhí)行單元執(zhí)行低位操作。然后在不同的時間上(如時間T+N),同一64位執(zhí)行單元執(zhí)行高位操作。從而本發(fā)明的這一實施例特別適用于利用現(xiàn)有的64位硬件系統(tǒng)處理128位指令,而無須對硬件作重大改變?,F(xiàn)有的系統(tǒng)除了現(xiàn)有的邏輯寄存器圖之外,很容易擴展成包含新圖來處理壓縮的浮點。
現(xiàn)在參見圖11,其中描述了按照本發(fā)明的一個實施例可以采用的解碼邏輯。簡要地說,在所描繪的實施例中,多個解碼器1110、1120及1130各接收一條宏指令并將其轉(zhuǎn)換成微指令。然后將微操作向下送到流水線的其余部分。當然,執(zhí)行每一條宏指令不一定需要N條微指令。因此,通常的情況是只排隊微指令的子集供流水線的其余部分處理。
如上所述,壓縮數(shù)據(jù)操作可實現(xiàn)為兩條半寬度微指令(如高位操作與低位操作)。不是象先有處理器實現(xiàn)所要求的用兩個解碼器獨立地解碼宏指令來生成高與低位操作,作為本實施例的特征可用同一解碼器生成兩條微指令。在本例中,這是用復制邏輯1150完成的,它復制高或低位操作,并隨后適當?shù)匦拚玫降膹椭撇僮鱽斫⑹O碌牟僮鳌V匾氖?,如上所述,通過小心地編碼寄存器地址空間,能用單一的位來區(qū)分宏指令引用的寄存器(如邏輯源與目的地寄存器)。結(jié)果,最簡單的形式的修正邏輯1160可包括一或多個反相器來反相適當?shù)奈灰员銖牡臀徊僮鳟a(chǎn)生高位操作及反過來。在任何情況中,然后將復制的宏指令傳遞給多路復用器1170。多路復用器1170也接收解碼器1120生成的微指令。在本例中,多路復用器1170在有效性解碼器1180的控制下輸出用于壓縮數(shù)據(jù)操作(包含部分寬度壓縮數(shù)據(jù)操作)的復制的微指令,并輸出從解碼器1120接收的用于壓縮數(shù)據(jù)操作以外的操作的微指令。因此,優(yōu)化操作碼圖來簡化復制邏輯1150對壓縮數(shù)據(jù)操作的檢測是有利的。例如,如果只需要檢驗宏指令的一小部分來區(qū)別壓縮數(shù)據(jù)操作與其它操作,則有效性解碼器1180可采用較少的電路。
在為了執(zhí)行部分寬度壓縮數(shù)據(jù)操作的目的而將源數(shù)據(jù)元素傳遞通過到邏輯目的地寄存器的實現(xiàn)中,除了類似于相對于圖5A與5C描述的選擇邏輯之外,可包含邏輯來消除(消滅)高或低位操作之一,為了性能原因,最好及早在流水線中消除無關(guān)的微指令。這一消除可按照通過利用從微指令長度確定電路1190輸出的微指令選擇信號描繪的實施例來完成。該微指令長度確定邏輯1190檢驗一部分宏指令并生成指示要在流水線中向下進行的一或多條微指令的特定組合的微指令選擇信號。在標量SIMD指令的情況中,只允許進行得出的高與低位操作之一。例如,微指令選擇信號可表示為標識哪些微指令要保留及哪些要消除的位屏蔽。作為替代,微指令選擇信號可簡單地指示從預定的起點開始要消除或保留的微指令的數(shù)目。執(zhí)行上述消除所需的邏輯取決于引導微指令通過流水線的其余部分的導航機制而變化。例如,如果微指令是排隊的,可能要增加邏輯來操作微指令隊列的頭與尾指針以導致用后面生成的有效微指令來改寫無效的微指令,許多其它的消除技術(shù)對于本技術(shù)中的普通技術(shù)人員是熟知的。
雖然為了簡單起見在所描繪的實施例中一次只示出為解碼單一宏指令,但在替代實施例中可同時解碼多條宏指令,同時可理解,微指令復制具有比上述實施例所示更廣闊的應用性。例如,以類似于上述的方式,可用同一解碼器解碼全寬度及部分寬度壓縮數(shù)據(jù)宏指令。如果用前綴來區(qū)分全寬度與部分寬度壓縮數(shù)據(jù)宏指令,解碼器可簡單地忽略該前綴并以相同方式解碼兩種類型的指令。然后,可以修改得出的微操作中的適當?shù)奈粊碛羞x擇地為數(shù)據(jù)元素全體或其子集啟動處理。以這一方式,可從部分寬度壓縮數(shù)據(jù)微操作生成全寬度壓縮數(shù)據(jù)微操作,反之亦然,借此降低解碼器的復雜性。
從而公開了用于高效地執(zhí)行部分寬度壓縮數(shù)據(jù)指令的方法與設備。這里描述的這些特定的設備與方法只是為了展示本發(fā)明的原理。本技術(shù)中的普通技術(shù)人員可作出形式上與細節(jié)上的許多修改而不脫離本發(fā)明的范圍。雖然對于特定的最佳實施例示出了本發(fā)明,但不應認為局限于此。反之,本發(fā)明只受所附權(quán)利要求書的范圍的限制。
權(quán)利要求
1.一種方法,包括接收部分寬度壓縮數(shù)據(jù)指令,所述部分寬度壓縮數(shù)據(jù)指令指定第一壓縮數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)在存儲器中的位置,所述部分寬度壓縮數(shù)據(jù)指令指定壓縮數(shù)據(jù)結(jié)果的生成,壓縮數(shù)據(jù)結(jié)果具有對第一和第二壓縮數(shù)據(jù)操作數(shù)的一個或多個數(shù)據(jù)元素對執(zhí)行的一個或多個操作的一個或多個結(jié)果作為一個或多個數(shù)據(jù)元素,并且壓縮數(shù)據(jù)結(jié)果具有一個或多個預定值作為一個或多個剩余數(shù)據(jù)元素;和生成壓縮數(shù)據(jù)結(jié)果,包括存取第一和第二壓縮數(shù)據(jù)操作數(shù)的全寬度;將第一和第二壓縮數(shù)據(jù)操作數(shù)之中的每個劃分為低位段和高位段;和使用相同的硬件順序地處理低位段和高位段。
2.根據(jù)權(quán)利要求1的方法,其中第一和第二壓縮數(shù)據(jù)操作數(shù)包括128位操作數(shù),以及其中壓縮數(shù)據(jù)結(jié)果包括128位壓縮數(shù)據(jù)結(jié)果。
3.根據(jù)權(quán)利要求1的方法,其中一個或多個預定值包括第一壓縮數(shù)據(jù)操作數(shù)的數(shù)據(jù)元素的值。
4.根據(jù)權(quán)利要求1的方法,其中所述生成壓縮數(shù)據(jù)結(jié)果包括清除壓縮數(shù)據(jù)結(jié)果的數(shù)據(jù)元素。
5.根據(jù)權(quán)利要求1的方法,其中部分寬度壓縮數(shù)據(jù)指令包括標量壓縮數(shù)據(jù)指令,以及其中壓縮數(shù)據(jù)結(jié)果包括只對第一和第二壓縮數(shù)據(jù)操作數(shù)的單個數(shù)據(jù)元素對執(zhí)行的操作的結(jié)果。
6.根據(jù)權(quán)利要求1的方法,進一步包括將報告的異常限制到與所述確定壓縮數(shù)據(jù)結(jié)果的部分相關(guān)聯(lián)的那些異常。
7.根據(jù)權(quán)利要求1的方法,進一步包括通過選擇性地關(guān)閉生成壓縮數(shù)據(jù)結(jié)果不需要的電路來減少功耗。
8.一種設備,包括寄存器堆,提供邏輯寄存器來存儲壓縮數(shù)據(jù)操作數(shù),每個壓縮數(shù)據(jù)操作數(shù)包括多個數(shù)據(jù)元素;解碼器,接收包括部分寬度壓縮數(shù)據(jù)指令的指令,所述部分寬度壓縮數(shù)據(jù)指令指定壓縮數(shù)據(jù)結(jié)果的生成,壓縮數(shù)據(jù)結(jié)果包括對第一壓縮數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)的一對數(shù)據(jù)元素執(zhí)行的操作的結(jié)果作為第一數(shù)據(jù)元素,并且壓縮數(shù)據(jù)結(jié)果包括預定值作為第二數(shù)據(jù)元素;和執(zhí)行單元,與所述解碼器和寄存器堆相耦合,其中所述執(zhí)行單元包括從存儲器的位置中存取操作數(shù)的全寬度的邏輯;和在不同的時間處理操作數(shù)的部分的邏輯。
9.根據(jù)權(quán)利要求8的設備,其中執(zhí)行單元包括將操作數(shù)之一的數(shù)據(jù)元素傳遞到壓縮數(shù)據(jù)結(jié)果的邏輯。
10.根據(jù)權(quán)利要求8的設備,其中預定值包括恒等函數(shù)值。
11.根據(jù)權(quán)利要求8的設備,其中執(zhí)行單元包括清零壓縮數(shù)據(jù)結(jié)果的數(shù)據(jù)元素的邏輯。
12.根據(jù)權(quán)利要求8的設備,其中部分寬度壓縮數(shù)據(jù)指令包括標量壓縮數(shù)據(jù)指令。
13.根據(jù)權(quán)利要求8的設備,其中第一和第二壓縮數(shù)據(jù)操作數(shù)包括128位操作數(shù),以及其中壓縮數(shù)據(jù)結(jié)果包括128位操作數(shù)。
14.根據(jù)權(quán)利要求8的設備,其中部分寬度壓縮數(shù)據(jù)指令指定壓縮數(shù)據(jù)結(jié)果在寄存器堆的邏輯源寄存器中存儲在第一壓縮數(shù)據(jù)操作數(shù)之上。
15.根據(jù)權(quán)利要求8的設備,其中執(zhí)行單元包括順序處理第一和第二壓縮數(shù)據(jù)操作數(shù)的獨立段和以交錯方式生成第一數(shù)據(jù)元素與第二數(shù)據(jù)元素的邏輯。
16.根據(jù)權(quán)利要求8的設備,進一步包括通過選擇性地關(guān)閉生成壓縮數(shù)據(jù)結(jié)果不需要的執(zhí)行單元的電路來減少功耗的邏輯。
17.一種方法,包括接收指定第一壓縮數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)在存儲器中的位置的指令;從存儲器中存取第一壓縮數(shù)據(jù)操作數(shù)和第二壓縮數(shù)據(jù)操作數(shù)的全寬度;將第一壓縮數(shù)據(jù)操作數(shù)劃分為第一部分和第二部分;將第二壓縮數(shù)據(jù)操作數(shù)劃分為第三部分和第四部分;通過對第一和第三部分執(zhí)行利用該指令指定的操作來確定第一部分結(jié)果;和通過處理第二和第四部分來確定第二部分結(jié)果,其中確定第二部分結(jié)果包括將至少一個數(shù)據(jù)元素設置為預定值,其中使用相同的硬件來確定第一和第二部分結(jié)果。
18.根據(jù)權(quán)利要求17的方法,其中該指令包括標量壓縮數(shù)據(jù)指令。
19.根據(jù)權(quán)利要求17的方法,進一步包括將第一部分結(jié)果的一部分設置為從一個操作數(shù)的數(shù)據(jù)元素的值和恒等函數(shù)值之中選擇的一個值。
20.根據(jù)權(quán)利要求17的方法,其中操作數(shù)包括128位操作數(shù);以及其中低位段和高位段均包括64位段。
21.根據(jù)權(quán)利要求17的方法,進一步包括在確定第二部分結(jié)果之前延遲第二和第四部分。
22.根據(jù)權(quán)利要求17的方法,進一步包括通過選擇性地關(guān)閉確定第二部分結(jié)果不需要的電路來減少功耗。
23.根據(jù)權(quán)利要求17的方法,進一步包括延遲第一部分結(jié)果;在所述延遲第一部分結(jié)果之后,收集第一和第二部分結(jié)果;和將部分結(jié)果寫入利用該指令指定的目的地。
24.一種設備,包括劃分邏輯,接收利用部分寬度壓縮數(shù)據(jù)指令指定的第一壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第一部分和第二部分,以及接收利用部分寬度壓縮數(shù)據(jù)指令指定的第二壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第三部分和第四部分;延遲元件,與劃分邏輯相耦合,接收和延遲第一部分和第三部分;和執(zhí)行單元,與劃分邏輯和延遲元件相耦合,所述執(zhí)行單元提供利用部分寬度壓縮數(shù)據(jù)指令指定的壓縮數(shù)據(jù)結(jié)果給利用部分寬度壓縮數(shù)據(jù)指令指定的目的地,壓縮數(shù)據(jù)結(jié)果包括只對第一和第二壓縮數(shù)據(jù)操作數(shù)的數(shù)據(jù)元素的子集執(zhí)行的操作的一個或多個結(jié)果。
25.根據(jù)權(quán)利要求24的設備,其中第一和第二壓縮數(shù)據(jù)操作數(shù)包括128位操作數(shù),以及其中劃分邏輯包括將128位操作數(shù)劃分為64位低位段和64位高位段的邏輯。
26.根據(jù)權(quán)利要求24的設備,其中執(zhí)行單元的相同電路在與第一和第三部分不同的時間處理第二和第四部分。
27.根據(jù)權(quán)利要求24的設備,進一步包括延遲元件來延遲與第二和第四部分相相應的壓縮數(shù)據(jù)結(jié)果的部分。
28.根據(jù)權(quán)利要求24的設備,其中該指令包括標量壓縮數(shù)據(jù)指令,以及其中執(zhí)行單元包括對第二和第四部分的相應數(shù)據(jù)元素的單個對執(zhí)行利用該指令指定的操作的邏輯。
全文摘要
提供用于執(zhí)行壓縮數(shù)據(jù)指令的方法與設備。根據(jù)本發(fā)明的一個方面,處理器或其他設備可以包括劃分邏輯。劃分邏輯可以包括邏輯來接收利用部分寬度壓縮數(shù)據(jù)指令指定的第一壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第一部分和第二部分。劃分邏輯也可以包括邏輯來接收利用部分寬度壓縮數(shù)據(jù)指令指定的第二壓縮數(shù)據(jù)操作數(shù)的全寬度并將其劃分為第三部分和第四部分。該設備也可以包括與劃分邏輯相耦合的延遲元件,以接收和延遲第一部分和第三部分。該設備可以進一步包括與劃分邏輯和延遲元件相耦合的執(zhí)行單元。執(zhí)行單元可以提供利用部分寬度壓縮數(shù)據(jù)指令指定的壓縮數(shù)據(jù)結(jié)果給利用部分寬度壓縮數(shù)據(jù)指令指定的目的地。壓縮數(shù)據(jù)結(jié)果可以包括只對第一和第二壓縮數(shù)據(jù)操作數(shù)的數(shù)據(jù)元素的子集執(zhí)行的操作的一個或多個結(jié)果。
文檔編號G06F9/30GK1595390SQ20041008358
公開日2005年3月16日 申請日期1999年3月31日 優(yōu)先權(quán)日1998年3月31日
發(fā)明者P·魯塞爾, T·塔卡 申請人:英特爾公司